包含未知詞的斷詞標記系統

出自 TELDAP
前往: 導覽搜尋

傳統的中文斷詞系統碰到最大的瓶頸就是未知詞(辭典中沒有的詞)的擷取,而某些類型未知詞的詞構非常複雜,也不一定具有強烈的統計特性,因此未知詞的擷取問題一直是中文語言處理上一個重要且困難的研究課題。本系統提供了一個解決方案,可以自動抽取新詞建立領域用詞或線上即時斷詞功能。此一系統包含一個約十萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料,斷詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決斷詞歧義問題。除了基本詞彙庫外,使用者可依需要附加領域專屬詞庫,斷詞系統採用之詞典俱可擴充性,使用者可依據不同領域文件,補充以領域詞典做為斷詞之用。此系統為各項自然語言處理問題之基礎建設,例如搜尋引擎、文章分類、自動摘要、語音合成、機器翻譯等,其重要性顯著易見。