中文缺字技術
目錄
何謂缺字問題
漢字數位化過程中,常會遇到無法輸入之字形,尤其在各典藏單位處理古代文獻時,此問題更為顯著,此即為缺字問題。以往大家認為擴大交換碼收錄的字形可能是解決的方案之一,然而漢字字形變化太多,實在難以完整收錄。現行交換碼處理漢字的根本缺失,在於將漢字視同西方語言的「拼音字母」,而完全忽略漢字是表意文字,是由有限的基礎部件所組成的。
缺字問題的嚴重性
- 難以管理缺字,特別是輸入資料時
- 交換碼的使用者造字區通常沒有足夠的空間容納缺字
- 使用者造字無法共享
- 有些缺字其實是一些標準字的異體字(異寫字),異體字會會文字擷取與處理造成問題
現有電腦缺字解決方案
全字庫
由行政院主計處電子處理資料中心建置「CNS11643中文標準交換碼全字庫」(簡稱全字庫)網站,主要目的如下:
- 建設我國的中文電腦應用環境。
- 解決個人電腦中文字數不足問題
- 解決自造字交換問題
- 解決機關、企業、團體內部同字不同碼的問題
- 解決網頁上自造字顯示問題
漢字構形資料庫
中央研究院漢字部件檢字系統的研發最早可追溯於1972年國立交通大學關於「交大字根系統」的一系列論文和報告。1993年,中央研究院資訊科學研究所中由謝清俊院士及莊德明助技師所帶領的文獻處理實驗室沿用「交大字根系統」的方法,經年整理各代古文,提出構字式(基於Big5)的作法,整理出各代文字的部件資料庫,分析所有漢字在文字學上的合理組成,進行重作改造,進而建立漢字構形資料庫。2008年更名為中央研究院漢字部件檢字系統,程式部份改以GPL 3.0發佈,資料部份則改以GFDL 1.2及CC-BY-SA 2.5 TW發佈,作為整體軟體專案時則以GPL 3.0發佈。最新版本為2.62。目前中研院正開發3.0版,新版的中文字碼將改用Unicode,亦支援簡體中文Windows系統。
構字式
- 1996年,中研院資訊所謝清俊研究員正式提出「構字式」一詞
- 構字式即字形結構表達式,例如「謝」字的構字式為「言
射」 、「霜」為「雨
相」、「圓」為「囗
員」 - 構字式可作為字形的識別碼,並用來改良現有的中文字碼,以解決缺字問題
- 構字式的設計理念雖和現有的中文字碼完全不同,但可以與使用任何中文字碼的系統相容
- 對於漢字字形結構的制式定義
- 包含有漢字、部件、字根、連結符號、構字規則
- 以拆解完成之漢字構字式
- 利用有限的部件及字根的組合方式來表達任一漢字
- 定義了三類共計十三個的「構字符號」
動態組字
動態組字是一種漢字在計算機等領域的編碼理論及技術。詳細內容參考維基百科-動態組字
網路上的缺字處理技術
目前中研院數位典藏與數位學習國家型科技計畫下第二分項所發展的缺字處理技術,包括缺字檢索系統與網頁呈現缺字的技術。
缺字檢索系統
使用者可以利用本系統檢索缺字及其構字式。使用者可以透過輸入漢字的部件或字根來進行檢索。操作範例如下:
- 如欲查詢含有"字"為部件的漢字
- 輸入"字"進行查詢
- 系統先將"字"拆解成"宀"與"子",在進行搜尋
- 列出含有"宀"與"子"為部件的前100個漢字
- 如欲增加準確度,可在輸入其他部件或字根以便搜尋
而檢索出結果後,進一步可以產生該字形的圖片,可以自行調整圖片大小、顏色以及字體型式。
網頁呈現缺字的技術
為了處理在網頁上呈現缺字的問題。採用的方法是將構字式轉換成缺字圖形。優點:- 能夠在任何瀏覽器中使用
- 使用者不需要額外安裝字形檔
網頁程式設計者在處理含有構字式網頁的時候,可嵌入一段Java Script程式碼,以呼叫構字式處理API,同時設定缺字圖片的字形大小與顏色。當頁面被開啟的時候,構字式處理API會先判斷頁面上的構字式,並將構字式送到漢字構型資料庫,若能搜尋到符合的構字式,將會依據使用者設定的字形大小與字形顏色,把該構字式轉換成一張透明底圖的缺字字形圖片回傳至頁面的適當位置。