漢字異體字(新增)

出自 TELDAP
前往: 導覽搜尋

前言

1. 前言.gif


異體字資料庫

我們建置了一個異體字資料庫,如圖1所示,以後端資料庫來儲存異體字資料,並提供操作簡易的Web介面為前端,讓專家學者可以很容易的進行異體字資料整理,另一方面,一般的使用者則可以透過不同的檢索方式查詢異體字資料庫。網站位址:http://chardb.iis.sinica.edu.tw/charDB3

圖1:異體字資料庫及管理查詢介面.gif
圖1:異體字資料庫及管理查詢介面

以FreeBSD作業系統加上MySql資料庫為後端,結合Apache Web伺服器和PHP語言為前端,我們選擇了以自由軟體的方式來發展異體字資料庫平台。下面,我們將分別描述這三個子系統。


異體字資料庫

資料庫的設計分為兩個主軸,第一個主軸在於認同關係的建立,另一個主軸則在異體字關係的建立,如圖 2所示。

圖2:異體字資料庫.gif
圖2:異體字資料庫

對於每一個漢字,我們收集其相關屬性,包括構字式、部首、筆畫和收錄在各個字碼標準與字典之間的認同關係。透過認同關係的建立,我們可以了解漢字異體字被收錄不同標準與字書的情形,如圖 3所示。目前我們收錄了Unicode 〔錯誤! 找不到參照來源。, 錯誤! 找不到參照來源。〕、繁體業界標準BIG5 〔錯誤! 找不到參照來源。〕、國家標準CNS-11643 〔錯誤! 找不到參照來源。〕和漢語大字典〔錯誤! 找不到參照來源。〕作為參考。


圖3:異體字在不同標準與字書之間的認同關係.jpg
圖3:異體字在不同標準與字書之間的認同關係

異體字表主要是用來建立漢字異體字的關係,包括出處和說明。

目前異體字關係的主要出處包括:教育部異體字典、康熙字典、漢語大字典、簡化字總表、Unihan資料庫、兩萬漢字中日韓越英俄讀音釋義字典等。

說明主要分為兩大類,第一類說明兩個異體字之間構字的差異:部件位置不同、部件異寫、筆畫增減、異構、音借字、分化字、古今字、簡寫;第二類說明兩個異體字之間可交互使用的情境,包含:全同、今視為全同、今視為不同、疑為異體字待考等。

透過圖形介面的多階展開,使用者可以很清楚地看出異體字之間的關係,如圖4和圖 5分別是「為」這個字一階展開和二階展開的異體字關係圖示。


圖4:「為」的異體字(一階展開).jpg
圖4:「為」的異體字(一階展開)
圖5:「為」的異體字(二階展開).jpg
圖5:「為」的異體字(二階展開)


異體字查詢介面

資料庫設計了三種異體字查詢介面,分別為部件查詢、注音及筆畫查詢、編碼查詢。

所謂「部件」,就是構成漢字的最小成文單位,根據中央研究院文獻處理實驗室的統計,所有的基本部件總數為1316個,每一個漢字都可由這些基本部件組成,故所有異體字資料皆可藉由部件查詢的方式檢索,如圖 6所示。若是不知道該輸入什麼部件,則可利用簡易部件查詢,輸入部件筆畫和首筆的寫法即可得知。

注音是和筆畫查詢互相搭配,因為漢字同音字很多,配合筆畫可以增加查詢的速度和準確性,若使用者不知道筆畫可以忽略筆畫的欄位,但是此種查詢方式,使用者不能只輸入筆畫,因為同筆畫的漢字數量龐大,若不搭配注音使用,會影響查詢的效率。

所謂「編碼」就是依照一套固定的規則,針對指定中文字集內的每一個字或符號,編訂相對應的代碼,以方便電腦資訊之處理與應用。而資料庫所提供的編碼查詢有Unicode編碼查詢、BIG5編碼查詢、CNS-11643編碼查詢,和本系統自己的編號查詢,有利管理者整理資料時使用。


異體字整理介面

為了方便異體字整理作業的進行,我們設計了一個以Web為平台的圖形操作介面,主要提供了兩項功能,第一項為認同關係的確認,第二項為異體字關係的建立。中文專家以自己帳號進入管理介面之後,可以透過前一小節所述的查詢介面檢索某個特定的漢字,再進入認同關係頁面(如圖7)或異體字關係頁面(如圖8),進行認同關係和異體字關係的整理。

圖6:查詢部件「為」的結果.jpg
圖6:查詢部件「為」的結果
圖 7:認同關係的確認.jpg
圖 7:認同關係的確認
圖 8:異體字關係的建立.gif
圖 8:異體字關係的建立


異體字詞彙資料庫

3. 異體字詞彙資料庫.jpg

而我們詞彙資料庫整理之目標與原則為:

1. 以現代漢語常用詞彙為整理範疇。

2. 兼收現代漢字之繁簡異體字,尤其包括海峽兩岸所通行之異體字字例。

3. 冀能與字形資料庫之使用相輔相成,例如:能於異體字關係之判斷,提供更堅實之證據。

4. 亦能藉由詞彙資料庫之建置,提供現代漢語詞彙學者研究之用。

5. 提供社會大眾一正確、可靠之詞彙參考資料。

至於詞彙資料庫之作業程序為:

1. 進入「詞彙資料庫」網頁:http://chardb.iis.sinica.edu.tw/charDB2/charsysc.htm。

2. 輸入詞彙字串。(依《現代漢語分類詞典》所收詞彙)

3. 按「送出」。

4. 按「創新詞」。

點選詞彙常用異體字。(「常用」標準:依一般文字使用標準,不挑選過於艱深之字)例如:「意識型態」需點選字例:〔意〕〔識只〕〔形〕〔態太心〕

1. 按「送出」。

2. 按「回主畫面」前,從上排文字確認是否已輸入完成。

又詞彙資料庫之作業注意事項:

1. 若不確知異體字例之取捨標準,則可輸入相關單字,依其前例之選取狀況作取捨,例如:若欲尋「見」之異體,輸入「見」字,則各例會出現異體字「見」;依此標準設定即可。

2. 若工作網頁有異常欄位(包含重複或錯誤欄位),需作紀錄。

3. 若重出之詞彙,則不再新增。

圖9為以「台灣」為例,在異體字詞庫中搜尋之結果。圖10為以「台灣」為例,新增或修訂異體字詞集合的介面。

圖 9:異體字詞的搜尋(以「台灣」為例).jpg
圖 9:異體字詞的搜尋(以「台灣」為例)
圖 10:異體字詞集合的整理(以「台灣」為例).jpg
圖 10:異體字詞集合的整理(以「台灣」為例)


成果簡介

這個計畫於執行期間,包括異體字資料庫的建立、異體字關係的整理和查詢介面的整合,均已完成。目前,我們已經整理了約77,700個漢字和39,300筆異體字關係。每一個漢字包含了部首、筆畫、注音、構字式等基本資訊,對於每一筆異體字關係,我們也盡可能的標示了出處、使用的方式,這些資訊可供一般使用者更正確的了解異體字的使用。在異體字詞方面,我們已完成二萬餘筆中文域名( 註2)相關的異體字域名的整理。目前,我們正著行進行常用字詞及其異體字詞集合的整理。這個成果對於漢字資訊處理,提供了豐富的漢字層面資訊,必然有助於未來精確處理Unicode時代的中文資訊。


註.jpg


參考資料

參與研發單位:中央研究院-史語所、中央研究院-資訊所、東海大學-資管系、技術研發分項計畫

提供單位:技術研發分項計畫

使用單位:中央研究院-史語所