古籍文件辨識與檢索系統(新增)

出自 TELDAP
前往: 導覽搜尋

研發單位

中央研究院,資訊科學研究所,機器學習與分類實驗室。


功能

針對古籍工整中文手寫文字所研發的辨識檢索系統,利用電腦圖形比對技術,由筆劃特徵和字體結構資訊辨識手寫文字,讓古文的保存省空間及檢索省人、省時、準確。


特色

  1. 穩定:以Linux為作業系統平台,MySQL為查詢資料庫。
  2. 古文字辨識能力及學習能力強,OCR精準度高。
  3. 操作介面容易:以網路瀏覽器為操作介面,容易上手,初學者的學習時間少。
  4. 維護簡單:可配合phpMyAdmin及PHP套件等管理工具為管理介面,即使不是程式設計師也易維護系統。

使用說明

使用者在登入系統後的首頁(http://140.109.19.195/adms/html/) ,可以輸入關鍵字做搜尋的工作。如下圖1是查詢的首頁。按下「搜尋」後,就可以檢索出在資料庫中的古文。

Image002圖1.gif
圖1

使用範例

使用者可輸入關鍵字,如「有虞」或「古今」或「曹操」等關鍵字作搜尋。查詢結果如下圖2。

Image003圖2.jpg
圖2

以滑鼠點圖檔,即可由資料庫調這張圖檔及該檔的文字檔(或word格式檔)。

Image004圖3.jpg
圖3

上圖3的左方有可以控制圖檔大小的功能區及文件編輯、傳送文件及列印文件。

如「文件編輯」的功能,使用者可以在點選Mapedit區的[下載結果]下戴OCR後的文字檔。也可以利用我們系統的圖文對應編輯的功能,修正OCR的辨識結果。

Image005圖4.gif
圖4
Image006圖5.gif
圖5

另外,我們的系統也可將查詢結果,寄圖檔如「傳送文件」的功能,介面如下圖6使用者可以在點選Mapedit區的[下載結果]下戴OCR後的文字檔。

Image007圖6.gif
圖6

參考資料

參與研發單位:中央研究院-資訊所- 機器學習與分類實驗室、技術研發分項計畫

提供單位:技術研發分項計畫

使用單位:中央研究院-史語所、中央研究院-近史所、中央研究院-語言所、臺灣師範大學