後設資料內涵分析報告:西南少數民族-文書後設資料分析書(新增)

出自 TELDAP
前往: 導覽搜尋

主題計畫簡介

計畫說明與目標(註1)

民國18年到32年間,中研院歷史語言研究所數度派遣研究人員在中國南方、西南和東北地區,進行民族調查與文物採集工作。如此10餘年來,調查者足跡遍及廣西、浙江、貴州、雲南、四川、西康等地;調查記錄之族群,以當時族稱來說多達30餘種;標本採集包括民族文物1,100餘件,少數民族文書800餘本,田野照片約6,000張,並留下許多語言、民俗、體質測量等資料。

民族文書目前存放在傅斯年圖書館,在這樣一個概括名詞之下,事實上,800多本文書分屬六個群族,分別為麼些(納西)、擺夷(傣)、儸儸(彝)、?、仲家(布依)、湘苗(苗)(參見表1)。即使是單一族群,不同支系的語言文字和社會文化仍有極大的歧異性。

1.1 計畫說明與目標.jpg

民族文書採用各族群通行的文字記載與書寫。這些看似有趣的圖像式或蝌蚪形狀文字,卻是造成一般讀者難以接近的主要原因。在資料庫中,如果我們僅提供文書影像以及文書實體基本資訊,縱使建置資料庫得以克服瀏覽時空條件的限制,但在不識文字的情況下,大部份使用者依然無法閱讀、理解文書內容以及文書所屬族群的社會背景。民族文書與讀者間的巨大鴻溝,並不因數位典藏此一資料瀏覽介面的引介而拉近。因而在數位典藏中,除了期待建立資料庫讓使用者在瀏覽、查詢、使用的方式與介面有更多選擇外,我們更期待在內容層次上能更為深入詳盡。

目前中央研究院圖書館藏目錄內使用的民族文書,標題多有闕漏與錯誤。在800多冊民族文書中,僅部份文書有明確的題名,這些題名主要倚賴早期研究人員翻譯與訂定。然而,標定題名的早期研究人員一方面並非實際儀式的操演者,再者語言的學習因遷臺而中斷,其標定的題名實有再解釋、補充與確認的必要。除了標題不全外,這批文書的使用脈絡與背景亦無相關說明,只能從僅有的、正確性待考的標題來臆測。考量國家科學委員會主導之數位典藏計畫的期間、經費與人力資源後,民族文書的內容詮釋上,先從基礎的編目譯解工作著手,包括標題的全文翻譯、以及內容摘要。


民族文書資料庫建置目標:建立一個以文書翻譯資料為主的資料庫(註3)

民族文書資料庫建置目標旨在突顯文書內容的詮釋與理解。在五年期計畫期間,本計畫預計達成的內容詮釋主要有一、800本文書標題翻譯及內容摘要;二、800本文書使用脈絡簡介;三、20本東巴經全文翻譯。此外,部份東巴經在民國50年間曾由李霖燦先生進行全文翻譯工作。所以建置一個能同時容納早期以及現今翻譯內容的資料庫是我們的重要目標。由於牽涉到語言翻譯的問題,故民族文書資料庫還必須具備標音與呈現民族文字的功能。內容詮釋是本計畫建置資料庫的核心方向,文物實體描述以及影像資料只提供資本資料。


中央研究院後設資料工作組分析與建議

中央研究院後設資料工作組從民國93年起接獲主題計畫後設資料分析的支援請求,期間雙方曾有過幾次開會討論。而從民國94年3月起本組與主題計畫開始積極進行後設資料內涵分析的需求訪談、討論研析、欄位架構調整、國際標準後設資料比對,歷時兩個多月,本組完成此份「西南少數民族文書 後設資料內涵分析書」,作為主題計畫未來系統開發之參考文件。

將本份文件主要之分析與建議摘要如下:


建議將民族文書後設資料區分為三大類: 文書基本資料

可將文書的基本資料如:館藏題名、館藏主題分類、尺寸、現藏位置……等,進行描述。


文書翻譯資料

為本計畫的重點,因文書翻譯類型有「標題」「內文」「早期翻譯資料」三種,故於後設資料設計上先透過【原件類別】區分後,再分別著錄三者所之共通欄位。


影像檔案資料

所有與文書相關的影像,每種類型都視為單筆資料,故也以【原件類別】區分後,再分別著錄其所之共通欄位。


採用國際標準CDWA與DC


CDWA(Categories for the Description of Works of Art)

主題計畫藏品為中國西南地區的少數民族之文書,雖然藏品是「書」且典藏單位為中央研究院傅斯年圖書館,然而主題計畫對於文書後設資料的規劃卻是從研究人員的觀點出發(本計畫之主持人王明珂與協同主持人何翠萍分別為中央研究院歷史語言研究所與民族學研究所之研究員),特別著重於文書翻譯、文書內容以及使用脈絡的詮釋,經過評估與考量,後設資料工作組建議主題計畫採用CDWA。


DC(Dublin Core)

為數位典藏國家型科技計畫聯合目錄互通之依據。目前主題計畫轉出資料至聯合目錄的步驟為:主題計畫a人類學主題小組共通欄位v3.2(民間文書)a(聯合目錄,故也依此製作了一份轉出比對表。


計畫參與人員

中央研究院歷史語言研究所民族學調查標本、照片與檔案數位典藏計畫工作小組:王明珂老師、何翠萍老師、黃宛瑜、胡其瑞、蔡淑韻(93年)

數位典藏國家型科技計畫後設資料工作組:陳亞寧、陳淑君、城菁汝、黃佳慧、卜樂娜、沈漢聰


藏品單元層級關係圖與說明

2. 藏品單元層級關係圖與說明.gif


藏品單元群組關係圖與說明

(表單中以方形表示最小著錄單元(unit))

說明:少數民族文書資料庫共畫分為三大段表單:一、文書基本資料,二、文書翻譯資料,三、影像檔案資料,每一段表單有其不同的最小之藏品單元(unit),如下:

一、文書基本資料:以一本文書為著錄單位

二、文書翻譯資料:以一本文書標題、文書中每葉內文以及一本文書早期翻譯資料為著錄單位

三、影像檔案資料:以每張影像圖檔為著錄單位

這三段表單以【文書登錄號】這個欄位彼此串聯。

3. 藏品單元群組關係圖與說明.gif

分析與建議:

原先,主題計畫將系統架構分成四大段: 1.建檔紀錄檔 2.文書基本資料 3.文書內文資料 4.影像檔案資料 ,但同樣的資訊重複出現於各大段中,如:翻譯的資訊(【譯著者】【譯著日期】【讀音與直譯】【分字讀音與解釋】)分散於 2.文書基本資料 及 3.文書內文資料 這兩段中;又如,影像檔資訊也分散於 2.文書基本資料 3.文書內文資料 4.影像檔案資料 三段中(附件1)。

經後設資料分析後,本組建議主題計畫調整其系統架構為 1.文書基本資料 2.文書翻譯資料 3.影像檔案資料 ,將所有關於翻譯的資訊都聚集於 2.文書翻譯資料 中,只需由【原件類別】區分出翻譯標的物類別(題名/內文),其他為共通的後設資料【譯著者】【譯著日期】【讀音與直譯】【分字讀音與解釋】【內容-漢語意譯】【內容-譯著者意譯】,以省略原先重複出現的後設資料。此外,計畫系統是由中央研究院資訊科學研究所(簡稱資訊所)進行開發,系統開發人員表示 1.建檔紀錄檔 為系統管理資訊,在系統開發時提出此功能即可,無須列入藏品後設資料中,故將第一大段 1.建檔紀錄檔 刪除。

需要說明的是【文書詮釋資料】雖然也是文書翻譯者所提供之資料,但在此卻不置於2.文書翻譯資料下。因為一、其所需後設資料與 2.文書翻譯資料 有差異,無法使用其共通之後設資料(如上述);二、【文書詮釋資料】是以一本書為單位描寫,與 2.文書翻譯資料 的著錄單位(內文/標題)不同;故將【文書詮釋資料】置於 1.文書基本資料下,並將【文書詮釋資料】整大段設為多值,如此不同研究者對於此本文書之詮釋都可紀錄於此,更運用【使用限制】可對每筆【文書詮釋資料】進行開放與否控管。

透過上述的規劃調整,優點有三:

一、主題計畫欄位更為精簡,從99個欄位調整為86個欄位。

二、空值欄位出現的機率降低(內文部份的空值)。

三、更加結構化,後設資料各依其屬性分散於 1.文書基本資料 2.文書翻譯資料 3.影像檔案資料 等三大段中,並透過【文書登錄號】此三段可以彼此串聯。


後設資料欄位需求架構與著錄規範

(◎:多值   *:必填)

4. 後設資料欄位需求架構與著錄規範1.jpg
4. 後設資料欄位需求架構與著錄規範2.jpg
4. 後設資料欄位需求架構與著錄規範3.jpg
4. 後設資料欄位需求架構與著錄規範4.gif
4. 後設資料欄位需求架構與著錄規範5.jpg
4. 後設資料欄位需求架構與著錄規範6.jpg


元素表單關係結構圖與說明

5. 元素表單關係結構圖與說明.gif

說明:此圖說明三份表單在系統的串連關係。

______代表【文書登錄號】,三份表單都有此欄位,箭頭表示串聯的方向,由 2.文書翻譯資料 及 3.影像檔案資料 各串聯到 1.文書基本資料。

______代表【影像檔名】與【相關影像檔名】,三份表單都有【影像檔名】此欄位,箭頭表示串聯方向,由 2.文書翻譯資料 及 1.文書基本資料 各串聯到 3.影像檔案資料 。此外,當 3.影像檔案資料 之某筆影像有【相關影像檔名】時,系統需自動抄錄 3.影像檔案資料 【相關影像檔名】至 2.文書翻譯資料 的【相關影像檔名】中 ( __ . __ )。


著錄範例

著錄範例:傣文書

6.1 著錄範例:傣文書1.jpg
6.1 著錄範例:傣文書2.jpg
6.1 著錄範例:傣文書3.gif
6.1 著錄範例:傣文書4.jpg
6.1 著錄範例:傣文書5.jpg
6.1 著錄範例:傣文書6.jpg


著錄範例:東巴經

6.2 著錄範例:東巴經1.jpg
6.2 著錄範例:東巴經2.jpg
6.2 著錄範例:東巴經3.jpg
6.2 著錄範例:東巴經4.jpg
6.2 著錄範例:東巴經5.gif
6.2 著錄範例:東巴經6.jpg
6.2 著錄範例:東巴經7.jpg


代碼表

7. 代碼表1.jpg
7. 代碼表2.jpg


後設資料國際標準之應用

為數位典藏國家型科技計畫之主題計畫後設資料與國際後設資料標準接軌之重要依據,作為主題計畫與國際間或國內其他主題計畫進行XML資料交換時,彼此互通之基礎。「8. 國際後設資料標準之應用」共包含三部份: 建議採用之標準

CDWA實際應用情形

Dublin Core、人類學主題小組共通欄位v3.2與主題計畫欄位比對表


建議採用之標準

主題計畫藏品為中國西南地區的少數民族之文書,雖然藏品是「書」且典藏單位為中央研究院傅斯年圖書館,然而主題計畫對於文書後設資料的規劃卻是從研究人員的觀點出發(本計畫之主持人王明珂與協同主持人何翠萍分別為中央研究院歷史語言研究所與民族學研究所之研究員),特別著重於文書翻譯、文書內容以及使用脈絡的詮釋,因其較偏向博物館物質文化後設資料的需求,經過評估與考量,後設資料工作組建議主題計畫採用CDWA (Categories for the Description of Works of Art)。

CDWA是由Getty機構下的Art Information Task Force (AITF)所發展的後設資料,主要的描述目標為藝術品、建築、物件群組以及視覺呈現和文本的替代物,其欄位的設計是希望可以滿足藝術史研究的需求,提供給研究者一致、可信的內容。雖然CDWA並非針對民族學藏品所發展之後設資料,但因為CDWA所包含的元素層次較豐富、涵蓋的層面也較廣,能符合本計畫關於 1.基本文書資料 2.文書翻譯資料 3.影像檔案資料 不同層次的需求;另外,CDWA這套標準在使用上相當有彈性,當CDWA無法滿足計畫需求時,後設資料工作組仍以CDWA之架構為主(以不增加CDWA元素的原則下),進行個別欄位之定義擴充或運用其【Remarks(註釋)】欄位。實際應用情形,請見8.2 標準實際應用情形。


CDWA實際應用情形

為協助主題計畫了解其後設資料應用國際標準(CDWA)之情形,後設資料工作組研製完成此份分析比對表,提供主題計畫參考。此份分析比對表僅列出主題計畫採用的CDWA元素,分析結果得知:「西南少數民族文書計畫」共採用CDWA 27類目中之20個類目,且CDWA所認定最重要的八個核心類目,本計畫皆有運用。依據本計畫之 1.基本文書資料 2.文書翻譯資料 3.影像檔案資料 三大層面應用CDWA類目之情形分析如下:

  1. 文書基本資料 運用了18個類目,其中延伸了context(背景)、Exhibition/Loan History(展覽/借出史)、Related Textual References(相關參考資料)、Cataloging History(編目史)、Current Location(現藏地點)等五類目下的元素定義。
  2. 文書翻譯資料 運用了三個類目,其中延伸了Inscriptions/Marks(題刻/標記)、Cataloging History(編目史)等二類目下的元素定義。

分析:因CDWA在「Inscriptions/Marks」的討論中有提到「這類目包括了標音transcription、音譯transliteration、描述description或翻譯translation;……這類目也可以用來記錄主要是文本的作品。」故將大部份 2.文書翻譯資料 都比對在此。並加以延伸其不足的定義部份,如:翻譯者/翻譯時間/漢語意譯/翻譯者意譯……等。

3. 影像檔案資料 運用了三個類目,其中延伸了Related Visual Documentation(相關視覺紀錄)、Cataloging History(編目史)等二類目下的元素定義。

關於更詳細的元素比對說明,請見【表1:主題計畫後設資料應用CDWA類目表】【表2:CDWA標準比對表】。

表1:主題計畫後設資料應用CDWA類目表.jpg


表2:CDWA標準比對表1.jpg
表2:CDWA標準比對表2.jpg
表2:CDWA標準比對表3.jpg
表2:CDWA標準比對表4.jpg
表2:CDWA標準比對表5.jpg
表2:CDWA標準比對表6.jpg
表2:CDWA標準比對表7.jpg
表2:CDWA標準比對表8.jpg


Dublin Core、人類學主題小組共通欄位v3.2與主題計畫欄位比對表

Dublin Core為數位典藏國家型科技計畫聯合目錄互通之依據。目前主題計畫轉出資料至聯合目錄的步驟為:主題計畫a人類學主題小組共通欄位v3.2(民間文書)a聯合目錄。

在此,將三單位之後設資料羅列於下表進行比對:(1)「聯合目錄:人類學主題小組」之比對,由人類學主題小組所提供;(2)人類學主題小組:主題計畫」之比對,提供做為主題計畫將資源分享到人類學主題小組之參考,特別著重於主題計畫資料如何轉出至「人類學主題小組共通欄位系統」之說明及規範(符合「人類學組共通欄位民間文書資料庫-註錄規範」)。

8.3 Dublin Core1.gif
8.3 Dublin Core2.jpg

需求欄位建置表

本需求欄位建置表主要是把主題計畫所提出的需求欄位經系統化、架構化與後設資料標準化之後,並列成單表供系統開發人員建置資料庫時設定欄位所用,同時也供程式設計人員在撰寫程式時參考使用。需求欄位建置表之各項說明如下:

一、項目名稱:主題計畫所需著錄項目之中文名稱。

二、英文名稱:項目名稱對應之英文名稱。

三、資料型態:著錄資料之資料型態。包括:

(一)Int存放純數字型態的資料。例如:25、747。

(二)Float存放浮點數型態的資料。例如:8.64、23.9361。

(三)Varchar(不超過255個字的字元串資料)。

(四)Text(不超過65535個字的字元串資料) 存放純文字型態的資料,無須填大小。 (五)Date以”YYYY-MM-DD”格式存放日期資料,如:2003-12-25。

四、大小:欄位所需之空間,以byte為單位。一個英文字元或一個阿拉伯數字需用一個byte表示,而一個中文字元則需兩個byte表示。

9. 需求欄位建置表1.jpg
9. 需求欄位建置表2.jpg
9. 需求欄位建置表3.jpg

註:

註1:由中央研究院歷史語言研究所「民族學調查標本、照片與檔案數位典藏計畫工作小組」提供。

註2:中央研究院圖書館藏目錄查詢所採用的「主題」,乃是依早期研究者依採集當時的族群分類而寫下的族群別。

註3:由中央研究院歷史語言研究所「民族學調查標本、照片與檔案數位典藏計畫工作小組」提供。

註4:需要您特別注意的是,請前往http://ling.nthu.edu.tw/dl_gen.php 下載SILIPA93檔案(以顯示標音符號)。

註5:同上。

註6:需要您特別注意的是,請前往http://ling.nthu.edu.tw/dl_gen.php 下載SILIPA93檔案(以顯示標音符號)。

註7:同上。

參考資料

參與研發單位:中央研究院-計算中心-後設資料工作組

提供單位:中央研究院-計算中心-後設資料工作組

使用單位:中央研究院-史語所