語言學:臺灣南島語後設資料需求規格書(原 6-1-38 )

出自 TELDAP
前往: 導覽搜尋

前言

中研院後設資料工作組把主題計畫提出之需求經系統化,架構化與國際標準化之後,呈現於本份「後設資料需求規格書version 1.0」中,主要係作為主題計畫與系統開發者之間的溝通橋樑,其中,我們建議主題計畫進行需求規格書確認工作時務必著重於以下的部份:

  1. 計畫簡介
  2. 系統說明
  3. 著錄欄位架構
  4. 後設資料標準比對表
  5. 功能需求說明
  6. 代碼表
  7. 需求規格書確認表單

而系統開發人員在系統實際建置時,可著重於以下之部份:

  1. 資料結構表
  2. 後設資料標準比對表
  3. 功能需求說明
  4. 代碼表

計畫簡介

  • 2.1 計畫說明

在臺灣,原住民語言屬於一個分佈最廣,語言現象又很豐富的語族,我們稱為 「南島語族」。南島語族現今分佈於整個太平洋及印度洋,包括馬達加斯加、印尼、 菲律賓、臺灣、新幾內亞、紐西蘭、夏威夷、麥可羅尼西亞、麥拉尼西亞、玻利尼西亞等各地島嶼的語言。此外,還有馬來半島上的馬來語、中南半島上越南與高棉的查姆語。

臺灣的南島語言呈現極大的變異,其中有很多仍未被探索。大多數南島語言仍未有文字記載,幾乎要面臨消失的命運。南島語數位典藏的目的之一是重新編輯、 收集、保存以及散播此語言於網際網路上,希望能讓大眾分享我們所記載與謄寫的南島語言長篇語料。

此典藏的第一期計畫為期五年,預計到2006 年時,我們將會保存魯凱語、雅美語、鄒語、賽夏語、泰雅語、排灣語、布農語、阿美語以及卑南語等九種南島語言(目前現存的南島語言有十五種)。

本計畫的目的在於建立「臺灣南島語語料庫」,希望所蒐集典藏的語料能夠加以彙整、編輯及流通,並且在民族、文化、教育等各方面都將能提供相當重要性的參考價值。詳細的目的如下:

v 在語言上,語料庫可保證語言消失後,仍可以保存語言的面貌。

v 在學術上,語料庫可以作為語音、詞彙、語法、語意等研究的素材,並提高此領域的研究及發展。臺灣南島語族本無文字,我們對早期的語言亦不清楚;藉著語料庫的建立,可以很快的進行不同時代語言的對比研究。

v 在文化上,母語之保存可以促進原住民文化的復甦及維持民族文化的多元。

v 在教育上,由語料庫的建構,將有助於保存、推廣原住民語言,及編寫第一流的文法專書或詞典等。


  • 2.2 計畫目標

臺灣南島語語料庫最終之目標為建立所有臺灣南島語的語音、詞彙、單句和長篇故事語料等,並加以中、英文翻譯。在應用上,建構網頁查詢介面程式,讓使用者可以依語言、主題等參數界定語料庫範圍,做統計及比較研究。同時亦將建立有聲檔案(Voice Files),使所紀錄之語言資料更為寫實活潑。


  • 2.3 計畫參與人員

v 中研院語言學研究所籌備處:齊莉莎老師(計畫主持人)、余清華、張如瑩

v 數位典藏國家型科技計畫後設資料工作組:陳亞寧、陳淑君、翁翠霞、沈漢聰 (需求規格書撰寫者)

系統說明

  • 3.1 系統目標

本計畫主要目標乃基於國際語言標準OLAC Metadata 精神建立「臺灣南島語語料庫」,以有效保存即將消失的南島語言,進而達到數位化典藏的目標,此外, 更可將此語料庫放置於網際網路上作適當的開放,提供大眾查詢使用,使其成為一個豐富的南島語言資訊的來源。

本計畫希望所開發的系統能為大家樂於使用,因此為了達到上述目標,設計系統時的目標與方向應如下:

v 操作簡便: 盡量簡化操作介面,並與現有的漢語語料庫檢索介面保持一致性。除非必要,均只使用全球共通的瀏覽器。

v 易於維護: 系統易於維護,可採用多種登錄方式,如單筆或多筆資料輸入,以及檔案匯入功能。另外,自動偵錯可減少系統因人為而產生的錯誤。

v 易於推廣: 語料庫檢索只要有全球共通的瀏覽器即可使用本系統,減少外界不斷詢問的回覆困擾。

v 易於使用: 可以彈性修改登錄介面,如增加欄位或資料選項等,而無需時常求助於開發單位。簡單易懂的系統說明文件,將使登錄人員更快上手。

v 安全可靠:防範資料被非法竊取,建議利用防火牆等機制,確保網路系統安全。 除此之此,利用密碼管制及資料自動備援機制,確保本計畫的寶貴語料有更周全的保障。


  • 3.2 系統範圍

使用範圍:

  1. 檢索的南島語言:使用者可查詢本計畫所涵蓋的魯凱語、雅美語、鄒語、賽夏語、泰雅語、排灣語、布農語、阿美語以及卑南語等九種南島語言
  2. 檢索的語料對象:使用者視需要可查詢族語(ethnic language)、方言(dialect)、文本(text)、段落(paragraph)、句子(sentence)、詞(word)以 及詞素(morpheme)等資訊
  3. 提供相關的Metadata 後設資料之資訊
  4. 使用者透過登錄與維護功能可輕易地變更資料庫的內容

使用對象:

  1. 一般使用者:在網際網路上,一般使用者可自訂語料庫搜尋範圍,閱讀檢索後的結果
  2. 進階使用者:除了一般使用者的權利外,可透過網路登錄或修改資料庫內容,此類使用者多為實際負責語料分析的人員

著錄欄位架構

  • 4.1 著錄架構

著錄架構之主要目的在於讓主題計畫參與同仁確認建檔時所需著錄之後設資料欄位與欄位的先後排序,因一些由系統自動產生欄位值或設定固定值的欄位,因為不需由著錄人員著錄,故不列在著錄架構之內。

另外,臺灣南島語數位典藏計畫在系統架構與著錄架構的規劃上共分為三大部份,分別是文本、人名資料庫與語言資料庫。在文本方面,因所要呈現的語言單位不同,又切分為五個層級,分別為文本層級、段落層級、句子層級、詞層級與詞素層級,其關係是一文本裡可能有好幾個段落,而每個段落又包含幾個句子,每一句 子又可切分數個詞,而詞素可能單獨成詞(如自由詞素)或組成一個詞。在文本裡包含了發音人與參與者的資料,因需多次重複著錄,故建議把這部份的資料抽離文本而獨立建置一個人名資料庫,兩者間利用姓名(文本的是姓名欄位、人名資料庫的是漢名欄位)作連接。而語言部份也因相同的原因建議建立一個語言資料庫,兩者間以語言的漢名欄位作連接。

4.1.1 文本

6141.4.1.1 文本.jpg
6141.4.1.1 文本2.jpg
6141.4.1.1 文本3.jpg

4.1.2 人名資料庫

6141.4.1.2 人名資料庫.jpg

4.1.3 語言資料庫

6141.4.1.3 語言資料庫.jpg
  • 4.2 著錄範例

依上述之著錄架構所填寫的著錄範例如下:

4.2.1 文本

6141.4.2.1 文本.jpg
6141.4.2.1 文本2.jpg
6141.4.2.1 文本3.jpg
6141.4.2.1 文本4.gif
6141.4.2.1 文本5.jpg
6141.4.2.1 文本6.jpg
6141.4.2.1 文本7.jpg

4.2.2 人名資料庫

6141.4.2.2 人名資料庫.jpg

4.2.3 語言資料庫

6141.4.2.3 語言資料庫.jpg

資料結構表

  • 5.1 需求欄位建置表

本需求欄位建置表主要是把主題計畫所提出的需求欄位經系統化、架構化與後設資料標準化之後,並列成表單供系統開發人員建置資料庫時設定欄位所用,同時也供程式設計人員在撰寫程式時參考使用。需求欄位建置表之各項說明如下:

v 項目名稱:主題計畫所需著錄項目之中文名稱。

v 英文名稱:項目名稱對應之英文名稱。

v 資料型態:著錄資料之資料型態。包括:

n Int 存放純數字型態的資料。

n Float 存放浮點數型態的資料。

n Varchar、Text 存放純文字型態的資料。

v 大小:欄位所需之空間,以byte 為單位。一個英文字元或一個阿拉伯數字需用一個byte 表示,而一個中文字元則需兩個byte 表示。

5.1.1 文本

6141.5.1.1 文本.jpg
6141.5.1.1 文本2.jpg
6141.5.1.1 文本3.jpg
6141.5.1.1 文本4.jpg

5.1.2 人名資料庫

6141.5.1.2 人名資料庫.jpg

5.1.3 語言資料庫

6141.5.1.3 語言資料庫.jpg
  • 5.2 需求欄位屬性表

需求欄位屬性表主要是把主題計畫之需求欄位的屬性彙集整理,並列成表單供系統建置人員參考使用.需求欄位屬性表之各項說明如下:

v 項目名稱:主題計畫所需著錄項目之中文名稱。

v 必填:標示「*」者表示為必填欄位,建檔時需填寫該欄位之值,不能空白。

v 多值:標示「◎」者表示為多值欄位,該組欄位資料可重複著錄。

v 屬性:標示該欄位的屬性,包括:

n 「唯一」表示欄位的值在資料庫中是唯一存在的。

n 「下拉式選單」表示著錄方式為下拉式的選單。

n 「二維下拉式選單」表示著錄方式為二維的下拉式選單。

n 「下拉式選單與自行填寫」表示此欄位同時需下拉式選單與自行填寫兩種著錄格式。

n 「二維下拉式選單與自行填寫」表示此欄位同時需二維下拉式選單與自行填寫兩種著錄格式。

n 「對應下拉式選單」表示兩欄位之下拉式選單代碼間有對應之關係,不管著錄人員選擇哪個欄位之代碼,另一欄位對應之代碼需同時被選取。

n 「對應二維下拉式選單」如同對應下拉式選單之功能,但欄位之代碼是二維下拉式選單。

n 「固定值」表示由系統產生一個固定值,且著錄人員無法變更此值。

n 「系統自動產生」表示該欄位的值是由系統自動產生,非由著錄人員著錄。

n 「link」表示該欄位需連結外部資料庫。

v 提供者:記錄這筆資料是由系統自動產生或由填表人所填入。

5.2.1 文本

6141.5.2.1 文本.jpg
6141.5.2.1 文本2.jpg
6141.5.2.1 文本3.jpg
6141.5.2.1 文本4.jpg

5.2.2 人名資料庫

6141.5.2.2 人名資料庫.jpg

5.2.3 語言資料庫

6141.5.2.3 語言資料庫.jpg

後設資料標準比對表

後設資料標準的對照是作為本計畫後設資料欄位和國際後設資料標準的接軌,以及與國際間其他主題計畫作XML 資料交換的關鍵機制。以下分別是南島語後設資料欄位與OLAC、SIL(Summer Institute of Linguistics)及Dublin Core 兩種後設資料標準之比對表。

  • 6.1 學科專屬Metadata Standard Mapping

臺灣南島語後設資料欄位雖分成「文本、人名和語言」三種資料庫。其中,「文本」後設資料和後設資料標準OLAC 作比對,以作為日後資料交換之用;「人名資料庫」在本階段先做為內部資料庫,暫不作為資料交換之用途,因此先不作比對; 「語言資料庫」則和Summer Institute of Linguistics 所發展Ethnologue: Languages of the World 資料庫欄位作比對。

6.1.1 文本

6141.6.1.1 文本.jpg
6141.6.1.1 文本2.jpg
6141.6.1.1 文本3.jpg
6141.6.1.1 文本4.jpg

6.1.2 語言資料庫

6141.6.1.2 語言資料庫.jpg
  • 6.2 DC Mapping

6.2.1 文本

6141.6.2.1 文本.jpg
6141.6.2.1 文本2.jpg
6141.6.2.1 文本3.jpg

6.2.2 人名資料庫

6141.6.2.2 人名資料庫.jpg

6.2.3 語言資料庫

6141.6.2.3 語言資料庫.jpg

功能需求說明

  • 7.1 查詢功能說明

本計畫的查詢功能需求分為「簡易查詢」與「進階查詢」兩種;查詢結果的顯示亦有「簡要顯示」與「詳細顯示」兩種。「簡易查詢」係指系統將對下列表單 「簡易查詢」欄位中,所有標示「△」欄位作查詢,檢索這些欄位的資料是否符合使用者提出的詞彙。若有符合檢索值之結果,則依照「簡要顯示款目」欄位(標示 ●者)顯示列表回應給使用者。「進階查詢」則可對下列表單之「進階查詢」欄位中,標示「▲」的各別欄位作獨立查詢。符合之結果也是先依照檢索「簡要顯示款目」欄位(標示●者)顯示列表回應給使用者。使用者也可進一步點選,系統將提供 「詳細顯示款目」(標示☆者),顯示列表供使用者瀏覽。

7.1.1 文本

6141.7.1.1 文本.jpg
6141.7.1.1 文本2.jpg
6141.7.1.1 文本3.jpg

7.1.2 人名資料庫

6141.7.1.2 人名資料庫.jpg

7.1.3 語言資料庫

6141.7.1.3 語言資料庫.jpg

代碼表

上述5.2 需求欄位屬性表之屬性欄位有標示「下拉式選單者」,其對應之下拉式選單代碼內容如下所示:

  • 8.1 文本
6141.8.1 文本.jpg
6141.8.1 文本2.jpg
  • 8.2 人名資料庫
6141.8.2 人名資料庫.jpg
  • 8.3 語言資料庫
6141.8.3 語言資料庫.jpg
6141.8.3 語言資料庫2.jpg

規格書確認表單

6141.9. 規格書確認表單.jpg

參考資料

參與研發單位:中央研究院計算中心-後設資料工作組、中央研究院-語言所

提供單位:中央研究院-計算中心-後設資料工作組

使用單位:中央研究院-語言所