後設資料的規劃、分析與建置方式(新增)
課程目標與範圍
- 後設資料與後設資料標準的概念
- 深入分析典藏品的意涵,包括內涵與系統兩部份的分析
- 撰寫與維護後設資料功能需求書
- 檢視與評估所開發之後設資料系統
後設資料與後設資料標準簡介
- 1.1 Metadata一詞之各式中譯
1. 元資料
2. 元數據
3. 超資料
4. 詮釋資料
5. 後設資料
- 1.2 不同社群的習慣稱呼
1. 電腦界-資料字典(Data Dictionary)
2. 圖書館界-圖書館目錄(Library Catalogue)
3. 博物館界-館藏記錄、登錄、資料標準(Documentation, Register, Data Standard)
4. 檔案館界-檢索工具(Finding Aid)
- 1.3 什麼是後設資料(Metadata)?
- 1.4 後設資料(Metadata)的定義
1. 資料中的資料(Data about data)
2. 機器可解讀的網頁資訊。(from W3C)
3. 有關資料的結構性資料。(from Dublin Core)
4. 後設資料是有關一個數位典藏品的資料,通常由典藏品創作者或提供者來建立。一般而言,後設資料會伴隨著數位典藏品出現或埋置於檔案標頭中,因此,後設資料可以作為資訊儲存與檢索系統很有用的基礎。(from 美國圖書館學會)
5. …… 超過30種的定義。
- 1.5 後設資料(Metadata)的功用
對擁有者與管理者而言:
1. 長久保存、快速檢索並使用數位資源
2. 管理數位資源
3. 統計數位資源
4. 建置數位資料控制的機制
5. 數位典藏品的共享與互通
對使用者而言:
1. 找尋
2. 辨識
3. 選擇
4. 獲取使用
5. 詮釋、了解、學習
- 1.6 後設資料的類型:(以功能為導向)
1. 描述性後設資料:描述資源的內涵與關聯性,以便發現與辨識資源。如:書目資料
2. 結構性後設資料:給予數位典藏品實質的結構,以便瀏覽、檢索與呈現上述資源。如:書的章節結構、電子全文的翻頁功能。
3. 管理性後設資料:為使數位資源能作長久的管理、使用與保存的相關資料。如:數位資源壓縮資訊、智財權管理資訊等。
- 1.7 後設資料的類型:(以組成結構為導向)
1. 資料結構(data structure)
如:CDWA這套標準之metadata.
2. 資料值(data value)
如:CDWA中的Authorities,包括Place/Location Identification、Subject Identification 、 Creator Identification等。
3. 資料內容(data content)
如:Cataloguing Cultural Objects。
沒有後設資料標準前:
- 各人對相同的事物作出不一樣的描述與詮釋。
- 各人對相同事物著重的重點不一致。
有了後設資料標準後:
- 一致性的描述
- 全面性的描述
- 結構性的描述
- 資料交換性
- 1.8 後設資料標準詳簡類型探討
- 1.9 藝術品描述類目(CDWA, Categories for the Description of Works of Art)
CDWA是由J.Paul Getty Trust下的Art Information Task Force(AITF)所發展的後設資料標準,主要的描述目標為藝術品、建築、物件群,其欄位的設計是希望可以滿足藝術史研究的需求,提供給研究者一致且可信的內容,共有27個類目(categories),細分了233個大小元素。
官方網站:http://www.getty.edu/research/conducting_research/standards/cdwa/
後設資料與後設資料標準簡介
- 1.10 檔案編碼描述格式標準(EAD, Encoded Archival Description)
EAD是一種結構化的檔案檢索工具(finding aids)標準,其發展目的是為了支援檔案和手稿的收集保存,提供一個永久編碼標準,可機讀處理各種單位(如檔案館、圖書館、博物館與手稿館)所產生的目錄、登錄簿、索引等查檢工具,以利檔案資源易於在網路上取得。
- 1.11 都柏林核心集(DC, Dublin Core)
Dublin Core後設資料標準,是一組簡單卻有效的核心元素集。為了要加速網路電子資源的整理與組織,並加強網路資源的找尋與檢索的精確性,因此集合了圖書館界、資訊科學等各領域專家,共同制定專為描述網路電子資源的一套後設資料格式。此核心集僅有15個元素。
更多的後設資料標準介紹,請參閱後設資料工作組網站之參考規範:http://www.sinica.edu.tw/~metadata/standard/standard-frame.html。
後設資料的設計與建置
- 2.1 後設資料的設計與建置,參與者之間的關係
- 2.2 後設資料作業流程
後設資料工作組將設計、建置後設資料所需要的工作予以系統化,研發出「後設資料作業流程」。此作業流程共包括四大階段,分別為:
此作業流程共包括四大階段,分別為:
- 需求確認與內涵分析
(需求訪談、計畫相關標準與個案觀察、深入分析後設資料需求、確認後設資料策略暨標準間的互通性)
- 後設資料功能需求書研製
(研製後設資料功能需求書、 後設資料系統評估)
- 後設資料系統開發
(研製參考規範、 發展後設資料系統)
- 服務與評估
(後設資料服務、 後設資料作業評估)
Step 1:需求訪談 (第一階段)
1. 瞭解主題計畫典藏品的內涵、著錄與呈現上的需求。
2. 協商雙方的合作模式與擬定計畫進程。
3. 「後設資料需求表單」填寫解說。
Step 2:計畫相關標準與個案觀察 (第一階段)
1. 分析主題計畫的屬性,歸納適用的後設資料類型。
2. 觀察並研析國際間符合計畫類型之後設資料標準,並評估標準的發展性、通用性與符合性等,進行後設資料標準的篩選。
3. 蒐集國際上相關的個案計畫,了解其後設資料的應用趨勢和議題。
Step 3:深入分析後設資料需求 (第一階段)
依據回傳的「後設資料需求表單」進行藏品內涵屬性分析、內涵結構分析以及藏品單元關聯分析等。
Step 4:確認後設資料策略暨標準間的互通性 (第一階段)
利用之前的研究發現,建議主題計畫採用後設資料標準的策略。
Step 5:研製後設資料功能需求書 (第二階段)
1. 彙集分析的成果與確認過的需求,撰寫成後設資料功能需求書。
2. 此功能需求書為主題計畫、後設資料分析、 系統開發三方面溝通的橋樑,其功能包括:
⊙ 供主題計畫確認其後設資料需求 ⊙ 後設資料分析與系統開發人員間溝通之依據 ⊙ 主題計畫修正後設資料系統和功能的依據
Step 6:後設資料系統評估 (第二階段)
評估後設資料系統開發的各種可能性,以利主題計畫決定自行開發系統,或採用同質或相似計畫的系統,或採用與其他組織團體合作等方式發展其系統。
Step 7:研製參考規範 (第三階段)
研製參考規範,包括:建檔流程與著錄原則、系統使用手冊等。
Step 8:發展後設資料系統 (第三階段)
1. 系統開發人員需依據功能需求書開發符合需求的系統與工具。
2. 開發期間,為促使有效的系統設計,主題計畫、後設資料規劃人員及系統發展者之間的參與成員應持續交流與討論意見。
3. 系統雛型完成後,主題計畫與後設資料分析人員應回應系統測試與評估結果。
Step 9:後設資料服務 (第四階段)
1. 接續提供後設資料服務,包括:諮詢服務,提供計畫成員有關後設資料與內涵分析方面的諮詢。
2. 建立後設資料標準的互通機制,如:標準對照、meta-search。
3. 發展中文版本的後設資料標準。
Step 10:後設資料作業評估 (第四階段)
1. 檢視後設資料整體實施程序和效益。
2. 評估後設資料紀錄的品質,包括:完整性、準確性等。
3. 評估採用標準對於檢索的效益。
深入分析後設資料需求
- 3.1 後設資料需求表單
為協助主題計畫表達其後設資料內涵與系統需求,還有依後設資料工作組分析作業所需資訊,特別設計了「後設資料需求表單」,作為主題計畫後設資料需求調查與本組分析工作之主要依據。 後設資料表單包括:
- 3.2 內涵分析
3.2.1 分析1:藏品單元與群組關係分析
來源依據:02 藏品單元層級關係圖
03 藏品單元群組關係圖
方法:確認藏品描述的最小單位(建議以□表示),並釐清此最小單位與其他藏品之間的層級關係與群組關係。
3.2.2 分析2:後設資料元素的群組化與結構化分析
來源依據:04 Metadata藏品元素需求表單
05 Metadata元素代碼表單
06 Metadata著錄範例表單
- A. 群組化(grouping)
方法:瀏覽相關的表單,將性質相類似的元素放在一起,並設立一個新元素將這些性質類似的元素置於其下,形成一個群組。
元素群組化之優點:
1. 性質相同或相近的資料不會分散於各處。
2. Metadata 將更具結構性,並更利於處理多值的資訊。
3. 有助於著錄的流程與介面瀏覽。
- B. 結構化(structuring)
方法:將元素群中一再重複的特質抽出,獨立為一元素,並考慮設計成代碼表的著錄方式。
元素結構化之優點:
1. 元素較為簡潔。
2. 較具結構性,減少空值元素的產生。
3. 使用代碼表,利於日後可擴充或修改,避免更動系統元素架構。
3.2.3 分析3: 後設資料標準比對作業
來源依據:04 Metadata藏品元素需求表單(調整後)
方法:確認標準的採用策略,選擇適用的標準。釐清所要描述的主題與單元,並暸解標準的結構、元素定義與關聯性之後再進行比對作業,比對時需注意語義與資料值是否一致。
如何選擇適用的標準?
-需求符合性
-標準的成熟度
-標準應用的輔助工具(指引文件、軟體工具……)
-標準的聲譽(Reputation)與目前採用狀況
-後的發展與維護
標準比對分析:
藉由標準的比對分析檢視主題計畫提出的需求是否完整。如某些類目是標準建議之核心類目,表示此類目資訊在此學科領域的內涵上是相當基本的,分析人員可就此提出建議,請主題計畫人員再次確認是否忽略了提出此部份之需求,或確實不需要這些需求。
「數位典藏計畫-聯合目錄」以Dublin Core 15個元素來進行計畫之間跨學科,跨領域的互通。舉例Metadata比對至Dublin Core和聯合目錄之metadata為例(來源:國家歷史文物數位典藏計畫編織-Metadata功能需求書)
- 3.3 系統分析
3.3.1 分析1:後設資料系統屬性分析
來源依據:08 Metadata系統屬性功能需求表單
範圍與項目:
- 主題計畫所需著錄的欄位及其架構
- 欄位值之資料型態與欄位大小
- 欄位的必填性、多值性
- 欄位的著錄格式與其他屬性
- 欄位值之提供者
- Step 1:分析主題計畫所需著錄的欄位及其架構
了解內涵分析完成後之欄位架構的各欄位意義。評估此欄位架構在資料庫中建置的可行性,並分析此欄位架構是否滿足基本的系統需求。
- Step 2:欄位值之資料型態與欄位大小
▲資料型態▼
依據不同的資料庫管理系統(DBMS),資料型態的訂定會有所不同。以MySQL為例,常用到的包括:
1. 數值欄位型態:INT、FLOAT 、FLOAT(4) 、FLOAT(8) ……
2. 字串欄位型態:CHAR、VARCHAR 、TEXT ……
3. 日期與時間欄位型態:DATE、TIME、DATETIME、YEAR……
▲欄位大小▼
著錄欄位的大小以Byte為單位,可由欄位實際著錄資料量來預估欄位的大小。
- Step 3:欄位的必填性、多值性
▲必填性▼
分析出哪些欄位是重要欄位,在建檔時必須填寫該欄位之值,不能留空,如:紀錄識別性的欄位、固定值欄位等。後設資料工作組習慣以「*」表示。
▲多值性▼
分析出哪些欄位具有多個資料值,是主題計畫需要重複著錄的欄位,如:人名權威檔之別名欄位。後設資料工作組習慣以「◎」表示。
- Step 4:欄位的著錄格式與其他屬性
決定Metadata欄位在Web上的著錄格式,常用到的包括:下拉式選單、多維下拉式選單、關聯下拉式選單、文字方塊、 文字區塊、單一選擇選單與多重選擇選單等。
1. 下拉式選單:設計代碼選單,著錄時可藉由選項代碼的方式來代替填寫。把欄位的著錄格式設定成下拉式選單的好處是可減少著錄時間,並可達到著錄值的一致性。
2. 多維下拉式選單:欄位資料值的代碼需以多層次架構表示,可將欄位之著錄格式設定為多維下拉式選單。若下拉式選單代碼內容過於龐大,可進行代碼分類改為以多維下拉式選單的方式來著錄。
3. 關連下拉式選單:欄位之著錄格式設定為關連下拉式選單者,表示此欄位與其他欄位產生關連,欄位值會隨關連欄位值的改變而變動。
4. 文字方塊(text):單列文字輸入欄,只需著錄一行的文字性資料。
5. 文字區域(textarea):多列文字輸入欄,需著錄多行的文字性資料。
6. 單一選擇選單(Radio Button):單選鈕,著錄上具多選一特性的欄位。適合少量的代碼選項。
7. 多重選擇選單(Checkbox):核取方塊,著錄上具有可複選特性之欄位,能以多重選擇選單作為著錄之格式。
除了分析怎樣的欄位適合用哪種著錄格式之外,也需評估欄位的其他屬性,包括:唯一性、開放/不開放欄位、欄位預設值/固定值、欄位值系統自動產生、外部資料庫連接……
- Step 5:欄位值之提供者
分析所有欄位資料值之來源,定義欄位值之提供者是「系統自動產生」或「著錄人員填寫著錄」。
So Far……
完成上述step 1, step 2, step 3 , step 4與step 5的分析後,可把分析成果彙集成後設資料「需求欄位建置表」與「需求欄位屬性表」。此兩份資料表可提供系統建置人員進行初步的資料庫建置與欄位設定工作,快速建置系統雛形。
3.3.2 分析2: 查詢功能需求分析
來源依據:09Metadata系統查詢功能需求表單
範圍與項目:
1. 簡單查詢(關鍵字查詢)
2. 進階查詢
3. 簡要顯示款目
4. 詳細顯示款目
3.3.3 分析3: 建檔功能需求分析
來源依據:10 Metadata系統紀錄建檔流程需求表單
11 Metadata系統主鍵元素架構格式
範圍與項目:
分析著錄人員在紀錄建檔方面的各項需求,如:欄位檢查機制、建檔記錄需求、圖檔建檔預覽功能、建檔結果確認需求……
3.3.4 分析4: 其他系統需求分析與系統內外關係連接性檢查
來源依據:07元素關係結構圖
12系統使用群組與權限管控
範圍與項目:
分析其他方面的系統需求,如:權限管控、報表列印、XML格式匯出匯入、代碼表維護功能……等。同時也需檢視系統內部連接關係,如:紀錄與數位物件間的連接、紀錄與紀錄間的連接等。至於系統外部連接關係則應檢查如:與權威檔的連接關係、與外部資料庫的連接等。
功能需求書撰寫作業介紹
功能需求書目錄:
0 前言
1 計畫簡介
1.1 計畫說明
1.2 計畫目標
1.3 計畫參與人員
2 系統說明
2.1 系統目標
2.2 系統範圍
3 著錄欄位架構
3.1 著錄介面
3.2 著錄範例
4 資料結構表
4.1 需求欄位建置表
4.2 需求欄位屬性表
5 後設資料比對表
5.1 學科專屬後設資料國際標準比對
5.2 Dublin Core 標準比對
6 功能需求說明
6.1 系統功能說明
6.2 建檔功能說明
6.3 查詢功能說明
7 代碼表
8 功能需求書確認表單
附件
0 前言
簡單介紹功能需求書之定位與功能性。並分別建議主題計畫與系統建置人員在進行確認及開發前閱讀之要點。
1 計畫簡介
計畫的簡單介紹與背景說明。描述此計畫所預期達到的目標,並提供所有相關參與人員的名單,包括主題計畫參與人員名單、後設資料分析人員名單與系統建置人員名單。
2 系統說明
描述系統所欲達成的目標與應具備的功能,作為系統建置人員開發系統的方向與主題計畫人員成果驗收的依據。並描述系統所涉及的使用範圍與對象。
3 著錄欄位架構
著錄欄位的名稱與架構,讓主題計畫人員確認後設資料欄位的著錄形式與順序。並以實際範例著錄,檢視如此的欄位架構是否滿足典藏品內涵的描述。
4 資料結構表
「需求欄位建置表」提供系統建置人員建立資料庫欄位所需要的資料,而「需求欄位屬性表」則提供系統建置人員設定資料庫欄位屬性所需要的資料。
5 後設資料比對表
6 功能需求說明
描述系統方面的檢查機制與功能,包括:建檔功能、查詢功能與其他方面的功能……等。
7 代碼表
將「需求欄位屬性表」中有標示著錄格式為下拉式選單、多維/關連下拉式選單、單一/多重選擇選單者,其選單代碼列於此。
8 功能需求書確認表單
提供主題計畫人員確認功能需求書的內容是否完全符合需求,若不符合,可詳列原因讓後設資料分析人員作為修改之重要依據。
附件
功能需求書本文以外之其他附件或補充性資料。
參考資料
陳淑君;
後設資料規劃與應用實務;數位典藏專業培訓課程-基本課程系列<一>課程講義;2002/4/24~26
沈漢聰;
後設資料簡介與設計方法;數位典藏技術規範會議-「後設資料在數位典藏之研究發展:回顧與前瞻」後設資料工作營講義;2004/12/20
城菁汝;
後設資料內涵分析作業指引;數位典藏技術規範會議-「後設資料數位典藏之研究發展:回顧與前瞻」後設資料工作營講義; 2004/12/20
沈漢聰;
系統分析、需求規格書撰寫與版本控制要點;數位典藏技術規範會議-「後設資料在數位典藏之研究發展:回顧與前瞻」後設資料工作營講義;2004/12/20
城菁汝;
博物館數位典藏之後設資料規劃-以「數位典藏國家型科技計畫」為例;台北藝術大學博物館研究所演講;2005/12/21
中研院後設資料工作組網站;http://www.sinica.edu.tw/~metadata/
中研院民族所臺灣原住民數位典藏計畫網站;http://www.aborigines.sinica.edu.tw/
製作群:陳亞寧、陳淑君、沈漢聰、城菁汝、邱鈺珺 中研院計算中心後設資料工作組
沈漢聰 htshen@gate.sinica.edu.tw 02-27839172
城菁汝 chingju@gate.sinica.edu.tw 02-27839076
邱鈺珺 ycchiu@gate.sinica.edu.tw 02-27839353
臺灣原住民數位典藏推廣研習營-「專題演講三:後設資料(metadata)規劃與建置」
附件:後設資料的規劃、分析與建置方法習作學習單
後設資料的規劃、分析與建置方法-習作學習單 2006/06/02
習作一:
參考資料
參與研發單位:技術研發分項計畫-後設資料工作組
提供單位:技術研發分項計畫-後設資料工作組
使用單位:各主題計畫