後設資料系統的需求評估與發展設計

出自 TELDAP
前往: 導覽搜尋

本文係發表於:

陳亞寧、陳淑君、沈漢聰、鍾豐謙,<後設資料系統的需求評選與發展設計>,於第一屆數位典藏技術研討會(頁246/257),數位典藏國家型科技計畫技術研發分項計畫與中央研究院資訊科學研究所合辦,民國91年7月25日至26日。臺北市南港:中央研究院資訊科學研究所。


後設資料系統的需求評選與發展設計

摘要

本文係以後設資料工作組(Metadata Architecture and Application Team,MAAT)服務數位典藏國家型科技計畫的主題計畫為範圍,並以完成後設資料規格書初稿的計畫為進行樣本的選取,一共選取「故宮書畫數位典藏子計畫」、「故宮器物數位典藏子計畫」、「拓片與古文書數位典藏計畫」;「近史所檔案館外交經濟重要檔案數位典藏計畫」、「國史館典藏國家檔案與總統文物數位化中程計畫」、「史語所內閣大庫檔案數位典藏計畫」;「臺灣動物相典藏之研究:魚類與貝類」、「臺灣本土植物數位典藏計畫」等8 項主題計畫作為研究對象,而這些計畫的機構屬性依序涵蓋了博物館、檔案館與標本館等三大類型。本文共計採取了文獻探討、需求訪談與實驗等三種研究方法,以進行交叉的研究分析、比較與驗證,並提出下列五項研究發現:1.後設資料需求的功能傾向與層面而言,主題計畫大致已完整提出需求,只有深淺不一的差異,似乎在「線上輔助(含紙本文件與線上版兩種)」、「索引典」、「兩種以上的後設資料格式」、「減少重複輸入」、「管理」與「可靠性」等六大項目的需求並不顯著,其實不然。2.在需求實踐與現有資料庫開發技術間存有差距,尤其是後設資料不同層級間的區分及層級間的共建共享方面特別顯著。3.索引典有其共通的需求與重要性,也證實後設資料類型除了物品外,亦包括了地名與人名兩種,而且必須成為獨立的後設資料系統。4.不同類型的後設資料系統必須建立起雙向式的互動關聯性,進而提供一次的同步式資料更新方式。5.每個主題計畫皆面臨「不同後設資料格式的交換與互轉」的實務議題,而後設資料系統必須同時提供兩種以上格式的轉換功能。最後,本文分別針對主題計畫、後設資料與技術研發等三大領域人員提出具體的策略建議,以達成主題計畫人員如何適切表達後設資料的系統需求、後設資料人員如何合宜地引導出主題計畫的需求及將需求傳達至相關計畫人員、技術研發人員如何適時地開發設計一套合用的後設資料系統等三大目的。

關鍵詞:metadata/後設資料,system evaluation/系統評選,user needs assessment/需求評選


前言

自民國91年起,數位典藏國家型科技計畫正式開始執行,並以內涵為主,科技為輔的原則進行各項計畫的實施。基於此項國家型計畫著重在珍藏文物的內容建置,對於後設資料(metadata)的廣度與深度等方面的要求更為嚴謹,有許多功能需求已非傳統關聯式資料庫(relational database,RDB)及相關技術可以達成的。本文就以後設資料工作組所服務、支援的各項計畫為研究範圍,針對後設資料系統的評選進行探討。


研究目的

數位典藏國家型科技計畫係以內涵為主,科技為輔的原則進行各項計畫的實施,對於珍藏文物的建置特別重視。因而,在後設資料需求的深度與廣度等方面要求,就極為詳盡、嚴謹。相對地,所需的系統作業功能也顯得十分繁複、新穎,對於系統開發設計者而言,挑戰性也隨之提高。本文主要目的有三:第一,就主題計畫人員而言,如何適切地表達出後設資料方面的系統需求。第二,後設資料人員如何合宜地引導出主題計畫人員的需求,以及將需求傳達至相關計畫人員。第三,就系統設計者而言,如何適時地開發一套合用的後設資料系統供主題計畫人員使用。


研究範圍與對象

本文係以MAAT 服務數位典藏國家型科技計畫中的各項主題計畫為範圍,從中選出適宜的研究對象。鑑於每個主題計畫後設資料工作進度的不同,本文係評選已完成後設資料需求規格書初稿者為研究範圍,主要原因有二:一是主題計畫已明確提出年度需求;二是這些需求已經過一定程度的系統分析,以及正規化(normalization)的調整與系統測試。因而,本文以「故宮書畫數位典藏子計畫」、「故宮器物數位典藏子計畫」、「拓片與古文書數位典藏計畫」;「近史所檔案館外交經濟重要檔案數位典藏計畫」、「國史館典藏國家檔案與總統文物數位化中程計畫」、「史語所內閣大庫檔案數位典藏計畫」;「臺灣動物相典藏之研究:魚類與貝類」、「臺灣本土植物數位典藏計畫」等8 項主題計畫為研究對象,而這些計畫的機構屬性依序涵蓋了博物館、檔案館與標本館等三大類型。


研究方法

本文同時採用了文獻探討、需求訪談及實驗等三種研究方法,以交叉分析、檢驗後設資料系統需求的評選與設計。首先本文採取了文獻探討法,以探討國際上評選與設計後設資料系統的實際個案與經驗,以及後設資料系統應有的範圍與定位。次則應用需求訪談法,以實際擷取與確認8 項主題計畫的後設資料需求,進而予以分析、歸納需求的屬性及其異同,以探求主題計畫對後設資料系統的主要取向與分佈。最後,以主題計畫提出需求所發展的需求規格書為依據,發展系統雛型測試方式,達成交叉分析、檢驗各項需求的唯一性、關聯性、可行性與困難性。


文獻探討

儘管後設資料已在全球數位圖書館(digital library)領域內引起熱烈探討,也是一項極為基本的資訊基礎建設,相關研究報告亦到處充斥在網際網路上,然而以後設資料系統的需求評選與發展設計為主題的文獻卻不多見。在2001年八月,紐西蘭對外公開徵求的「政府國民入口網站」(e-government citizens portal)資訊徵詢計畫書(request for information, RFI)內,從一個需求者的觀點為依據,提出後設資料系統的需求要項(State Services Commission, 2001, p. 5;Worthington, 2001):

v 具備一個以全球資訊網為基礎(web-based)的後設資料產生工具(tool),包括後設資料的確認(validation)、聯結至外部資源(如:thesauri, controlled lists, and directories)、彈性的客製化(customization)調整機制、處理特殊延展的後設資料元素、完善的語文處理能力(包括輸入、顯示與儲存)、線上輔助(help)。

v 提供一個後設資料儲存庫(repository)或資料庫,安全地管理後設資料,及經由政府國民入口網站傳遞資訊。

v 應有一個良好的後設資料儲存庫查詢界面。

v 提供一個匯入或採集(import/harvest)的機制,達成RDF/XML 或HTML 格式的後設資料蒐集。

v 有一個全球資訊網為基礎的匯出機制,並以RDF/XML 或HTML 格式傳遞資訊。

v 提供一個可以產生索引典(thesauri)的軟體,進而執行維護與網路傳播(publish)。

v 應有流程管理與後設資料品質管制(quality assurance)的程序。

v 應有良好的安全控管系統。

就電腦軟體方面而言,Koch(2000)在整理、分析後設資料相關工具時,將後設資料系統的功能層面歸納為下列類型:

v 後設資料的建立與產生(creation)

v 後設資料的自動擷取與產生(automatic extraction and production)

v 後設資料格式的轉換(conversion)

v 主題描述與蒐尋的支援工具(subject description and search support)

v 線上輔助系統

v 編碼與結構(encoding and structure)

v 交換與轉換(exchange and transfer)

v 採集、索引、蒐尋(包括本地、分散、同步)與瀏覽

v 儲存(repository and storage)

v 顯示

v 整合式(integrated environments)

有關後設資料的建立與產生部份,澳洲MetaWeb Project 又進一步將之區分為編輯器(editor)與產生器(generator)。編輯器主要是提供範本(template)或讓使用者自行輸入新的內容,產生器的功能則在從現有的文件或資源中萃取出相關的後設資料,經過特定的處理後,再依格式(如HTML 或XML)進行輸出作業(Campbell, and Zhan, 1997)。

另外,在EdNA 高等教育計畫(EdNA Higher Education Project)內,Currieet al.(2000)將後設資料工具集(toolsets)劃分為後設資料管理者、產生器與索引典瀏覽器(metadata manager、metadata creator、thesaurus viewer)等。所謂資料管理者係指管理方面的工具,包含產生、收集、維護與查詢後設資料所需的元件與程序,達到網路資源後設資料產生與維護的簡化甚至自動化,進而改善關鍵字搜尋的成效。而後設資料產生器則為後設資料的產生工具。索引典瀏覽器則透過友善而容易使用的界面提供使用者瀏覽藏品的功能。對系統開發者而言,也有許多輸入或是管理方面功能的套件(package, toolkit)可以使用。

最後,從後設資料工具評鑑方面而言,美國聯邦地理資料委員會(Federal Geographic Data Committee, FGDC)對提出下列評鑑要點(FGDC, n.d.):

v 交換

n 匯入:可否將既有後設資料匯入後進行修改?可以涵蓋的後設資料格式有那些?可否自外部資源的後設資料予以匯入?是否有提供與外部資源連接的工具?

n 匯入:可以提供那些後設資料格式?兩種以上的格式嗎?

n 完整性暨相容性:輸出的後設資料與CSDGM 後設資料格式核對後,是否完整、相容?輸出資料是否為其他後設資料編譯器(compiler)所接受?如果無法被其他後設資料編譯器接受,是否有其他替代方案?

v 使用性

n 使用者界面:是否提供,或者一項簡易的轉換工具?使用者界面是否遵循軟硬系統的常規(conventions)?

n 系統提示:是否提供清單或選單式選項?有經驗者可否省略這些提示選項?

n 減少重複輸入:共通性描述元素可否共用,不必一再重複輸入?例如在完成套件的描述後,部份元素與單一物件相同者,單一物件即無須再輸入?

n 資料產生與整合:後設資料庫(metadatabase)是否可以直接被資料處理程式取用(accessed by data manipulation applications)?是否提供工作流程(workflow)的規劃,包括狀態、紀錄、檢查與通知等?

n 剪貼:可否取用外部資源進行剪貼?後設資料元素可否供其他文件使用?

n 重新啟動:是否允許依不同階段進行後設資料的撰寫?是否提供增值的維護(incremental updates)?

n 文獻:是否提供相關文件?文件的詳盡度為何?是否有線上輔助?線上輔助的詳盡度為何?線上輔助r 是否達到協助使用者熟悉工具的各項作業功能?

n 其他:如拼字檢索、新詞彙的新增?提供後設資料歷史檔?

v 管理

n 平臺與安裝:需要的軟硬體平臺何?可否跨平臺的混合組成方式?所需的硬碟與記憶體多少?安裝的容易度為何?

n 依存度(stand-alone):有那些軟體是必備、唯一的,且無其他替代方式?前述軟體是否有提供?工具是否會與其他常用的軟體相互衝突?工具是否可以對外公開使用?維護方式?獲取的成本?

n 更新:是否有一機制可以代為執行?管理者是否可以改變選單設定或是改變呈現方式?當後設資料標準內容更改時,工具如何維護?管理者是否可以進行工具的修改?容易度為何?是否提供原始碼(source code)?

v 可靠度

n 處理能力:提供何種錯誤訊息?

n 復原:是否具備復原作業能力?復原資料的程度為何?

n 一致性:在相同情境下,所產生的結果是否相同?

從上述文獻探討中,明顯發現分別是從需求者導向、軟體開發與系統評鑑等三個面向提出對後設資料系統的需求評選與發展設計,因而所注重的廣度與深度自是不同,相對地提出的要點也有所差異。儘管如此,從文獻探討與分析中,可以發現兩項問題值得更深入的觀察與驗證,如下:

v 後設資料系統應該涵蓋那些功能面向與項目?

v 索引典與後設資料系統彼此間所扮演的功能、定位為何?


研究討論

1、 後設資料系統功能需求的「類型與項目」討論

a. 本研究採集自8 個主題計畫提出的系統功能需求,共彙整、分析出32 項需求。以資料本身或後設資觀點而言,這些需求可分為「輸入與維護」、「查詢」、「顯示」、「資料交換與互通性」、「管理」與「業務流程自動化」等六大類型,各單項系統功能與定義,如表一所示。

b. 由表一的功能項目,可以觀察到主題計畫並沒有提出太多有關資料互通性與計畫間整合之實際需求,但在多次的晤談討論會議中,顯示主題計畫希望未來的系統能夠與相同主題小組的計畫間,達成跨單位、跨資料的有效檢索,以及資源的共享,甚至是與國際相關計畫間的互通與接軌。本研究的觀察是,可能主題計畫對資料互通性與資料庫間整合的技術與知識方面較為陌生。事實上,是在數位圖書館與典藏研究興起之際,這類型的功能開始列為顯著且迫切的研究議題。

表1. 後設資料系統需求功能類型與項目
後設資料系統需求功能類型與項目.gif
後設資料系統需求功能類型與項目1.jpg

2、 後設資料「核心系統功能需求」討論

就單項功能需求面,8 個計畫中,若有6 個以上的主題計畫提出的功能,本研究即將這些項目納為「核心系統需求功能」的範圍。依據統計結果,共有13 項後設資料系統建置的核心功能需求,包括:「新增紀錄功能」、「紀錄資料修改功能」、「紀錄刪除功能」、「多值欄位著錄需求」、「下拉式選單代碼建置功能」、「關鍵字查詢功能需求」、「進階查詢(布林查詢)功能需求」、「查詢結果簡要顯示款目需求」、「XML 的轉出轉入機制的建置」、「連結外部資料庫」、「編目紀錄之需求」、「可設定不對外開放的欄位」、「著錄人員與管理人員等權限管控」。

3、 功能需求的「建置形式」討論

本研究發現同一項功能需求往往不只存在一種的建置形式,依著錄需求與學術性的特質,可能包含多種的建置形式。本文研究發現共有六種類型,分別是「多值欄位著錄需求」、「下拉式選單代碼建置功能」、「查詢功能(簡單查詢、進階查詢)」、「查詢結果顯示功能(簡要顯示、詳細顯示)」、「編目紀錄需求(只記錄最新一次修改資訊、紀錄每次修改資訊、需核對人核對資料)」與「設定不對外開放欄位(不對外查詢、不對外顯示、不對外交換)」。以「多值欄位著錄需求」為例,本功能包含四種建置形式:

a. 一個多值欄位

一個多值欄位.jpg

b. 一組多值欄位

一組多值欄位.jpg

c. 一組多值欄位裡有一個或一個以上多值欄位

一組多值欄位裡有一個或一個以上多值欄位.jpg

d. 一組多值欄位裡有一組或一組以上多值欄位

一組多值欄位裡有一組或一組以上多值欄位.jpg

主題計畫若可以了解更多同功能的多種建置方式之後,便可更適切的依本身所需進行選取或調整,並以模組的方式更具體提出需求,如此主題計畫當可對功能的描述達到更清晰、明確,確保系統開發者完全明白主題計畫提出之功能需求。

4、 系統共通性功能需求討論

從實際唔談與溝通會議紀錄中,可以明顯觀察到許多主題計畫的系統功能需求並未直接反映於需求規格書中,另一主因在於許多的功能需求是不屬於後設資料的範圍之內。本研究以MAAT 彙整自檔案館社群在後設資料作業建置過程中,針對提出的各式後設資料系統相關問題為初探,檢視問題的類型與關鍵,可以發現主題計畫對於系統具有下列的共通性功能需求:

a. 系統能夠滿足不同層級(granularity)的著錄需求:例如,同一全宗檔案,有以「案」及「件」為著錄單位者,資料庫可否相容和整合?

b. 系統具備與外部資源連結取用的機制,且容許共建共享:例如,獨立析出建置的人名權威是否可與其他單位共用?

c. 新舊系統的轉檔需求:例如,已影像掃描及部分編目建檔,是否可轉檔併入數位典藏計畫中?如何執行?

d. 系統具備客製化功能需求:例如,是否可有特殊報表列印以滿足XXX 計畫作業需求?報表需求該如何提出?

e. 系統植入轉換工具需求:例如,時間著錄可否提供中西曆轉換?

f. 系統能夠實現採用的後設資料標準架構:例如,是否已發展出EAD 系統架構可供參考?

g. 語文處理能力(含缺字問題):例如,日文字該如何著錄?造字問題如何處理?

h. 系統能夠提供不同作業模式需求(線上、離線、單機作業等):例如,可否有離線建檔之軟體,作為嘗試建檔以確認文獻館之完整需求?

研究發現

依據前述探討後,可以有下列幾項發現,分述如下:

  1. 後設資料需求的功能傾向與層面
    如果以前述文獻探討為基礎,將需求者導向、軟體開發與系統評鑑等三種觀點與主題計畫提出的需求進行交叉比對,可以發現主題計畫人員所提的需求大多能夠涵蓋前述三種觀點所提的需求面向,但是仍有部份項目並未提及,依序包括「線上輔助(含紙本文件與線上版兩種)」、「索引典」、「兩種以上的後設資料格式」、「減少重複輸入」、「管理」與「可靠性」等6 大項。這6 項需求層面又可進一步區分為「未提出」與「隱性提出」等兩大類型,「隱性提出」則包括了「線上輔助」、「管理」與「可靠性」3 大項目,其餘項目皆落在「未提出」一類。所謂「隱性提出」乃是系統開發人員以全球資訊網為基礎的方式提供系統服務,因而有關「管理」與「可靠性」兩大項目已由系統開發人員全權代為處理。因而,系統開發人員就必項對此兩所謂「隱性提出」類型的「管理」與「可靠性」兩大項目加以注意,達成系統的方便性、穩定性與安全性等多重目的。另外,「線上輔助」雖經由MAAT 協助提供紙本操作手冊,但是系統線上版仍有其必要性,更待進一步的加強或開發。
  2. 需求實踐與現有資料庫開發技術間的差距
    在研究的8 項主題計畫內,每項計畫皆面對一個相同的問題或困擾,亦即如何一次將原件與數位檔完成描述,以及建立彼此間的關係。如果利用傳統的關聯式資料庫(relational database,RDB)技術落實本項需求時,會明顯產生下列效應:第一,必須應用到許多資料庫表格(tables),同時也會影響系統的運作效能與成本(performance and overhead)。第二,採取直觀概念化方式,以一筆紀錄(one-to-many)同時涵蓋原件與數位物件,對於數位物件反而較少著墨;例如數位物件的取用控制、保存資訊等。第三,則是對於不同物件間的關聯性無法充份展現,例如原件與數位物件,以及不同數位檔等關係。第四,共通性資訊的關聯性無法明確釐清與顯示,尤其在透過電腦界「實體關係模式」(entity-relationship model,ER model)或是圖書館界「書目功能性模式」(functional requirements for bibliographic records model,FRBR model)的分析後,更可以發現在建立後設資料紀錄時,許多共通性後設資料元素是必須一再重複建立的;即使是採取欄位化方式處理,也必須犧牲這些豐富的關聯性關性。因而,傳統式資料庫技術應用在8 項數位典藏的主題計畫內,已有捉襟見肘的現象。
  3. 索引典的定位功能與後設資料涵蓋的類型
    在後設資料的領域中,絕大多數的標準或系統是以「物品」(thing instance)為主體,其他物件(object instances)諸如人名(person name)、地名(place name)等往往居於配角的地位,因而在標準內容的制訂與系統開發層次上,常常隱化為後設資料標準內容中的極小一部份而已。然而從8 項主題計畫的需求中,可以明顯發現地名與人名等兩種類型的後設資料反而形成一種共通性的需求,而且同等重要,相互依存、缺一不可的。
  4. 後設資料與外部資源的關聯互動性
    若依據前述文獻探討與研究討論等分析後,所謂外部資源係有兩種:第一,人名與地名的索引典系統。第二,則是如何將已存在的後設資料系統與網路資源一併納入檢索範圍之內,例如採集、分散式蒐尋與同步蒐尋等。首先就索引典而言,主題計畫希望的是物品、人名與地名等三種後設資料可以雙向互聯外,更重要的是如何作同步一次的資料更新。例如,當某一人名更新後,相關的物品後設資料紀錄的元素值亦能自動更新,而不是區分為在不同系統內的不同作業。其次,如何有效整合網路上相關資源成為後設資料檢索的其中一環,也極為重要。因為現有技術與成品皆已達成熟開發階段, 問題在於整合(convergence)。
  5. 兩種以上不同後設資料標準格式的交換與互轉
    在8 項主題計畫雖然會決定採用某一特定的後設資料標準格式,有鑑於不同主題計畫、學科領域的交流,各項主題計畫對於後設資料標準格式不再鎖定一種而已,而是多重的面向。因而在後設資料系統需求面而言,以單一後設資料標準格式為基礎進行資訊交換與互轉的方式,已逐漸無法滿足各項主題計畫。例如,生物多樣性主題小組涵蓋了動物與植物兩大學科領域,但採用的後設資料標準格式並不相同。

結語與研究建議

由於數位典藏國家型計畫的落實,涵蓋了主題計畫、後設資料與系統設計等三方人員,如何溝通達成共識是有其必要性的,因為三方是一種生命共同體關係,往往是牽一髮動全身。因而,本文建議採取下列策略性建議:

1、 主題計畫

v 首先,主題計畫人員必須確認計畫需求的範圍與項目,以及有系統式提出規劃性需求,而各項需求的更動也必須充份取得與系統設計及後設資料人員的協調與確認,否則系統再次重新開發的成本不貲,而且對計畫成果與評鑑等方面的影響甚鉅,影響層面也不限於單一計畫而已。

v 此外,對資訊科技方面有一定程度的認識與了解,如此才能最佳化將需求落 實到系統

2、 後設資料

v 即使主題計畫提出的需求並不在後設資料系統範圍內,也應該在需求規格書獨立提出,同時轉達給相關的計畫人員。

v 若以數位資訊流程全貌而言,包括數位化、組織、傳遞、智財權管理、知識探索、查詢與取用與儲存等,皆會涉及到不同層面與類型的後設資料。但從主題計畫需求而言,本文發現多數集中在「描述性後設資料」,而忽略了其他類型的後設資料需求的提出。例如:保存性(preservation)與系統管理(system management)性後設資料。因而,從事後設資料分析與設計者,應該更主動提出相關的後設資料規範,並引導主題計畫人員到最全貌性的後設資料需求。

v 後設資料分析與設計者必須適時融入主題計畫的需求,尤其是在學科研究與管理等方面,適時提出建議或引導。

3、 技術研發(即系統設計)

v 適時地作宣傳,讓主題計畫與後設資料人員知道系統目前的進展與未來可以達成的範圍與項目。

v 索引典系統必須獨立開發,同時與不同系統間的雙向互動性與同步更新,如人名與地名。

v 兩個以上不同後設資料標準的交換,即後設資料系統必須能夠匯入與匯出兩種以上的後設資料標準。

v 提供系統管理需求方面的後設資料。

v 提供離線系統,供網路環境不佳者可以採取離線方式建立後設資料紀錄。

v 提供一種系統服務,供主題計畫可以快速測試與檢驗後設資料的需求。

v 必須適時地開發新技術或是整合相關技術,充分落實後設資料標準的要求與效果。例如,EAD 列出不同檔案層級及層級間的共享共用。


參考書目

Campbell, D., & Zhan, Z. (1997). MetaWeb project: Analysis of metadata creation tools. Retrieved 19 June, 2002 from

http://www.dstc.edu.au/Research/Projects/metaweb/toolpost.html

Currie, M., Moss, M., Ip, A., & Morrison, I. (2000). The EdNA metadata toolsets: A case study. Retrieved 19 June, 2002 from

http://ausweb.scu.edu.au/aw2k/papers/currie/paper.html

Federal Geographic Data Committee. (n.d.). Evaluation criteria. Retrieved 21 September, 2001 from

http://www.fgdc.gov/clearinghouse/mitre/task2/evalcriteria.html

Koch, T. (2000). Metadata related tools. Retrieved 19 June, 2002 from

http://www.lub.lu.se/tk/metadata/dctoollist.html

State Services Commission. (2001). Request for information: Metadata management and search tool. Retrieved 19 June, 2002 from

http://www.go.vic.gov.au/pdfs/rfi-pdf.pdf

Worthington, T. (2001). Case study: Metadata management facility and search tool for New Zealand(version 1.1). Retrieved 19 June, 2002 from

http://www.tomw.net.au/2001/nzmmf.html


參考資料

參與研發單位:中央研究院-計算中心-後設資料工作組

提供單位:中央研究院-計算中心-後設資料工作組

使用單位:各主題計畫