華語學習者中介語料庫之建構計畫
出自 TELDAP
執行單位
國立臺灣師範大學國語教學中心
主持人
- 子計畫一:建構華語中介語料庫網路檢索系統及其應用之研究
- 99、100年度:陳浩然
- 子計畫二:單句語料庫之建構
- 99:謝妙玲
- 子計畫三:電腦寫作考試語料庫之建構
- 99、100年度:張莉萍
執行期限
- 99年度:2010年8月~2011年7月
- 100年度子計畫一:2011年8月~2012年12月
- 100年度子計畫三:2011年8月~2012年7月
網站名稱
- 99年度:語料庫平台
- 100年度:華語學習者搭配詞使用檢索系統
網址
計畫/網站簡介
99年度
本計畫為整合型計畫「華語學習者中介語料庫之建構計畫」,包括「子計畫一:華語學習者中介語料庫架構及檢索系統」、「子計畫二:單句語料庫之建構」及子計畫三「電腦寫作考試語料庫之建構」。整合型計畫的目標為建構一個臺灣地區外籍華語學習者中介語料庫,以書面語文資料為限,有計畫地蒐集學生作業、考試、作文語料,建置電子語料庫,提供方便的檢索工具,以促進台灣華語教學在教學大綱、教材研發和學生學習方法。
100年度
此學習者搭配詞使用檢索系統是基築於語料搜索引擎Corpus Workbench (CBW)所開發,目前該系統中的語料來自子計畫三的電腦寫作考試語料。此檢索系統除了提供使用者進行基本的詞彙檢索功能外,還提供使用者檢索學習者詞彙搭配的使用狀況。使用者只要在檢索欄位輸入關鍵詞,並點選“Collocations”檢索功能,選擇要檢驗的統計方式(MI 值:代表兩詞搭配程度的強弱,其值越大代表兩詞的關聯強度越大,也越有可能是真正的搭配詞;T 值:代表兩詞共同出現的次數,其值越大代表兩詞共同出現的次數越多;Log-Likelihood)、限定檢索關鍵詞前後的位置、以及指定關鍵詞的詞性,系統便會進行檢索並找出符合條件的語料,並將檢索結果(搭配項目、頻率、統計數值等)在新頁面作呈現,使用者點選“Examples”選項則可看到該項搭配在學習者語料中被使用的情形。
- 子計畫三:電腦寫作考試語料庫之建構
- 此計畫為整合型計畫「華語學習者中介語料庫之建構計畫」之子計畫三「電腦寫作考試語料庫之建構」,目前為計畫第二年尾聲。第二年主要工作除了延續第一年的語料蒐集、整理外,並進一步訓練人員,進行人工偏誤標記。在語料蒐集部分,目前已經完成146萬字的蒐集工作,並對每篇作文(語料)標註作者母語、文類、題目、功能、考生程度、級分等訊息。人工標記偏誤部分,則依第一年計畫所制訂出的8大類:詞彙[L]、語法[G]、形式[F]、語序[W]、語義[S]、冗詞[R]、缺詞[M]、話題[T],25次類標記,編製完成標記原則與手冊,已完成約80萬字語料的偏誤標記。今年另一工作重點是尋找能區辨不同能力學習者的詞彙語法關鍵特徵(Hawkins and Buttery, 2009),從本計畫所建置的語料庫中,初步觀察分析學習者產出的詞彙量、連接詞、特殊句式(把字句)、一般副詞等使用情況,部分結果已發表於期刊論文。