典藏語音強化之研究

出自 TELDAP
前往: 導覽搜尋

執行單位

國立中央大學資訊工程系


主持人

王家慶


執行期限

  • 99年度:2010年8月~2011年7月
  • 100年度:2011年8月~2012年12月


計畫簡介

99年度

本計畫發展用應於數位典藏語音之強化技術,本年度進行已錄製語音強化技術之研發,著重背景噪音去除及殘響語音去除。

100年度

  • 本計畫將研發兩個用於數位典藏語音之強化技術,分別是:
  1. 進行已錄製語音強化技術之研發;
  2. 進行高品質語音錄製技術之研發。
  • 其中,已錄製語音之強化技術主要著重背景噪音去除及殘響 語音去除; 而高品質語音之錄製技術則是利用多麥克風處理,將同時達成背景噪音去除、殘響語音 去除及干擾音源去除。在前期一年的計畫中,我們已完成背景噪音去除方法的雛形,以及殘響語音去除的方法。本期計畫將延續成果,進行背景噪音去除方法的優化以及研發干擾音源去除的方法。在背景噪音去除方法的優化部分,我們將提出兩個改善策略:
  1. 改善傳統演算法僅著重SNR改進的缺點,進而考量人耳聽覺認知的特性,發展感知導向之背景噪音去除架構;
  2. 發展改良之非穩態噪音估測方法。在感知導向之背景噪音去除架構方面,首先,我們以廣義子空 間方法獲得初估之增強語音,根據聽覺遮蔽效應的概念,計算初估增強語音之聽覺遮蔽門檻值。
  • 由於此聽覺遮蔽門檻值是在傅立葉頻域上表達,因此本計畫將聽覺遮蔽門檻由傅立葉頻域轉到特徵域(Eigen Domain),最後利用此門檻估計值設計廣義子空間頻域限制估測器,確保最後獲得之增強語音其殘餘噪音會在聽覺門檻之下。由於非穩態噪音的估測優劣,是上述感知導向背景噪音去除架構之成敗關鍵,所以本計畫第二個改善策略,即是發展改良之非穩態噪音估測方法。為了有效利用音框間的相依性,我們將在頻域單一頻率上,利用滑動音窗建立共變異矩陣,藉由子空間分解拆解出語音併噪音 (Speech Plus Noise)子空間與噪音子空間,利用噪音子空間來估測目前的噪音頻譜。此外,考量到環境噪音與語音具有相似度,我們設計一比重因子,決定語音併噪音子空間與噪音子空間兩者的比重。作法上首先萃取三個強健性參數,再利用支持向量機進行分類的動作,其與超平面的距離將決定比重的大小。在干擾源去除方面,本計畫利用語音訊號稀疏的特性來估計目標語音及干擾源之混合矩陣。因為語音訊號具有諧頻的性質,我們可以依賴它們的稀疏性並且藉由最大事後機率的方式求出在指定之時頻點上具有最大機率的事件,並依事件狀況的不同運用最佳組合法及啓發式的方法達到未知訊號的恢復,然後將頻域上的分離訊號轉換到時域。最後,我們可藉由人工或自動選擇的方式擷取出目標語音。


參考資料

政府研究資訊系統(Government Research Bulletin, 簡稱GRB)