近日,清華大學電子工程系語音與音頻技術實驗室提出了一種端到端的基于注意力機制和能量評分器的關鍵詞檢索系統。該系統擺脫了語音識別的依賴,并且取得了超越傳統方法的性能,尤其適用于低資源小語種關鍵詞檢索任務。
關鍵詞檢索即為在連續的語音流當中檢測和定位用戶給定的關鍵詞的技術。在移動設備廣泛應用、海量音視頻源源不斷產出的今天,關鍵詞檢索能有效提高信息檢索的效率和多媒體資源的利用率。傳統的關鍵詞檢索技術依賴于連續語音識別系統,即先使用語音識別系統得到識別結果(一般為多候選結果),然后再從識別結果之中尋找關鍵詞并進行置信度估計。然而,訓練出一個可靠的語音識別系統往往需要大量的標注語音數據,對于低資源語種,即可用的訓練數據較少的語種,傳統的方法往往會遇到一些困難。
為了解決低資源語種可訓練數據少而制約關鍵詞檢索效果的問題,本工作采用的框架不再依賴于語音識別系統,大大降低對數據資源的依賴。以下是系統的整體結構框圖:該系統主要由四部分組成,包括語音編碼器(Speech Encoder),文本編碼器(Query Encoder),注意力機制(Attention Mechanism)以及能量評分器(Energy Scorer)。
圖1:端到端關鍵詞檢索系統的整體架構
語音編碼器和文本編碼器經過特殊設計,采用聯結時序分類(Connectionist Temporal Classification, CTC)、基于注意力機制的序列到序列以及自監督訓練等方法,使得生成的語音特征和文本特征包含關鍵詞檢索所需要的序列信息。其中,語音編碼器結構如下圖所示:
圖2:語音特征提取過程以及使用聯結時序分類或基于注意力的解碼器從語音特征中預測字符或音素序列
然后,將語音和文本特征輸入注意力機制和能量評分器,得到最終的評判結果。注意力機制和能量評分器,專門為關鍵詞檢測所設計,是本工作的兩個重要創新點,也是超越傳統方法的關鍵所在。圖3演示了注意力權重在正負樣本上的差異;圖4是能量評分器的具體結構。
圖3:負樣本(左)和正樣本(右)的注意力權重
圖4:能量評分器的結構
課題組首先根據注意力權重對語音特征進行加權求和從而得到上下文特征。接著,通過計算上下文特征和語音特征的能量比。最終,課題組將能量比和由文本特征經過多層感知機得到的門限進行比較從而得到最后的判決結果。
該系統有效解決了低資源小語種缺乏標注數據和專家知識所帶來的制約,使得關鍵詞檢索技術在相關領域邁向實用。該論文發表于《神經網絡》(Neural Networks),題為“基于注意力機制和能量評分器的端到端低資源語種關鍵詞檢索系統”(End-to-end keyword search system based on attention mechanism and energy scorer for lowresource languages),第一作者為清華大學電子工程系碩士研究生趙澤宇,通訊作者為其導師張衛強副研究員。
清華大學電子工程系語音與音頻技術實驗室近年來專注于低資源語音識別和關鍵詞檢索研究,主持國家自然科學基金聯合重點項目和國家重點研發計劃重點專項課題,2020年在美國國家標準與技術研究院(NIST)主辦的語音分析評測OpenSAT2020關鍵詞檢索任務取得國際第一名,在OpenASR2020低資源語音識別挑戰賽中十個低資源語種取得四個國際第一名。