視覺語音雙管齊下!阿里聯手美國學院推出AI脣語解讀新方法

AIBigbull2050發表於2019-12-06
2019-12-05 18:24:15


視覺語音雙管齊下!阿里聯手美國學院推出AI脣語解讀新方法

智東西(公眾號:zhidxcom)
編 | 雲鵬

智東西12月5日訊息,據外媒報導,阿里巴巴浙江大學研究中心和史蒂文斯理工學院(Stevens Institute of Technology)的研究人員近日推出了一種提升AI閱讀脣語準確率的方法——“Lip by Speech(LIBS)”。

該方法利用視訊中的語音資訊作為輔助線索,減少了AI對視訊中無關幀的關注,使其注意力更加集中。據研究人員稱,使用該方法的AI在兩個脣語閱讀基準測試中,字元錯誤率分別降低了7.66%和2.75%。

一、影像語音相結合解讀脣語

視覺語音雙管齊下!阿里聯手美國學院推出AI脣語解讀新方法

▲面部影像識別的過程示例

實際上,能夠從視訊中讀脣語的AI和機器學習演算法並不是什麼新鮮事物。早在2016年,谷歌和牛津大學的研究人員就詳細介紹了一種系統,該系統可以以46.8%的精度註釋視訊素材,優於專業讀脣語人員12.4%的精度。但是,即使是最先進的系統也難以解決脣部運動的“一語多義”問題,從而使脣語識別的準確率一直無法超越語音識別。

為了追求脣語閱讀效能更加強大的系統,阿里巴巴浙江大學研究中心和史蒂文斯理工學院的研究人員設計了一種方法,稱為“Lip by Speech(LIBS)”。該方法利用從語音識別器中提取的特徵資訊作為補充線索。他們說,利用該方法的系統在兩個基準測試中都達到了業界領先的準確性,在字元錯誤率方面分別降低了7.66%和2.75%。

LIBS和其他類似的解決方案可以幫助那些聽障人士觀看缺少字幕的視訊。據估計,全世界有4.66億人患有失能性聽力障礙(disabling hearing loss),約佔世界人口的5%。根據世界衛生組織的資料,到2050年,這一數字可能會超過9億。

二、LIBS方法是怎樣應用的?

視覺語音雙管齊下!阿里聯手美國學院推出AI脣語解讀新方法

▲WAS與LIBS方法脣語解讀標記範圍的對比

LIBS會以多種規模等級,從有聲視訊中提取有用的音訊資料,包括序列級(sequence level)、文字級(context level)和幀級(frame level)。然後,將這些提取的資料與視訊資料通過他們之間的對應關係對齊,最後利用一種篩選(filtering)技術來優化(refine)提取的資料。

LIBS的語音識別器和脣語閱讀器這兩部分均為一種“基於注意力的序列到序列的(attention-based sequence-to-sequence)”體系結構,這種體系結構可將一段音訊或視訊序列的輸入資訊轉化為帶有標籤和注意價值(attention value)的輸出資訊。

研究人員通過上述方法在LRS2資料集上對系統進行訓練,LRS2包含來自BBC的45,000多個口頭句子,同時也在CMLR上訓練,CMLR是現有的最大中文普通話口語語料庫,具有來自中國網路電視臺的10萬多個自然句子(包括3,000多箇中文字元和20,000個片語)。

三、“幀級知識提取”是關鍵

該團隊指出,由於LRS2資料集中的某些句子過短,該系統難以在LRS2資料集上實現“合理的”結果。但是,一旦對最大長度為16個單詞的句子進行了預訓練,解碼器就可以利用文字級的知識,提高LRS2資料集中句子結尾部分的質量。

研究人員在論文中寫道:“LIBS減少了對無關幀的關注”,“幀級知識的提取(frame-level knowledge distillation)進一步提高了視訊幀特徵的可分辨性,使注意力更加集中。”

結語:AI脣語識別市場仍具有較高增長潛力

目前AI脣語識別在基準測試中的準確率仍然在50%左右,現實應用價值還有待於準確率的進一步提升。此次新提出的LIBS方法為這一領域的研究提供了更好的思路,一種視訊語音相結合的研究思路。

金融身份識別、嘈雜環境下的語音識別輔助、聽障人士的輔助交流等領域均為AI脣語識別的重要應用場景。期待國內外科技巨頭在該領域有更多新的突破。

文章來源:Venturebeat

https://www.toutiao.com/i6766899025921704459/


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2667241/,如需轉載,請註明出處,否則將追究法律責任。

相關文章