語音識別新正規化:完全的“端到端”模型,優勢在哪裡?

迴圈智慧發表於2020-02-17

語音識別新正規化:完全的“端到端”模型,優勢在哪裡?

“自然科學的發展除了按常規科學一點一滴地積累之外,還必然要出現‘科學革命’。”托馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的“正規化轉換”一詞,如今已成為大家耳熟能詳的技術用語。

大的“正規化轉換”存在於基礎科學領域,小的“正規化轉化”也存在於幾乎每個細分的技術領域。

語音識別新正規化

自然語言處理的子領域“語音識別”為例,從 2012 年引入深度學習技術開始,語音識別的研究熱點經歷了三個階段:

  • 2011年前後,基於 DNN+HMM(深度神經網路+隱馬爾科夫模型)的語音識別
  • 2014年前後,基於 LSTM+CTC(長短時記憶網路+連線時序分類)的不完全端到端語音識別
  • 2017年前後,基於 Transformer(自注意力機制)的完全端到端語音識別

如果說 2011 年深度學習的引入,是語音識別領域上一次正規化轉換的起點,那麼從 2017 年開始,基於注意力機制和 Transformer 新型神經網路結構的語音識別研究,無疑標誌著語音識別的新正規化正在形成。

語音識別新正規化:完全的“端到端”模型,優勢在哪裡?

傳統的語音識別主要框架包括:聲學模型和語言模型。2011 年前後引入深度神經網路(DNN),主要目標是改進傳統語音識別框架中的聲學模型演算法。2014年前後引入LSTM+CTC的方案,理論上實現了端到端,但因為效果不好,實際使用中仍然會加上語言模型

而 2017 年之後基於自注意力機制的完全端到端模型,才真正突破了“傳統框架”的限制,去除所有中間步驟和獨立子任務,充分利用深層神經網路和平行計算的優勢,取得最優結果。在 2019 年秋天的語音領域頂會  Interspeech 上,基於自注意力機制和Transformer神經網路結構的演算法,幾乎出現在了所有語音識別相關的研究中。

基於Transformer的完全端到端模型主要優勢有三個:

  • 第一,Transformer採用的自注意力機制是一種通過其上下文來理解當前詞的創新方法,語義特徵的提取能力更強。在實際應用中,這個特性意味著對於句子中的同音字或詞,新的演算法能根據它周圍的詞和前後的句子來判斷究竟應該是哪個(比如洗澡和洗棗),從而得到更準確的結果。
  • 第二,解決了傳統的語音識別方案中各部分任務獨立,無法聯合優化的問題。單一神經網路的框架變得更簡單,隨著模型層數更深,訓練資料越大,準確率越高。因此企業可以使用更大量的專有資料集來訓練模型,得到相應場景下更準確的識別結果。
  • 第三,新的神經網路結構可以更好地利用和適應新的硬體(比如GPU)平行計算能力,運算速度更快。這意味著轉寫同樣時長的語音,基於新網路結構的演算法模型可以在更短的時間內完成,也更能滿足實時轉寫的需求。

Transformer-XL 進一步釋放注意力模型的優勢

Transformer-XL 神經網路結構是由迴圈智慧聯合創始人楊植麟博士(共同第一作者),與Google AI、卡內基梅隆大學共同推出。在全部 5 個單詞和字元級語言建模標準資料集取得 state of the art 結果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。

語音識別新正規化:完全的“端到端”模型,優勢在哪裡?

從名字也可以看出來,Transformer-XL 通過引入迴圈機制和相對位置編碼,主要解決了超長輸入的問題。Transformer-XL對長序列建模能力更強,而語音識別的一個重要基礎就是對長序列進行建模。序列越長可以考慮的上下文音訊資訊越豐富,識別越準確。也就是說,即使超長的句子,也能得出更加準確的結果。

在面向企業的商用場景下,語音識別系統的準確率,主要取決於演算法模型的先程式度以及特定領域訓練資料的規模。2019 年,在迴圈智慧聯合創始人、CTO張宇韜博士帶領的工程團隊努力下,迴圈智慧已經將最前沿的 Transformer-XL 技術成果落地到實際應用中。經過一年多的積累,迴圈智慧目前在金融、教育和網際網路服務領域經過了幾十萬小時的資料訓練。

語音識別新正規化:完全的“端到端”模型,優勢在哪裡?

在一家市值百億美金網際網路服務公司的實際測試中,迴圈智慧針對電話錄音的自動語音識別(ASR)效果超過國內公認的語音巨頭和網際網路巨頭。

從學術前沿到商業落地

雖然學術的前沿、頂尖研究人員的重心已經轉到基於 Transformer 的研究,那些曾經輝煌的神經網路結構,很難再取得技術突破,也不符合技術發展的方向。但是,很多從事自動語音識別(ASR)業務的公司,依然不得不固守“傳統”的神經網路結構。

原因有二。首先,通常將前沿學術成果落地到商業場景,本身就需要很長時間;其次對於普通公司而言,採用前沿學術成果意味著需要從一項熟悉的舊技術組合切換到另一套,甚至意味著人員的更新迭代,需要的時間更長。

工程能力世界頂級的 Google,從學術前沿的成果到大規模商業落地,大概花了兩年多的時間,終於成功將基於Transformer的演算法引入其核心搜尋產品中:

  • 2017 年 6 月,“Attention is all you need” 論文發表 ,Google 在這篇論文中介紹了 Transformer,一種基於自注意力機制(self-attention mechanism)的全新神經網路結構。短短兩年多時間,該論文在 Google 學術中的引用量達 5956 次,毫無疑問是近幾年自然語言理解領域影響力最大的論文之一。
  • 2018 年 6 月,Google 釋出了基於 Transformer 的 BERT 模型,被稱為近幾年 NLP 領域最具里程碑意義的進展。
  • 2019 年 10 月,Google 在官方部落格中宣佈,已經將這項技術應用於搜尋中,增強了對使用者搜尋意圖的理解。

新演算法模型帶來的效果提升非常顯著。過去一直以來,當我們向 Google 的搜尋框中輸入一個完整句子的時候,Google 的做法是用句子中的關鍵詞去匹配相應的搜尋結果,並不關心句子的實際含義。正因為如此,早年的“搜尋高手”都知道一些搜尋技巧,比如搜尋引擎會自動忽略句子或短語中的“的”、“是”等虛詞,所以他們通常不會輸入一個自然句子,而是自己拆成關鍵片語合,這樣對機器更加友好,也更有可能得到更好的答案。而現在,Google 搜尋引擎對於長句子的理解更加深入,更懂使用者想搜尋什麼,因此就能匹配更好的結果。

語音識別新正規化:完全的“端到端”模型,優勢在哪裡?

Google 搜尋“可以幫人取藥嗎”的結果對比,新演算法更準確地理解了使用者的搜尋意圖,是想問能否幫人取處方藥。

對於迴圈智慧而言,商業落地的規模要比 Google 全球搜尋的規模小很多,我們在三個月之內完成了基於原創 Transformer-XL 演算法模型的完全“端到端”語音識別引擎部署,針對銷售、客服電話錄音場景的語音識別準確率同樣得到大幅提升。

依靠在金融、教育和網際網路服務等領域不斷積累行業訓練資料,迴圈智慧持續優化演算法模型的準確率,贏得了很多大家耳熟能詳的上市公司和標杆企業的青睞,包括眾安保險、玖富、VIPKID、新東方線上、58同城、獵聘等。 

相關文章