探索專有領域的端到端ASR解決之道

華為雲開發者社群發表於2021-05-26

原文網址 : https://www.cnblogs.com/huaweiyun/p/14813416.html

摘要：本文從《Shallow-Fusion End-to-End Contextual Biasing》入手，探索解決專有領域的端到端ASR。

本文分享自華為雲社群《語境偏移如何解決？專有領域端到端ASR之路（一）》，原文作者：xiaoye0829 。

對於產品級的自動語音識別（Automatic Speech Recognition, ASR）,能夠適應專有領域的語境偏移（contextual bias），是一個很重要的功能。舉個例子，對於手機上的ASR，系統要能準確識別出使用者說的app的名字，聯絡人的名字等等，而不是發音相同的其他詞。更具體一點，比如讀作“Yao Ming”的這個詞語，在體育領域可能是我們家喻戶曉的運動員“姚明”，但是在手機上，它可能是我們通訊錄裡面一個叫做“姚敏”的朋友。如何隨著應用領域的變化，解決這種偏差問題就是我們這個系列的文章要探索的主要問題。

對於傳統的ASR系統，它們往往有獨立的聲學模型（AM）、發音詞典（PM）、以及語言模型（LM），當需要對特定領域進行偏移時，可以通過特定語境的語言模型LM來偏移識別的過程。但是對於端到端的模型，AM、PM、以及LM被整合成了一個神經網路模型。此時，語境偏移對於端到端的模型十分具有挑戰性，其中的原因主要有以下幾個方面：

1. 端到端模型只在解碼時用到了文字資訊，作為對比，傳統的ASR系統中的LM可以使用大量的文字進行訓練。因此，我們發現端到端的模型在識別稀有、語境依賴的單詞和短語，比如名詞短語時，相較於傳統模型，更容易出錯。

2. 端到端的模型考慮到解碼效率，通常在beam search解碼時的每一步只保有少量的候選詞（一般為4到10個詞），因此，稀有的單詞短語，比如依賴語境的n-gram（n元片語），很有可能不在beam中。

先前的工作主要是在嘗試將獨立訓練的語境n-gram 語言模型融入到端到端模型中，來解決語境建模的問題，這個做法也被稱為：Shallow fusion (淺融合)。但是他們的方法對於專有名詞處理得比較差，專有名詞通常在beam search時就已經被剪裁掉了，因此即使加入語言模型來做偏移，也為時已晚，因為這種偏移通常在每個word生成後才進行偏移，而beam search在grapheme/wordpiece （對於英文來說，grapheme指的是26個英文字母+1空格+12常用標點。對於中文來說，grapheme指的是3755一級漢字+3008二級漢字+16標點符號）等sub-word單元上進行預測。

在這篇博文中，我們來介紹嘗試解決這個問題的一篇工作：《Shallow-Fusion End-to-End Contextual Biasing》，這篇工作是Google發表在InterSpeech 2019上的工作。在這個工作中，首先，為了避免還沒使用語言模型進行偏移，專有名詞就被剪枝掉了，我們探索在sub-word單元上進行偏移。其次，我們探索在beam 剪枝前使用contextual FST。第三，因為語境n-gram通常和一組共同字首(“call”, “text”)一起使用，我們也去探索在shallow fusion時融合這些字首。最後，為了幫助專有名詞的建模，我們探索了多種技術去利用大規模的文字資料。

我們在這裡，首先介紹下Shallow fusion，給定一串語音序列x=(x_1, …, x_K),端到端的模型輸出一串子詞級的後驗概率分佈y=(y_1,…,y_L),即P(y|x). Shallow fusion的意思就是將端到端的輸出得分與一個外部訓練的語言LM得分在beam search時進行融合：
y^{*}=argmax logP(y|x)+\lambda P_C(y)y∗=argmaxlogP(y∣x)+λPC(y)

其中\lambdaλ是一個用來調節端到端模型和語言模型權重的引數。為了構建用於端到端模型的語境LM，我們假設已經知道了一系列的單詞級偏置短語，並把他們編譯成了n-gram的WFST（weighted finite state transducer）。這個單詞級的WFST，然後被分解成一個作為拼寫轉換器的FST，這個FST可以把一串graphemes/wordpieces轉換成對應的單詞。

所有之前的偏移工作，無論是針對傳統方法或者是端到端模型，都是將語境LM和基底模型（比如端到端模型或者ASR聲學模型）的得分在單詞（word）或者子詞（sub-word）網格上進行結合。端到端的模型由於在解碼時，通常設定了比較小的beam閾值，導致了其解碼路徑相較於傳統的方法較少。因此本文主要探索在beam剪枝前將語境資訊應用到端到端模型裡。

當我們選擇對grapheme進行偏移，一個擔心是我們可能會有大量的不必要的詞語，與語境FST匹配上，從而淹沒這個beam。

舉例來看，如上圖所示，如果我們想偏移這個單詞“cat”,那麼語境FST構建的目標就是去偏移“c”“a”和“t”這三個字母。當我們想要往“c”這個字母去偏移時，我們可能不僅會把“cat”加入到beam中，也有可能會把“car”這種無關的單詞加入到beam中。但是如果我們是在wordpiece層面進行偏移，相關的subword有較少的匹配，因此，更多相關的單詞能被加入beam中。還是以“cat”這個例子舉例，如果我們按照wordpiece來偏移，那麼“car”這個詞就不會進入beam中。因此，在本文中，我們使用了一個4096大小的wordpiece詞彙表。

我們進一步分析，Shallow fusion修改了輸出的後驗概率，因此我們也可以發現shallow fusion會傷害那些沒有詞語需要偏移的語音，即那些去語境化的語音。因此，我們探索只去偏移那些符合特定字首的短語，舉例來說，在手機中搜尋聯絡人時，通常會先說一個“call”或者“message”，或者想播放音樂時，會先說一個“play”。因此在本文中，我們在構建語境FST時，考慮到這些字首詞語。我們抽取出在語境偏移單詞前出現過50詞以上的字首詞語。最後，我們獲得了292個常用字首詞語用於查詢聯絡人，11個用於播放歌曲，66個用於查詢app。我們構建了一個無權重的字首FST，並把它和語境FST級聯起來。我們也允許一個空字首選項，去跳過這些字首詞。

一個提高專有名詞覆蓋率的方法是利用大量的無監督資料。無監督的資料來自語音搜尋中的匿名語音。這些語音利用一個SOTA模型進行處理，只有那些具有高confidence的語音會被保留下來。最後，為了保證我們留下來的語音主要關於專有名詞，我們用了一個專有名詞標註器（就是ner裡的CRF作序列標註），並保留帶有專有名詞的語音。利用上述方法，我們得到了一億條無監督的語音，並結合了3500萬條有監督的語音進行訓練，在訓練時，每個batch內80%的時間是有監督的資料，20%是無監督的資料。利用無監督的資料，有一個問題就是他們識別出來的文字可能有錯，識別的結果也會限制名稱的拼寫，比如到底是Eric，還是Erik，或者Erick。因此，我們也可以利用大量的專有名詞，結合TTS的方法，創造了一個合成的資料集。我們從網際網路上針對不同類別去挖掘大量的語境偏移詞語，比如多媒體、社交、以及app等類別。最後，我們抽取除了大概58萬條聯絡人的名字，4萬2千條歌名，以及7萬個app的名字。接下來，我們從日誌中去挖掘大量的字首詞語，比如，“call John mobile”，可以得到字首詞“call”對應到社交領域。然後，我們利用特定類別的字首詞和專有名詞去生成語音識別的文字，並利用語音合成器，為每個類別生成了大約100萬條語音。我們進一步為這些語音加上了噪音來模擬室內的聲音。最後，在訓練時，每個batch內90%的時間是有監督的資料，10%的是合成的資料。

最後，我們探索了是否能新增更多的專有名詞到有監督的訓練集中。具體來說，我們對每一條語音利用專有名詞標註器，找到其中的專有名詞。對於每一個專有名詞，我們獲得了其發音特徵。舉例來說，比如“Caitlin”可以表示成發音單位(phonemes)“K eI t l @ n”.緊接著，我們從發音詞典中，找到有相同發音單位序列的詞語，比如“Kaitlyn”。對於真實的語音，和可以替換的單詞，我們在訓練時，隨機替換。這個做法，可以讓模型觀察到更多的專有名詞。一個更直接的出發點是，模型能夠在訓練的時候拼寫出更多的名字，那麼在後面解碼時，結合語境FST，更能夠拼寫出這些名字。

下面看一下實驗部分。所有實驗均基於RNN-T模型，encoder裡包含一個time reduction層，以及8層LSTM，每層有2000個隱藏層單元。decoder包含2層的LSTM，每層有2000個隱藏層單元。encoder和decoer被送到一個聯合網路中，這個網路有600個隱藏層單元。然後這個聯合網路被送到一個softmax裡，輸出為有96個單元的graphemes或者是4096個單元的wordpieces。在推理時，每條語音伴隨著一系列偏移短語用來構建一個語境FST。在這個FST中，每條弧(arc)都有相同的權重。這個權重為每個目錄（比如音樂，聯絡人等）的測試集分別調節。

探索專有領域的端到端ASR解決之道

上圖是Shallow Fusion的一些結果，E0和E1是grapheme和wordpieces的結果，這些模型是沒有進行偏移的。E2是grapheme帶偏移的結果，但是不帶任何本文中的提升策略。E3是用了一個減法代價(subtractive cost)去防止在beam中保留糟糕的候選詞，這個操作在幾乎所有的測試集上都帶來了提升。再從grapheme層面的偏移轉換到wordpiece上的偏移，即我們在更長的單元上進行偏移，有助於在beam內保持相關的候選詞，並提高模型的效能。最後，我們的E5模型在beam search剪枝前，就應用偏移FST，我們稱之為early biasing，這樣有助於確保好的候選詞能更早的保留在beam裡，並帶來了額外的效能提升。總之，我們最好的shallow fusion模型是在wordpiece層面進行偏移，並帶有subtractive cost和early biasing。

由於語境偏置的可能存在於句子中，我們也需要保證當語境偏移不存在時，模型的效果不會下降，即不會損害那些不帶有偏置詞的語音的識別。為了測試這一點，我們在VS test資料集上進行了實驗，我們隨機從Cnt-TTS測試集中選擇了200個偏置短語，去構建一個偏置FST。下圖展示了實驗的結果：

從這個表中可以看到，E1是我們的baseline模型，當新增偏移後，E5模型在VS上出現了很多程度上的效果下降。為了解決這個問題，傳統的模型在偏移FST中包含了字首詞。如果我們只在看到任何非空字首詞後，才應用偏移（E6），我們可以觀察到VS資料集上相較E5出現了結果提升，但是在其他有偏移詞的測試集上，出現了結果下降。進一步，當我們允許其中一條字首可以為空時（主要想解決有偏移詞的場景），但是我們僅僅獲得了與E5類似的結果。為了解決這個問題，我們對於語境短語用了較小的權重如果前面是一個空的字首詞（即沒有字首詞）。利用這個方法，我們觀察到E8相較於E1模型，在VS上取得了很小程度的效果下降，但是在有偏移短語的測試集上，能夠保持有效果提升。

在分析完了上述內容後，我們進一步探索下，當模型能感知到更多的專有名詞時，我們是否能進一步提升偏移的能力。我們的基線模型是E8，這個模型是在3500萬的有監督資料集上訓練得到的。結合我們上面的無監督資料和生成的資料，我們做了下面的實驗：

E9的實驗結果展示，當有無監督的資料一起訓練時，在各個資料集上，都有效果提升。當有生成的資料一起訓練時(E10),相比於E9在TTS測試集上有更大的效果提升，但是在真實場景資料集Cnt-Real上出現了較大程度的下滑（7.1 vs 5.8）,這表明在TTS偏移測試集上的提升，主要來源於訓練集和測試集間匹配的音訊環境，而不是學到了更豐富的專有名詞的詞彙表。

點選關注，第一時間瞭解華為雲新鮮技術~

雲端計算有什麼用？雲端計算的應用領域有多大？
2020-02-06
如何理解深度學習領域中的端到端（end to end）
2024-03-13
深度學習
SpringBoot解決前後端跨域問題
2021-01-04
Spring Boot後端跨域
端到端的開放域聊天機器人_Google_Meena
2020-12-08
機器人Go
前後端分離解決跨域問題
2020-11-08
後端跨域
北鯤雲探索雲端計算在生命科學領域更多的應用場景
2021-07-03
COMP3334專案端到端加密聊天
2024-04-03
加密
MVC專案從客戶端中檢測到有潛在危險的 Request.Form 值的解決方法
2019-05-11
MVC客戶端ORM
支付寶移動端 Hybrid 解決方案探索與實踐
2019-08-20
探索多元領域應用，功能遊戲助力社會議題解決
2023-05-16
遊戲
DRF跨域後端解決之django-cors-headers
2019-02-16
跨域後端DjangoCORSHeader
語音合成領域的首個完全端到端模型，百度提出並行音訊波形生成模型ClariNet
2018-07-25
模型並行音訊
什麼是雲端計算領域的 orphaned resources
2023-04-22
重新審視雲端計算領域的“鼻祖”AWS
2020-08-06
智慧且整合的端到端移動應用程式安全解決方案——Quixxi簡介
2023-04-03
UI
前後端分離專案，如何解決跨域問題？
2022-02-24
後端跨域
超簡單的前端跨域、前後端分離解決方案
2018-05-23
前端跨域後端
解決 Laravel 5.8 前後端分離跨域問題
2019-03-29
Laravel後端跨域
客戶端專案管理的挑戰及解決方法
2022-04-13
客戶端專案管理
把Flutter擴充套件到微信小程式端的探索
2019-10-09
Flutter套件微信小程式
STL推出端到端光纖寬頻和5G無線解決方案
2021-09-26
端到端文字識別CRNN論文解讀
2018-05-04
RNN
前後端分離解決session跨域丟失問題
2018-12-04
後端Session跨域
Flutter全平臺！遷移現有Flutter專案到WEB端
2019-06-02
FlutterWeb
華為雲在視訊編解碼領域的優化探索
2019-04-19
優化
端到端拉通
2018-03-19
springboot使用Filter解決前後端分離，產生的跨域問題
2018-06-22
Spring BootFilter後端跨域
[譯] 在遠端工作中領悟到的 10 件事
2018-11-23
遠端連線關閉，專案就停止的解決辦法
2020-11-05
淺談工業網際網路，從應用領域到解決方案
2021-07-14
北鯤雲超算平臺解決生物科學領域困境，探索更多可能性
2021-07-15
端到端智慧音響
2022-05-25
win10沒有telnet客戶端怎麼辦 windows10中沒有telnet客戶端的解決教程
2020-12-03
Win10客戶端Windows
MQTT協議從服務端到客戶端詳解
2018-03-09
MQQT協議服務端客戶端
乾貨 | 把Flutter擴充套件到微信小程式端的探索
2019-10-16
Flutter套件微信小程式
雲原生技術領域的探索與實踐
2022-05-31
"從客戶端中檢測到有潛在危險的 Request.Form 值"的解決方案彙總
2019-05-25
客戶端ORM
帝國CMS無法遠端儲存沒有字尾的圖片到本地空間的解決方法
2024-10-31

探索專有領域的端到端ASR解決之道

相關文章