近日,蘋果 Siri 團隊在蘋果機器學習期刊上連發三文:《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》、《Inverse Text Normalization as a Labeling Problem》、《Deep Learning for Siri』s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis》,詳實展現了蘋果在語音助手 Siri 上的最新進展與成果。其中第一篇文章討論了一項利用聲學模型資料的遷移學習技術,它可以顯著提升新語言版本 Siri 的精確度。機器之心隨後將奉獻上第二篇、第三篇博文,敬請讀者期待。
使用者希望 Siri 的語音識別功能保持穩定,不受語言、裝置、聲音環境或者通訊通道頻寬的影響。正如其他監督式機器學習任務一樣,高精度的獲取通常需要大量的標註資料。無論何時在 Siri 中部署新的語言,或者擴充套件 Siri 以支援不同的音訊通道頻寬,我們都面臨著是否有足夠資料來訓練聲學模型的挑戰。本文中,我們討論了使用聲學模型資料的遷移學習技術,該技術已經投入使用。我們展示了,表徵不僅可跨語言遷移,還可以跨音訊通道頻寬遷移。作為一個研究案例,我們專注於以新的 Siri 語言識別超過 8 kHz 藍芽耳機的窄帶音訊。我們的技術有助於顯著提升新語言版本 Siri 的精確度。
任何數量的域資料
即使你只有與訓練域相關的有限資料,它也很有價值。絕大多數 Siri 的使用發生在寬頻音訊通道,只有很少一部分發生在窄帶通道(比如,8KHz 藍芽耳機)。然而,從絕對意義上講,蘋果的大量客戶在窄帶通道上使用 Siri。在新語言版本的 Siri 釋出之前,我們可以蒐集的窄帶藍芽音訊的數量是有限的。儘管如此,我們的目標仍是在第一天就為客戶提供最好的體驗。
2014 年年中,Siri 啟動了一個使用深度神經網路(DNN)的新語音識別引擎。該引擎首先引入到美式英語的 Siri 中,截至 2015 年年中,我們已經把該引擎擴充套件到 13 種語言。為了實現成功擴充套件,我們必須使用釋出前可收集的有限數量的轉錄資料來解決建立高質量聲學模型的問題。對於寬頻音訊情況是這樣,例如通過 iPhone 麥克風收集寬頻音訊,而對於通過藍芽耳機收集的窄帶音訊更是如此。
一個可以解決小數量窄帶藍芽音訊問題的方法是帶限(band-limit)相對較多、更易收集的寬頻音訊。實際上,我們發現在有限數量的窄帶藍芽音訊上訓練的聲學模型依然優於在更大數量的帶限寬頻音訊上訓練的模型,這表明了聲學模型訓練中域內資料的價值(圖 1)。這就要求同時利用大量的寬頻音訊和有限的窄帶音訊。在這項工作中,我們在遷移學習框架中調查了神經網路初始化 [1], [2]。
表 1 :窄帶藍芽測試中的詞錯率(WER)
跨語言初始化
很多研究者認為 [3] [4] [5] 神經網路聲學模型的隱藏層可以跨語言共享。背後原理在於隱藏層學習的特徵變換(feature transformation)不太指定具體語言,因此可以在多種語言之間泛化。
圖 2. 跨語言初始化
我們將訓練好的現有語言窄帶 DNN 模型的隱藏層遷移到新的目標語言,並使用目標語言資料重新訓練該網路,如圖 2 所示。
即使我們用不同的源 DNN 進行嘗試,使用所有可用的窄帶訓練資料進行跨語言初始化訓練的效果通常顯著優於基線(詳見 [6])。即使只有 20 個小時的窄帶資料,對大多數語言來說,使用英語窄帶模型開始跨語言訓練優於使用更多窄帶資料的基線。而當我們思考源語言和目標語言之間的語言關係時,我們無法得出結論。
跨頻寬初始化
圖 3. 跨頻寬初始化
在最初的實驗中,我們發現使用較少真實窄帶藍芽音訊資料訓練的模型優於使用較多帶限寬頻資料訓練的模型。但是,在一種語言中使用帶限資料訓練的模型作為初始化的起點仍然是有用的。我們在真實窄帶藍芽音訊資料上重新訓練帶限模型。用這種方式,我們能夠使用一種語言的寬頻和窄帶資料來訓練窄帶模型(見圖 3)。
跨語言和跨頻寬遷移的結合
看到前兩個遷移學習技術的成功之後,我們認為我們可以結合這兩種技術,實現更進一步的發展。具體來說,我們在一個新的語言的帶限寬頻資料上訓練 DNN 時,不需要使用隨機權重開始,但是可以初始化在已支援的語言的帶限資料上訓練的 DNN 模型中的隱藏層。
圖 4. 跨語言和跨頻寬初始化的結合
圖 5. 跨語言和跨頻寬初始化的詞錯率對比
結論
我們利用從其他語音識別任務中獲取的知識來改善窄帶藍芽應用的 DNN 聲學模型。這類知識通常從 DNN 聲學模型初始化中獲取,具體來說,就是使用在帶限寬頻資料上預訓練的 DNN 的權重,或者將其用於另一種語言。
對於我們實驗中使用的全部語言,這些技術產生的詞錯率比只在目標語言的藍芽窄帶資料中單獨訓練的模型低 45%。我們的方法還可以靈活地在訓練時間和從可用的多樣化資料中學習之間進行權衡,詳情見論文 [6]。
除本文論述的藍芽窄帶模型案例研究外,這些方法在很多神經網路聲學模型場景中都顯示出其高效性,並且幫助我們在 Siri 使用新語言和新音訊通道時構建最佳模型。
參考
[1] L Pratt, J Mostow, and C Kamm, Direct transfer of learned information among neural networks, in Proceedings of AAAI, 1991.
[2] S Thrun, Is learning the n-th thing any easier than learning the first? in Advances in Neural Information Processing Systems 8 (NIPS-95), 1996.
[3] A Ghoshal, P Swietojanski, and S Renals, Multilingual training of deep neural networks, in Proc. IEEE ICASSP, 2013.
[4] J-T Huang, J Li, D Yu, L Deng, and Y Gong, Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers, in Proc. IEEE ICASSP, 2013.
[5] G Heigold, V Vanhoucke, A Senior, P Nguyen, M Ranzato, M Devin, and J Dean, Multilingual acoustic models using distributed deep neural networks, in Proc. IEEE ICASSP, 2013.
[6] X Zhuang, A Ghoshal, A-V Rosti, M Paulik, D Liu, Improving DNN Bluetooth Narrowband Acoustic Models by Cross-bandwidth and Cross-lingual Initialization, Interspeech, 2017.
原文連結:https://machinelearning.apple.com/2017/08/01/cross-initialization.html