一文全面瞭解火山語音無監督預訓練技術的落地實踐

一直以來，火山語音團隊都為時下風靡的影片平臺提供基於語音識別技術的智慧影片字幕解決方案，簡單來說就是可以自動將影片中的語音和歌詞轉化成文字，來輔助影片創作的功能。但伴隨平臺使用者的快速增長以及對語言種類更加豐富多樣的要求，傳統採用有監督學習技術來解決的辦法日漸遭遇瓶頸，這讓團隊著實犯了難。

眾所周知，傳統的有監督學習會對人工標註的有監督資料產生嚴重依賴，尤其在大語種的持續最佳化以及小語種的冷啟動方面。以中文普通話和英語這樣的大語種為例，儘管影片平臺提供了充足的業務場景語音資料，但有監督資料達到一定規模之後，繼續標註的ROI將非常低，必然需要技術人員考慮如何有效利用百萬小時級別的無標註資料，來進一步改善大語種語音識別的效果。

相對小眾的語言或者方言，由於資源、人力等原因，資料的標註成本高昂。在標註資料極少的情況下（10小時量級），有監督訓練的效果非常差，甚至可能無法正常收斂；而採購的資料往往和目標場景不匹配，無法滿足業務的需要。

為此火山語音團隊迫切需要研究如何以儘可能低廉的標註成本充分利用大量的無標註資料，提升少量標註資料下的識別效果並落地到實際業務中，所以無監督預訓練技術成為影片平臺ASR（Automatic Speech Recognition / 自動語音識別）能力向小語種推廣的關鍵。

儘管近年來學術界在語音無監督預訓練領域取得了許多重大進展，包括Wav2vec2.0 [1]、HuBERT [2]等，但在工業界卻鮮有落地案例可以參考借鑑。整體來看，火山語音團隊認為，以下三方面主要原因，阻礙了無監督預訓練技術的落地：

模型引數量大、推理開銷大。大量無標註資料需要用較大的模型做無監督預訓練，才能得到高質量的語音表徵，但這樣的模型如果直接部署到線上，會帶來高昂的推理成本。
無監督預訓練只關注語音表徵的學習，需要結合大量純文字訓練的語言模型聯合解碼才能達到理想效果，和端到端ASR推理引擎不相容。
無監督預訓練開銷大、週期長且不穩定。以Wav2vec2.0為例，300M引數量的模型用64張V100 GPU預訓練60萬步，耗時長達半個月；此外由於資料分佈的差異，在業務資料上訓練容易發散。

對此火山語音團隊在基於無監督預訓練的語音識別技術落地過程中，針對以上三大痛點進行了演算法改進和工程最佳化，形成一套完整易推廣的落地方案。本文將針對方案，從落地流程、演算法最佳化以及工程最佳化等環節展開詳盡介紹。

落地流程

下圖是基於無監督預訓練的低資源語種ASR的落地流程，大致可以劃分為資料收集、種子模型訓練和模型遷移三個階段。

一文全面瞭解火山語音無監督預訓練技術的落地實踐

圖1 基於無監督預訓練的ASR落地流程

具體來說，第一階段的資料收集，可以透過語種分流、採購等手段收集目標語言的無標註語音、標註語音和純文字資料。

第二階段的種子模型訓練，也就是經典的“無監督預訓練+有監督微調”過程。這一階段將得到一個聲學模型，通常基於連線時序分類（Connectionist Temporal Classification, CTC [3]）損失函式微調。聲學模型結合純文字訓練的語言模型，構成一個完整的語音識別系統，可以取得不錯的識別效果。之所以稱之為種子模型，是因為這個模型並不適合直接上線到業務，我們更傾向於使用LAS（Listen, Attend and Spell [4]）或RNN-T（Recurrent Neural Network Transducer [5]）這類端到端模型進行線上部署。

歸其原因，主要是LAS/RNN-T具有出色的端到端建模能力，同時在近年來已經取得了優於傳統CTC模型的效果，並在工業界得到越來越多的應用。火山語音團隊針對端到端語音識別模型的推理和部署做了大量最佳化工作，已形成一套相對成熟的方案，並支援眾多業務。在維持效果無損的前提下，如果可以沿用端到端推理引擎，就能大幅降低引擎的運維成本。

基於此團隊設計了第三階段，即模型遷移階段。主要借鑑知識蒸餾的思想，用種子模型對無標註資料打偽標籤，然後提供一個引數量較小的LAS模型做訓練，同步實現了模型結構的遷移和推理計算量的壓縮。整個流程的有效性在粵語ASR上得到驗證，具體實驗結果如下表所示：

一文全面瞭解火山語音無監督預訓練技術的落地實踐

首先，團隊採購了1kh成品資料用於實驗對比，直接訓練LAS模型效能不佳，字錯率（Character Error Rate, CER）高達44.2%。經過分析，火山語音認為主要原因是採購資料（對話）和業務測試集（影片）領域不匹配，在wav2vec2.0上的初步實驗也發現了類似的現象。

相比用採購資料做預訓練，採用和目標領域一致的資料做預訓練，在業務測試集上的CER可以從42.0%下降到29.4%，於是團隊將業務場景的無標註資料積累到50kh，模型引數量從100M增加到300M，CER進一步下降到23.1%。

最後團隊驗證了模型遷移的效果，結合粵語語言模型對50kh無標註資料解碼得到偽標籤，訓練LAS模型。可以看到，基於偽標籤訓練的LAS模型基本可以保持CTC種子模型的識別效果且模型引數量減少了三分之一，可以直接基於成熟的端到端推理引擎部署上線。

一文全面瞭解火山語音無監督預訓練技術的落地實踐

圖2 模型引數量和CER對比

最終在模型結構和引數量不變的前提下，團隊用50kh無標註業務資料和10h有標註業務資料取得了23.0%的CER，相對基線模型下降48%。解決了線上計算量和相容性的問題之後，聚焦到整個流程中最為核心的無監督預訓練技術，針對wav2vec2.0，火山語音團隊分別從演算法和工程兩個維度進行了最佳化。

演算法最佳化

wav2vec2.0作為Meta AI在2020年提出來的自監督預訓練模型，開啟了語音無監督表徵學習的新篇章。其核心思想在於用量化模組將輸入特徵離散化，並透過對比學習最佳化，模型主體與BERT類似，隨機mask部分輸入特徵。

一文全面瞭解火山語音無監督預訓練技術的落地實踐

圖3 wav2vec2.0模型結構示意圖（來源：wav2vec 2.0 Figure 1 [1]）

對此在業務資料上訓練wav2vec 2.0模型遇到了兩個棘手的問題：一個是訓練效率低，300M的大模型64卡需要十幾天才能訓完；另一個是訓練不穩定，容易發散。為此團隊提出Efficient wav2vec以緩解上述兩個問題：

對於訓練效率低的問題，團隊透過降低模型的幀率來加快訓練速度，將輸入特徵從waveform替換成filterbanks，幀率由原來的20ms變成40ms。這樣既大幅降低了特徵提取卷積的計算量，同時也大幅降低了Transformer內部編碼的長度，從而提高訓練效率。對於訓練不穩定的問題，則是透過分析無監督預訓練的學習方式並結合業務資料實際情況綜合判斷解決，對比學習損失可以用下式表達：

一文全面瞭解火山語音無監督預訓練技術的落地實踐

對於每一幀t，一文全面瞭解火山語音無監督預訓練技術的落地實踐表示該幀的編碼器輸出，表示該幀的量化輸出。除此之外，還需要取樣若干其它幀作為負樣本，從而當前幀與負樣本幀的集合就相當於是動態構造的詞表。

對比學習的最佳化目標就是最大化當前幀編碼與該幀量化結果的相似度，同時最小化當前幀編碼與其它幀量化結果的相似度。不難發現，負樣本與正樣本的相似度以及負樣本個數這兩點直接決定了對比學習的效果；而在實際操作中，業務資料的平均長度較短，一句話僅能提供50個負樣本，是遠遠不夠的；同時考慮到語音相鄰幀之間的相似度很高，需要保證mask區域的連續，從而提高表徵重構的難度。

為了解決上述兩個問題，火山語音對應提出了兩點改進：

等長資料流：預訓練過程中將整個訓練集視為由每句話首尾拼接而成的一段音訊，每個訓練樣本從中擷取固定長度得到，這樣做是為了保證負樣本數量足夠多，且上下文編碼網路內部的長度在不同幀率下一致，進而保證訓練的穩健性。
自適應連續mask：為緩解資料噪音對訓練的影響，選取較小的mask長度且強制每個mask區域連續，並且mask區域對應的音訊長度在不同幀率下相當。這樣既減輕了噪音資料下對比學習的難度，同時也做到了適配不同的幀率。

在業務資料上對比了wav2vec2.0(w2v)與 Efficient wav2vec (w2v-e)的效果，如下表所示(所有模型均採用64 V100 GPUs訓練)：

一文全面瞭解火山語音無監督預訓練技術的落地實踐

可以看到改進過的Efficient wav2vec相對原始wav2vec 2.0有穩定5%的效能提升，並且訓練效率接近翻倍。

工程最佳化

儘管團隊提出的Efficient wav2vec已經從演算法層面將訓練效率提升近兩倍，但由於300M模型通訊量大，訓練通訊依然存在波動且多機擴充套件效率低。對此火山語音團隊總結道：“為了提高模型預訓練在同步梯度場景下的通訊效率，我們基於BytePS的分散式訓練框架，在通訊後端完成了Bucket分組通訊最佳化技術，資料並行效率能取得10%的提升；同時針對模型引數定義順序與梯度更新順序不同造成的等待問題，還實現了自適應的引數重排（Parameter Reorder）策略。”在這些最佳化基礎上，進一步結合梯度累加等技術，300M模型的單卡擴充套件效率由55.42%提升至81.83%，多機擴充套件效率由60.54%提升至91.13%，原來需要6.5天訓完的模型現在只需要4天就可以訓完，耗時縮短40%。

此外，為了支援未來探索的大模型大資料場景，火山語音工程團隊進一步完成了一系列超大規模模型的原子能力建設。首先實現了local OSS技術，在去除最佳化器大部分的冗餘記憶體佔用的同時，解決了機間擴充套件效率問題；之後在同步梯度通訊上支援了bucket lazy init，減少了一倍引數量的視訊記憶體佔用，能大幅降低視訊記憶體峰值並適配視訊記憶體資源緊張的超大模型場景；最後在資料並行的基礎上，還支援了模型並行和流水線並行，並在1B和10B模型上完成了驗證和定製化支援。這一系列最佳化為大模型大資料的訓練打下堅實基礎。

目前，透過採用低資源ASR落地流程，已有兩個低資源語言成功落地影片字幕和內容安全業務。除語音識別外，基於wav2vec2.0的預訓練模型在其他多個下游任務上也已取得顯著收益，涉及音訊事件檢測、語種識別、情感檢測等，未來將陸續落地到影片內容安全、推薦、分析、音訊分流、電商客服情感分析等相關業務中。無監督預訓練技術的落地將顯著降低各類音訊資料的標註成本，縮短標註週期，實現對業務需求的快速響應。

總結與展望

火山語音團隊在實踐中摸索出一套基於wav2vec2.0的低資源語種ASR落地方案，解決了推理開銷大的問題，實現了與端到端引擎的無縫銜接。針對其中最核心的wav2vec2.0訓練效率低和不穩定的問題，提出了Efficient wav2vec。相比wav2vec2.0，在下游任務上效果提升5%，預訓練耗時縮短一半，結合工程上的最佳化，最終預訓練耗時相比原始版本縮短70%。未來，火山語音團隊將在以下三個方向持續挖掘探索：

無監督演算法升級：在wav2vec 2.0之後語音無監督預訓練的研究工作如雨後春筍，團隊將持續跟進最新的研究，並內化到業務場景。現階段主要嘗試了HuBERT[2]、MAE[6] 和 data2vec[7]等無監督模型，並探索了它們各自在不同下游任務下的表現。未來將從兩個方面提升無監督模型效能：根據不同業務場景，設計高效適配的無監督方案；設計通用的無監督模型，提升在各類下游任務的效能表現。
多語言多模態：目前無監督與多語言結合的研究工作有許多，比如XLSR[8]。團隊在此基礎上提出了S3Net[9]，其透過在預訓練模型中劃分出多個稀疏子網路來分別對不同語言進行建模，有效緩解了不同語言之間的相互干擾（Language Interference）問題，對大語料語言有明顯的效能提升效果。現有的研究工作主要集中在音訊編碼器端進行，而目前主流的端到端模型均採用了編碼器-解碼器結構，即音訊文字多模態建模。團隊判斷單純的音訊端預訓練已經不能滿足端到端模型的需要，未來將在音訊文字多模態預訓練上進行探索工作，分別是海量非對齊音訊文字與端到端模型聯合建模以及純無監督的多模態預訓練。
大資料大模型：現有的模型在10萬小時規模時其效能就接近飽和，團隊在中文10萬小時標註資料訓練的模型基礎上，利用100萬小時無標註資料做NST[10]訓練，在通用測試集上取得相對7%的CER下降，同時模型的泛化能力得到明顯的改善，在20個領域測試集上平均CER相對下降15%。要充分吸收百萬小時量級的海量資料就需要更大的模型，目前團隊已經在1B引數量級的模型上取得初步進展。大模型的效能上限高，隨之而來的問題是落地難。為了將大模型落地到實際業務中，未來將嘗試各種模型壓縮方法，如矩陣分解、權重裁剪和知識蒸餾等，儘可能做到無失真壓縮效果。

火山語音，長期以來面向位元組跳動各大業務線以及火山引擎ToB行業與創新場景，提供全球領先的AI語音技術能力以及卓越的全棧語音產品解決方案，包括音訊理解、音訊合成、虛擬數字人、對話互動、音樂檢索、智慧硬體等。目前團隊的語音識別和語音合成覆蓋了多種語言和方言，多篇技術論文入選各類AI 頂級會議，為抖音、剪映、飛書、番茄小說、Pico等業務提供了領先的語音能力，並適用於短影片、直播、影片創作、辦公以及穿戴裝置等多樣化場景，透過火山引擎開放給外部企業。

參考文獻

[1] Baevski, A., Zhou, Y., Mohamed, A. and Auli, M., 2020. wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33, pp.12449-12460.

[2] Hsu, W.N., Bolte, B., Tsai, Y.H.H., Lakhotia, K., Salakhutdinov, R. and Mohamed, A., 2021. Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, pp.3451-3460.

[3] Graves, A., Fernández, S., Gomez, F. and Schmidhuber, J., 2006, June. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).

[4] Chan, W., Jaitly, N., Le, Q. and Vinyals, O., 2016, March. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. In 2016 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 4960-4964). IEEE.

[5] Graves, A., 2012. Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711.

[6] He, K., Chen, X., Xie, S., Li, Y., Dollár, P. and Girshick, R., 2022. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16000-16009).

[7] Baevski, A., Hsu, W.N., Xu, Q., Babu, A., Gu, J. and Auli, M., 2022. Data2vec: A general framework for self-supervised learning in speech, vision and language. arXiv preprint arXiv:2202.03555.

[8] Conneau, A., Baevski, A., Collobert, R., Mohamed, A. and Auli, M., 2020. Unsupervised cross-lingual representation learning for speech recognition. arXiv preprint arXiv:2006.13979.

[9] Lu, Y., Huang, M., Qu, X., Wei, P. and Ma, Z., 2022, May. Language adaptive cross-lingual speech representation learning with sparse sharing sub-networks. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6882-6886). IEEE.

[10] Park, D.S., Zhang, Y., Jia, Y., Han, W., Chiu, C.C., Li, B., Wu, Y. and Le, Q.V., 2020. Improved noisy student training for automatic speech recognition. arXiv preprint arXiv:2005.09629.

相關文章