2024 火山引擎 AI 創新巡展上海站於近日舉辦,活動展示了豆包大模型在綜合評分、語音識別等方面的效果提升,還發布了對話式 AI 實時互動解決方案。豆包大模型團隊成果 Seed-ASR ,提供了語音識別能力支援。
Seed-ASR 是一款 ASR(自動語音識別)成果。它能準確轉錄各種語音訊號,識別不同語言、方言、口音。對於人名、生詞,Seed-ASR 也能結合文字語音等上下文,實現更準確轉錄。該成果目前已被整合進豆包 APP 、火山引擎相關服務模組中。
本文介紹了 Seed-ASR 技術亮點 —— 高精度識別、大容量模型、支援多種語言、上下文感知、分階段訓練方法。相關同學還分享了立項動機、研發歷程及總結思考,展望了大模型 Scaling Laws 對 ASR 技術的推動和影響。
8 月 21 日,2024 火山引擎 AI 創新巡展﹒上海站帶來了豆包大模型最新進展。
公開及內部測評集顯示,最新版本豆包大模型對比 5 月 15 日釋出版本綜合能力提升 20.3% ,其中,角色扮演能力提升 38.3% ,語言理解能力提升 33.3% ,數學能力提升 13.5% 。根據 QuestMobile 報告,基於豆包大模型打造的豆包 APP 月活使用者數在上半年已達 2752 萬,為同類 APP 第一,是第二名的 2.43 倍。
語音能力是本次活動的釋出重點。其中,語音識別和語音合成模型進一步升級,對話式 AI 實時互動功能也最新上線。
具體來說,豆包﹒語音合成模型升級了流式語音合成能力,能夠實時響應、精準斷句,支援“邊想邊說”。豆包﹒語音識別模型,可基於更強上下文感知能力,推理得出更準確的識別結果,並支援一個模型識別普通話和粵語、上海話、四川話、西安話、閩南語等多種中國方言。
基於語音合成、語音識別等成果,火山引擎整合了雲服務的實時音影片技術,使 AI 語音互動能像人類說話一樣打斷和插話,端到端延時可低至 1 秒以內。即使在弱網環境,丟包 80% 依然可保持清晰流暢。
上述釋出中,語音合成能力依託於 Seed-TTS 。而語音識別能力依託於豆包大模型團隊另一成果—— Seed-ASR 。
Seed-ASR 能力展示
Seed-ASR 基於大語言模型,可將各種語音轉化為文字資訊,使機器能“聽懂”使用者說話,“聰明”地識別各類資訊。
給到歷史人物介紹,模型能從語音中識別相關資訊。(2)基於專業名詞的上下文推理
模型能根據使用者對字幕的編輯歷史,關聯並自動識別後續語音中的專業名詞——比如滑雪中的“立刃”、“雪板”、“搓雪”等表達。
(3)方言識別
即便是 5 種方言夾雜的語音聊天,模型同樣能夠識別並展示出較為準確的結果。如果將聊天相關資訊作為提示詞,事先提供給模型,識別效果則會進一步提升。
Seed-ASR 已在豆包 APP 中應用,被網友用在英語會話、虛擬聊天伴侶、復刻親友聲音等多個場景。面向更多企業客戶,Seed-ASR 依託火山引擎, 在語音互動、內容稽核、會議訪談轉寫、音影片字幕等場景也有落地。
目前, Seed-ASR 技術報告已經公開,在多個領域、多種語言、方言、口音綜合評估集上,它比其他端到端模型表現出顯著改進。
對比此前釋出的大型 ASR 模型,Seed-ASR 在中英文公開測試集上,單詞錯誤率(面向中文以單個字計算)降低 10%-40% ,展現出一定優勢。
有網友在試用後表示,這個模型的表現確實超出預期,家裡小朋友說話也能聽懂。
技術詳情及更多 Demo 展示,可透過下方連結瞭解:
論文標題:Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition
論文連結:https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research
Demo展示:https://bytedancespeech.github.io/seedasr_tech_report/
技術亮點與原理
Seed-ASR 的立項始於 2023 年初,隨著 ChatGPT 橫空出世,Scaling Laws 成為顯學,各領域研究者都意識到,引數量和資料量的大幅增長使得模型同時擁有強大的理解和生成能力。
此前,語音一直與 NLP 結合緊密,語音與文字的相互轉換在人類大腦內本就是一項“不假思索便執行”的任務,對機器也類似。
基於上述背景,研究團隊希望讓 ASR 模型能夠利用 LLM 豐富的知識,整體提升 ASR 識別結果的準確性,由此,開啟了 Seed-ASR 的相關工作。
從技術角度看,Seed-ASR 核心亮點在於兩方面:
其一,基於大模型,為 ASR 引入了上下文理解能力。
Seed-ASR 有 LLM 加持,可利用豐富的上下文理解語音訊號。具體實現上,透過構建有效且多樣的訓練資料,團隊激發了模型的語音模態,使得模型可以結合文字,捕捉語音中的相關資訊,再在推理中,設計一些解碼策略,以緩解上下文引入造成的幻覺及誤轉寫問題。
上述工作使得與 AI 對話時,模型能夠理解特定術語,也能在會議紀要中,“聽懂”新加入參會者的人名。且溝通越多,上下文資訊越多,後續轉錄的正確率就越高。
其二, All-in-One 理念帶來強大的泛化效果。
傳統 ASR 屬於小模型,每個領域需要特定模型解決細分問題,另有與之配套的融合方法,脫離特定場景,表現便會下降。Seed-ASR 基於 All-in-One 思路,強大的泛化性使它能被用於各類場景,更為簡潔。
除卻上述兩方面,Seed-ASR 還擁有識別準確率高、支援多種語言等特性,其中 CN 版支援 13 種中文方言,多語言版支援英語和其他 7 種語言,同時正在擴充支援 40 種語言。
這些能力中,高精度識別與多種語言支援能力源於 Scaling Laws 理念。模型容量擴大,更多樣更廣泛資料的引入,提供了模型更好的泛化性和能力湧現。正如 GPT 系列每一代的進化一樣。此外,分階段的訓練方式既賦予模型高精度識別能力,也提供模型利用上下文推理的能力。
訓練方法
Seed-ASR 的開發加入了分階段訓練過程,這種基於音訊條件 LLM 框架被稱為 AcLLM 。
整個流程包括:編碼器的自監督學習(SSL)、監督微調(SFT)、上下文微調(Context SFT)、強化學習(RL)。其中,預訓練的大量文字資料訓練使模型儲存大量知識,在後續微調中,LLM 在更高質量的任務導向資料上進一步微調,增強了上下文推理和理解任務指令的能力。RLHF 階段中,LLM 得以與人類偏好進一步保持一致。該步驟使編碼器能從語音中捕獲豐富資訊,參考了基於 BERT 的語音 SSL 框架,團隊開發了一種基於一致性的模型,可在音訊訊號中可捕捉並儲存語音訊號中的全域性及區域性資訊。團隊將訓練後的音訊編碼成稱為“ LUISE ”,它是大規模無監督迭代語音編碼器(Large-scale Unsupervised Iterative Speech Encoder)的英文縮寫。
繼承 BERT 的理念,LUISE 採用掩碼語言預測的學習正規化,即:先將波形提取的特徵序列輸入到 Token 化模組,得到每個幀的離散標籤,再使用交叉熵準則對 LUISE 進行訓練,損失函式僅對掩碼幀進行計算,訓練完成後,移除 softmax 層,用 LUISE 的 Encoder 部分進行後續有監督微調。團隊還利用了迭代固定分詞器方法,從連續資料中提取離散標籤,重複迭代過程,逐步最佳化了分詞結果。在選擇中間層過程中,團隊凍結了第一次迭代訓練的編碼器引數,新增對映層並利用 CTC(Connectionist Temporal Classification)演算法進行貪婪搜尋,從而得到詞錯誤率結果(WER)。下圖展示了針對 LUISE 語義表示最最佳化層的探索實驗結果,對於 20 億引數的LUISE,第 25 層(總共 30 層)的輸出展示了最佳語義表示,並在後續迭代中,用於生成離散標籤。大規模純語音資料訓練已讓 LUISE 具備強大的語音表徵能力,能夠以 40ms 幀率輸出豐富語音和語義資訊的連續表徵。為了讓模型能理解語音中對應文字內容,需要將編碼表徵的語義資訊對映到 LLM 語義空間去。團隊為此採用 2 種方法:在模型結構上,引入一個轉換器模組將音訊編碼器 LUISE 與 LLM 連線起來。當提供上下文時,模型會識別相關語音資訊,結合上下文,提供準確文字,否則將語音直接轉錄為文字。訓練方式上,團隊採用了“可學習編碼器 + 可學習轉化器+固定 LLM ”策略,這樣可保持 LLM 豐富的語義知識和推理能力,透過編碼器和轉換器引數訓練,使得語音中的語義資訊與 LLM 的語義空間對齊。Context SFT ,不止關乎語音對話中的背景資訊理解,對於語音識別中的模糊資訊,比如口音、發音不清、同音異義詞、生僻詞等理解也有很大意義。為此,團隊引入了上下文感知訓練以及聯合波束搜尋方法來增強相關能力。首先團隊使用自研的語言模型來生成語音轉錄有關的上下文,並構建了“上下文,語音,文字”三種元素的資料集,將其與一定比例的一般 ASR 資料混合訓練,並在訓練中將上下文和語音表徵輸入 LLM 中。為了解決原生波束搜尋的幻覺問題,團隊還提出一種聯合波束搜尋的解碼策略以緩解幻覺,找到最優得分 P(y|x,c) ,其中,y 表示預測的假設,x 是語音資訊,c 是給定上下文資訊,超引數 α 用於平衡解碼過程中語音資訊和上下文資訊的權重,並且,團隊還引入了一種修剪策略,過濾掉語義方面不合理的候選詞。下圖展示了“有上下文”和“無上下文”轉錄語音的示例情況,從第二行輸出結果可見,有上下文情況下,模型輸出與此前出現的單詞“ ceaseth ” 、 “ sufficeth ”進行了對齊。強化學習(RL)的引入,使模型在序列建模任務中學習到相對最優的決策策略。透過構建基於 ASR 指標的獎勵函式,團隊將其引入 Seed-ASR 中。不僅於此,團隊還將加權單詞錯誤率(WER)作為額外獎勵函式,這樣可使模型更多關注關鍵詞的錯誤問題。具體到訓練過程中,團隊使用前一階段訓練的上下文 SFT 初始化模型引數,利用高質量資料進行數千小時的強化學習訓練,為保證上下文感知能力,訓練資料還包括一定比例的“上下文,語音,文字”三種元素資料。在消融研究中,將加權 WER 作為獎勵函式的模型(最後 2 行)在 3 個評估集的表現優異,最後一行訓練進一步加入三種元素的資料集,其上下文能力表現得以保持。 實驗結果與技術展望
下圖展示了 Seed-ASR 與其他同類模型的平均單詞錯誤率,在中文領域,Seed-ASR 對比主流模型無論是普通話在多領域的識別錯誤率,還是 6 個普通話測試集上,其平均錯誤率都低於其他模型。面向英文表現也很好,無論面向多領域英語識別評測,還是 MLS 公共評測集,其表現同樣突出。除卻客觀評價外,團隊還引入主觀評價,選擇 3 名轉錄員進行人工識別,將文字與 Seed-ASR 進行對比。結果顯示,在語音搜尋和語音助手領域,兩者旗鼓相當,而在直播、影片、會議場景,Seed-ASR( CN 版本)表現出比人類更好的主觀可理解性。在研究測試過程中,團隊還觀察到,更大模型可以透過增加訓練資料量級,不斷降低損失值。據團隊所瞭解,目前尚無基於 LLM 框架的音訊編碼器 Scaling Laws 的研究,團隊在訓練階段選取了 5 個量級的模型,透過 770 萬小時無監督多領域純語音資料訓練,觀察 Loss 值、單詞錯誤率(WER)。從下圖能看出,隨著模型規模提升(在橫軸取 2 為底的對數值),交叉熵預訓練 Loss 值與單詞錯誤率均會降低,且預訓練 Loss 值與單詞錯誤率呈正相關關係。為探索長語音資料在模型表現上的影響,團隊還構建了一系列資料集,分別直接用長語音資料進行微調,對照組使用切分後的短語音微調,並且比對了其他 ASR 模型。
結果顯示,長語音 SFT 效果更佳。團隊認為,分段操作可能導致了邊界資訊丟失,降低識別準確率,且影響了全域性上下文的一致性,進而降低了識別結果的準確性和一致性。林同學是該專案的主要參與者之一,展望 Seed-ASR 將釋放的潛力,他認為,語音內容理解作為互動入口,準確率的進一步提升將推動人機互動更為“智慧化”。ASR 對於小眾語言、口音、發音的更強相容性,可促使技術進一步普惠不同文化背景或溝通障礙的小眾群體。對於技術發展的展望,林同學頗為樂觀:“目前 Scaling Laws 的潛力尚未被窮盡,我們在資料和模型結構的升級工作仍收益可觀,我們將繼續探索”。 “務實”、“重視技術”是團隊的底色
事實上,Seed-ASR 早已被應用於豆包 APP 實際場景中,從立項到上線,只歷經不到半年時間。此後,模型歷經不斷調優,效能繼續提升。“專案推進效率非常高”,這是讓林同學印象最深的事。據他回憶,快速推進一方面得益於技術路線選取的前瞻性。Seed-ASR 的框架連續性很好,一開始選擇了連續語音表示的方向,後續也沒有切換大方向,使得團隊少走“彎路”,還能做進一步深入研究和最佳化。這當中,演算法同學發起前期驗證和技術方向規劃,當模型展現出對應能力,更多同學加入進來。其中,工程同學提供了訓練穩定性和推理加速方面的支援,資料同學快速支援了要素生產,評測同學構建了一套六邊形的評價維度。Leader 們會身居一線,緊密跟蹤前沿工作和技術推進,與各職能同學緊密溝通技術細節,以更好協調資源和指導專案推進。在大家緊密配合下,模型得以快速迭代。“所有人都一心撲在實際效果最佳化上,反而在公開集上沒來得及測試,導致技術報告遲遲沒有公開”,林同學補充道。“我們團隊的關鍵詞,一個是務實,另一個是非常重視技術”,林同學說道,而正是這種氛圍,促使大家更加自驅,更加積極去推進專案。“每個同學都有機會做適合自己的事情,又能收穫成就感。當看到技術實際落地,釋放價值,也給同行提供新的視角,這給了我們動力把技術做得更紮實”,他認真地補充道。截至目前,豆包大模型團隊語音方向已釋出 Seed-TTS 、Seed-ASR 等多項技術成果,團隊希望吸引自驅、務實、有志於“用科技改變世界”的頂尖人才加入,點選閱讀原文了解更多資訊。