換了30多種方言,我們竟然沒能考倒中國電信的語音大模型

机器之心發表於2024-05-27

不管你來自哪個城市,相信在你的記憶中,都有自己的「家鄉話」:吳語柔軟細膩、關中方言質樸厚重、四川方言幽默詼諧、粵語古雅瀟灑……

某種意義上說,方言不只是一種語言習慣,也是一種情感連線、一種文化認同。我們「上網衝浪」遇到的新鮮詞彙中,有不少就是來自各地方言。

當然,有些時候,方言也是一種交流「壁壘」。

在現實生活中,我們經常會看到方言導致的「雞同鴨講」,比如這個:換了30多種方言,我們竟然沒能考倒中國電信的語音大模型

如果你關注最近科技圈的動態就會知道,當前的 AI 語音助手已經能達到「實時回覆」的水準,甚至比人類反應還快。而且,AI 已經能夠充分理解人類的情感,自己也能表現出各種感情。

在這樣的基礎上,如果語音助手能夠識別並理解每一種方言,就能徹底擊破溝通壁壘,與任何群體無障礙進行語言溝通。

實際上,這件事已經有人做了:近日,中國電信人工智慧研究院(TeleAI)釋出了業內首個支援 30 種方言自由混說的「星辰超多方言語音識別大模型」,可同時識別理解粵語、上海話、四川話、溫州話等各地方言,是國內支援最多方言的語音識別大模型。

比如在以下這個會議場景中,面對多種方言的輸入,星辰超多方言語音識別大模型的識別準確率達到業界領先。

首先是來自廣東公司的代表,使用了粵語發言:換了30多種方言,我們竟然沒能考倒中國電信的語音大模型

很突然,下一位發言人就切換到了上海話:換了30多種方言,我們竟然沒能考倒中國電信的語音大模型而在接下來的四川方言和山西方言的對話中,星辰超多方言語音識別大模型也能準確識別並轉換為文字記錄: 換了30多種方言,我們竟然沒能考倒中國電信的語音大模型換了30多種方言,我們竟然沒能考倒中國電信的語音大模型

與語音助手對話過的人都知道,針對普通話的語音識別準確率是相當不錯的,但當面對重口音或者方言的時候,識別準確率會大幅下降,甚至「張冠李戴」。

為了解決這個問題,傳統語音識別模型的處理方式是針對每種方言單獨訓練一個方言模型,這導致了同一個應用背後需要維護多個方言模型,且無法透過一個模型識別多種方言。然而後者恰恰是現實落地場景中最需要的。

一直以來深耕語音賽道的中國電信,決定挑戰這一命題:打造一個更加「通用」的語音識別大模型。

30 多種方言,大模型如何拿下?

讓大模型一口氣學會 30 幾種方言,並沒有想象中的簡單 —— 挑戰同樣存在於資料、演算法、算力方面。

一方面,因為方言資料量的稀疏,不利用其他方言資料中的共有資訊而單獨訓練某個方言模型,效果往往不盡人意。

經過在語音領域多年的積累,TeleAI 已經構建了超 30 種、超 30 萬小時的高質量方言資料庫,方言資料庫在豐富性和高質量等層面均居於業內前列。高質量語音資料對研究者而言是一大利好,能夠讓模型更高效、系統地對方言進行整理歸納。更長遠地看,構建高質量方言資料庫,也是方言保護和研究的基礎。

另一方面的挑戰來自於語音識別技術。如何讓使用者與大模型對話就像和家人講話一樣自然,無需刻意切換普通話,無需提高音量、放慢語速,是工業界當前追求的新目標。

在中國電信 CTO、人工智慧研究院院長李學龍帶領下,TeleAI 自主研發了星辰語音識別大模型。團隊首創「蒸餾 + 膨脹」聯合訓練演算法,解決了超大規模多場景資料集和大規模引數條件下預訓練坍縮的問題,實現 80 層模型穩定訓練。同時,透過超大規模語音預訓練和多方言聯合建模,實現了單一模型支援 30 種方言自由混說語音識別

圖片

星辰語音識別大模型也是業內首個開源的基於離散語音表徵的語音識別大模型,透過「從語音到 token 再到文字」的建模新正規化,將推理時語音傳輸位元率降低了數十倍。

憑藉絕對領先的效能,星辰語音識別大模型此前已經在國際上斬獲了多個國際權威賽事冠軍。

比如,在權威國際語音頂會 Interspeech 2024 離散語音單元建模挑戰賽的 ASR 賽道(Automatic Speech Recognition,自動語音識別)中,星辰語音識別大模型團隊領先於約翰霍普金斯大學、卡內基梅隆大學、英偉達等國內外知名高校與企業,一舉拿下賽道冠軍。

團隊在這場比賽中提出的系統方案極具特色:在訓練時採用了「三段式」設計,包括前端預訓練模型表徵調整策略(Frontend Model)、表徵提取與離散化過程(Dsicrete Token Process)以及多語種識別模型訓練過程(Discrete ASR Model),而在推理階段僅使用後兩段過程。

其中的表徵離散化方法,可以讓模型在保留語音中任務相關資訊的同時,去除其餘不相關資訊,達到降低語音推理傳輸位元率、減少記憶體使用、提升訓練效率的目的,同時也為語音多工(如 ASR、TTS、說話人識別等)統一模型構建、多模態模型建模、說話人隱私保護等方向提供了可能的解決方案。

在業內知名的多方言語音識別資料集 KeSpeech 任務上,星辰語音識別大模型以領先之前最優結果 20% 的成績打破紀錄,實現了 92.97% 的字準確率。在 NIST(美國國家標準與技術研究院)舉辦的低資源粵語電話 Babel 語音識別任務上,星辰語音識別大模型也取得了業內最優結果。

在常見的算力挑戰方面,星辰語音識別大模型的研發團隊同樣具備優勢。中國電信是國內最早進入雲端計算領域的運營商,積累了大量算力建設和算力排程的核心技術。此外,中國電信陸續投產了京津冀智算中心、中南智算中心等多個滿足大模型訓練的公共智算中心。

基於這些優勢條件,星辰超多方言語音識別大模型橫空出世,打破了單一模型只能識別特定單一方言的困境。在多項基準測試中,星辰超多方言語音識別大模型表現出了極其優秀的能力:

圖片

理解方言,對答如流
這才是合格的語音助手

在大模型技術興起之前就廣泛應用的語音助手、智慧裝置和客服系統,其使用者體驗高度依賴語音識別系統的準確率。很多海內外廠商都在這一賽道發力,但大家也會發現,在主流語種之外,使用人口達數億級的中國方言卻沒有得到應有的關注,其場景價值被嚴重低估了。

圖片

長遠來看,星辰超多方言語音識別大模型的超多方言能力可在非常廣泛的社會生活場景中發揮價值。以語音互動頻率較高的智慧座艙場景為例,擅長各種方言的星辰超多方言語音識別大模型能夠使系統更準確地識別和轉錄各種方言的語音輸入,帶來更自然流暢的互動體驗,特別是在方言使用較為普遍的地區,減少「雞同鴨講」的誤會。

情感陪伴的角度看,大模型對方言的理解和精通,能夠極大提升對話機器人類產品的陪伴質量,有效解決普通話不熟練的老年人等群體無法觸達資訊服務的問題。如同科幻電影《Her》中的情節,AI 能夠給予人類超越真實世界中人際關係的高質量關懷。換了30多種方言,我們竟然沒能考倒中國電信的語音大模型

目前,星辰超多方言語音識別大模型已經在開始融入各行各業,積極探索新興的應用場景。比如,星辰超多方言語音識別大模型已在福建、江西、廣西、北京、內蒙等地的中國電信萬號智慧客服系統試點應用,接入星辰超多方言語音識別大模型以後,萬號智慧客服秒懂 30 種方言,實現了日均處理約 200 萬通電話;智慧客服翼聲平臺接入星辰超多方言語音識別大模型的語音理解和分析能力,實現 31 省全覆蓋,每天可處理 125 萬通客服電話。

對於中國電信來說,還有一個非常重要的出發點:2023 年之前,當人們談大模型技術時,公益價值很少會被提及。但在 2024 年,這一價值越來越多地「被看見」。

大模型技術的應用將很大程度上推動對方言文化的保護。在我國的 130 多種語言中,有 68 種使用人口在萬人以下,有 48 種使用人口在 5000 人以下,有 25 種使用人口不足千人,有的語言只剩下十幾個人甚至幾個人會說。語音大模型的參與,能夠幫助記錄和保護瀕危方言,促進方言的傳承和學習。對於包含大量方言內容的歷史文獻和檔案,方言大模型還可以輔助進行數字化和整理工作,防止文化遺產的流失。

「語音助手」全面開卷

中國電信如何領跑大模型落地之戰?

大模型之戰已經持續一年半之久,行業目前有一個共識:隨著大模型推理成本的大幅度下降,人們將迎來大模型應用的井噴期。

在海內外眾多的大模型玩家中,中國電信是很特別的一位。在這個新階段,相比於我們熟悉的科技企業,像中國電信這樣的運營商在資源優勢和業務方面更具優勢。

一方面,運營商有豐富的網路和算力資源,相對來說訓練、推理成本更低。尤其在大模型的建設方面,更容易發揮規模的優勢。另一方面,中國電信有龐大的客戶群體,以及豐富的 2C、2H、2B 的資訊服務業務,能夠更快地推動人工智慧大模型在各個領域的落地,形成新的經濟增長點。這些優勢使運營商有動力在人工智慧領域加大投入,驅動技術進步。

在國內運營商中,中國電信是最早佈局 AI 領域的一家,且堅持走科技創新、核心能力自主研發的發展路線。去年至今,從星辰語義大模型到星辰多模態大模型和星辰語音識別大模型,中國電信旗下的大模型始終保持著快速迭代,且完成了語義、語音、視覺、多模態的全模態大模型佈局。

圖片

更讓人打破對央企傳統印象的是,中國電信還是大模型開源領域的重量級玩家。今年,TeleAI 陸續開源了 7B、12B、52B 的星辰語義大模型。今年內,千億級星辰語義大模型也將正式開源。

沿著近年來人工智慧的技術發展趨勢,我們可以看到,在實現通用人工智慧的過程中,語音是關鍵的一部分,而語音識別是其中非常重要的一環。

但我們同樣意識到,語音合成技術的成熟,將成為重塑各個語音助手場景的關鍵。據瞭解,TeleAI 還同步研發了讓擬人更真人的超自然語音生成大模型,實現零樣本聲音復刻和擬人度對齊 GPT-4o,將在語音識別和生成應用水平上進一步突破,加速通用 AI 語音助手的落地應用。換了30多種方言,我們竟然沒能考倒中國電信的語音大模型這樣的全能中文語音助手,你期待嗎?

相關文章