小紅書語音識別新突破!開源FireRedASR,中文效果新SOTA

机器之心發表於2025-02-09
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

語音識別(ASR,Automatic Speech Recognition)是一種將語音轉化為文字的技術,被廣泛應用於智慧語音互動和多媒體內容理解領域,例如語音助手、語音輸入、影片字幕等場景。衡量中文 ASR 效能的主要指標是字錯誤率(CER,Character Error Rate),該值越低,表示模型的識別效果越好。

近日,小紅書 FireRed 團隊正式釋出並開源了基於大模型的語音識別模型 ——FireRedASR,在語音識別領域帶來新突破。在業界廣泛採用的中文普通話公開測試集上,FireRedASR 憑藉卓越的效能取得了新 SOTA!FireRedASR 在字錯誤率(CER)這一核心技術指標上,對比此前的 SOTA Seed-ASR,錯誤率相對降低 8.4%,充分體現了團隊在語音識別技術領域的創新能力與技術突破。
圖片
  • 論文標題:FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
  • 論文地址:http://arxiv.org/abs/2501.14350
  • 專案地址:https://github.com/FireRedTeam/FireRedASR

FireRedASR 介紹

FireRedASR 系列模型包含兩種核心結構:FireRedASR-LLM 和 FireRedASR-AED,分別針對語音識別的極致精度和高效推理需求量身打造。團隊開源了不同規模的模型和推理程式碼,旨在滿足全面覆蓋多樣化的應用場景。

FireRedASR-LLM 和 FireRedASR-AED 的結構如下圖所示:

  • FireRedASR-LLM(左):結合了文字預訓練 LLM 的能力,為極致的 ASR 準確率而生,適用於對準確率要求極高的應用場景。
  • FireRedASR-AED(右下):基於經典的 Attention-based Encoder-Decoder 架構,FireRedASR-AED 透過擴充套件引數至 1.1B,成功平衡了 ASR 語音識別的高準確率與推理效率。
圖片
實驗及結果

下圖是 FireRedASR 和其他 ASR 大模型的對比,在業界常用的中文普通話公開測試集上,FireRedASR-LLM(8.3B 引數量)取得了最優 CER 3.05%、成為新 SOTA!FireRedASR-AED (1.1B 引數量)緊隨其後取得 3.18%,兩者均比 Seed-ASR(12+B 引數量)的 3.33% 低、並且引數量更小。FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更優的 CER。
圖片
(aishell1 表示 AISHELL-1 測試集,aishell2 表示 AISHELL-2 iOS 測試集,ws_net 和 ws_meeting 分別表示 WenetSpeech 的 Internet 和 Meeting 測試集)

FireRedASR 不僅在公開測試集上表現優異,在多種日常場景下,也展現了卓越的語音識別效果。

如下圖所示,在由短影片、直播、語音輸入和智慧助手等多種來源組成的 Speech 測試集上,與業內領先的 ASR 服務提供商(ProviderA)和 Paraformer-Large 相比, FireRedASR-LLM 的 CER 相對降低 23.7%~40.0%,優勢十分明顯。

值得一提的是,在需要歌詞識別能力的場景中,FireRedASR-LLM 也表現出極強的適配能力,CER 實現了 50.2%~66.7% 的相對降低,這一成果進一步拓寬了 FireRedASR 的應用範圍,使其不僅能勝任傳統語音識別需求,還能在創新性的多媒體場景中大放異彩。
圖片
值得一提的是,FireRedASR 在中文方言和英語場景中同樣表現不俗。在 KeSpeech(中文方言)和 LibriSpeech(英語)測試集上,FireRedASR 的 CER 顯著優於此前的開源 SOTA 模型,使其在支援好普通話 ASR 的前提下,在中文方言和英語上也足夠通用,進一步凸顯了其魯棒的語言適配能力。
圖片
好奇為什麼 FireRedASR 能取得如此好的效果嗎?可以參考 FireRed 團隊公開的技術報告一探究竟,並且模型和程式碼已經全部開源(連結見上文)。

FireRed 團隊希望透過開源能為語音社群做出貢獻,促進 ASR 的應用和端到端語音互動的發展。

相關文章