名場面來了,李雲龍、徐江、王多魚同臺飆戲,背後是小紅書的AI

机器之心發表於2024-09-08
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


近日,來自小紅書的技術團隊 FireRed,提出了基於大語言模型的 FireRedTTS 語音合成系統,並分享了在短影片配音及聊天式語音對話等應用的一些實踐。名場面來了,李雲龍、徐江、王多魚同臺飆戲,背後是小紅書的AIFireRedTTS 只需要給定文字和幾秒鐘參考音訊,無需訓練,就可模仿任意音色、任意說話風格,創造獨特的音訊內容。搞怪風、女友風、emo 小片段…… 百變風格自由定製,只有你想不到,沒有 FireRedTTS 做不到。 名場面來了,李雲龍、徐江、王多魚同臺飆戲,背後是小紅書的AI是的,你沒聽錯。這一段帶著京腔,中英文混雜的片段正是由 FireRedTTS 生成。中英夾雜的 strong(死裝)感在「city」中透著一絲陰陽怪氣。不只語言混雜,FireRedTTS 還有讓人直呼「更 city」的配音與對話。 名場面來了,李雲龍、徐江、王多魚同臺飆戲,背後是小紅書的AI大家聽出來了哪幾個影視劇角色?運用 FireRedTTS,能夠讓《黑神話》悟空、《亮劍》李雲龍、《狂飆》中的徐江、《西虹市首富》中的王多魚這些本不可能聚集在一起的人物插科打諢,互相鬥嘴,整活不斷。 名場面來了,李雲龍、徐江、王多魚同臺飆戲,背後是小紅書的AI
FireRedTTS 不僅能夠駕馭多風格、高表現力的音色,在自然對話領域也表現亮眼。影片中基於 FireRedTTS 的陪伴式交流真實自然,刁蠻可愛的女友形象讓人情不自禁。名場面來了,李雲龍、徐江、王多魚同臺飆戲,背後是小紅書的AI
同時,除運用 FireRedTTS 的能力進行多音色、中英混雜的「整花活」之外,FireRedTTS 還能夠生成具有小紅書博主風格的高階感旁白,少年博主音頗具特色,將聽眾拉入即將離去的夏天。

FireRedTTS 的效果卓群,能 hold 住不同型別、不同風格、不同使用場景的需求。目前,FireRed 團隊已經公佈了該工作的技術報告,並且將開源模型權重和推理程式碼,以供大家體驗嘗試。

FireRedTTS 是如何一步步突破侷限,做到如此驚豔的效果?我們可以開啟 FireRedTTS 的論文一探究竟。

圖片

  • 技術報告及 Demo 連結:https://arxiv.org/abs/2409.03283
  • 程式碼連結:https://github.com/FireRedTeam/FireRedTTS

FireRedTTS 提出了一套完整的基座語音合成框架,由三部分組成:資料處理、基座系統、與下游應用。在基座系統部分,他們提出了一種基於語言模型的語音合成方案,旨在利用語言模型強大的序列生成能力,將文字序列轉換成自然的、有表現力的語音序列。

該方案首先訓練一個關注語義資訊的語音離散編碼器,以把語音訊號轉換成離散的標籤序列,和一個說話人全域性表徵。隨後,文字到語音的語言模型被訓練以從文字和說話人表徵中預測目標語音序列。

為將預測的離散語音序列穩定地還原至高保真音訊,FireRedTTS 提出了一種兩階段方法:先用大規模低取樣率資料訓練高泛化性梅爾譜生成器,再用小規模高保真資料訓練超分辨神經聲碼器以合成高取樣率音訊。同時,除了基於流匹配的解碼器,該系統還提出了一種基於多流語言模型的流式解碼器以滿足流式解碼需求。

圖片

待基座模型訓練完畢後,FireRedTTS 便可以透過 In-Context Learning, Supervised Fine-Tuning, Instruct Tuning 等方法,服務下游語音應用。比如:在配音領域,該系統可以零樣本克隆使用者聲音、1 小時資料構造專業級特色聲音;在自然對話領域,該系統透過指令最佳化實現情感和副語言行為可控的擬人化語音生成。

更多研究細節,可參考原論文。

相關文章