首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜

机器之心發表於2024-08-13
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


自 2024 年 GPT-4o 出現以來,業內各公司紛紛投入巨大的資源進行 TTS 大模型的研發。近幾個月內,中文語音合成大模型如雨後春筍般湧現,如 chattts、seedtts、cosyvoice 等。

雖然當前語音合成大模型在中文普通話上的效果已與真人幾乎無異,但面對中國紛繁複雜的方言,TTS 大模型卻鮮有涉獵,訓練一個統一的中文各方言語音合成大模型是一項極具挑戰的任務。

行業痛點與技術瓶頸

當前,語音合成大模型技術在普通話領域已經取得了顯著進展,但在方言領域的發展卻十分緩慢。中國擁有數十種主要方言,每一種方言都有獨特的語音特徵和語法結構,這使得訓練一個覆蓋各種方言的 TTS 大模型變得異常複雜。

現有的 TTS 大模型大多專注於普通話,無法滿足多樣化的語音合成需求。此外,方言語料庫的稀缺以及高質量標註資料的匱乏,也進一步增加了技術難度。

巨人網路 AI Lab 的技術創新與突破

為了解決上述難題,巨人網路 AI Lab 團隊中的演算法專家和語言學家共同努力,基於中國方言體系,構建了涵蓋 20 種方言、超過 20 萬小時的普通話和方言資料集。透過這一龐大的資料集,我們訓練出了第一個支援多種普通話方言混說的 TTS 大模型 ——Bailing-TTS。Bailing-TTS 不僅能夠生成高質量的普通話語音,還能夠生成包括河南話、上海話、粵語等在內的多種方言語音。

圖片

  • ArXiv: https://arxiv.org/pdf/2408.00284
  • Homepage: https://giantailab.github.io/bailingtts_tech_report/index.html
  • 論文標題:Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

以下是Bailing-TTS 河南話的合成效果:

文字1:

汴水東流無限春,隋家宮闕已成塵。行人莫上長堤望,風起楊花愁殺人。

生成語音1:首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
文字2:

我嘞愛好也可多了,好聽豫劇,那腔調兒,聽著得勁兒嘞很。沒事嘞時候我也好出去溜達溜達,逛逛俺河南嘞大好風光。我還好搗鼓點兒吃嘞,像那燴麵呀、胡辣湯呀,你別說,我自己做嘞也可像回事兒。


生成語音2:首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
再給大家聽一下普通話零樣本克隆的效果:

Prompt 1:青年-男首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜生成1:這個問題,嗯嘶,從另一個角度看,是不是對我們來說也是一件好事? 首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜Prompt 2:少年-男 首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜生成2:嘍,明天又是週末啦,一起去看個電影吧。 首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜Prompt 3:老年-女 首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
生成3:說起我們以前的事,啊,那真是三天三夜都說不完。首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜Prompt 4:幼童-女 首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜生成4:哦,你說的是這個啊,這是我去海邊的時候撿到的。 首個支援普通話和方言混說的TTS大模型:河南話、上海話、粵語說得溜
我們採取了多項創新技術來實現這一目標:

1. 統一的方言 Token 規範:我們將各方言的 token 規範統一,並使普通話與各方言的 token 有部分重疊,以利用普通話提供基礎發音能力。這使得我們能夠在有限的資料條件下,實現高質量的方言語音合成

2. 精細化 Token 對齊技術:我們提出了基於大規模多模態預訓練的精細化 token-wise 對齊技術。

3. 層次混合專家結構:我們設計了一種層次混合專家體系結構,用於學習多個漢語方言的統一表示和每種方言的特定表示。

4. 層次強化學習增強策略:我們提出了層次化的強化學習策略,透過基礎訓練策略和高階訓練策略相結合的方法,進一步增強 TTS 模型的方言表達能力。

實現細節

圖片

圖 1 Bailing-TTS 整體架構

1. 基於大規模多模態預訓練的精細化 Token 對齊

為了實現文字和語音 token 的精細化對齊,我們提出了一個多階段、多模態的預訓練學習框架。

第一階段,我們使用無監督的取樣策略,在大規模資料集上進行粗略訓練。第二階段,我們採用精細化取樣策略,在高質量的方言資料集上進行細粒度訓練。這一方法能夠有效地捕捉文字和語音之間的細粒度關聯關係,促進兩種模態的對齊。

2. 基於層次混合專家 Transformer 網路結構

為了訓練適用於多種漢語方言的統一 TTS 模型,我們設計了一種層次混合專家網路結構和多階段多方言 token 學習策略。

首先,我們提出了一種專門設計的混合專家體系結構,用於學習多個漢語方言的統一表示和每種方言的特定表示。然後,我們透過基於交叉注意力的融合機制,將方言 token 注入 TTS 模型的不同層次,以提升模型的多方言表達能力。

3. 層次強化學習增強策略

我們提出了一種層次化的強化學習策略,透過採用基礎策略訓練和高階訓練策略相結合的方法,進一步增強 TTS 模型的方言表達能力。基礎訓練策略支援探索優質的方言語音表達,高階訓練策略在此基礎上強化不同方言的語音特色,從而實現多種方言的高質量語音合成

圖片

圖 2 Dialect MoE 結構

實驗結果

Bailing-TTS 在普通話、多種方言的魯棒性、生成質量、自然度上已達到與真人較為接近的水平。

圖片

表 1 Bailing-TTS 在中文普通話、方言上的測試結果

在實際的應用場景測評中,Baling-TTS 均取得了不錯的效果。

圖片

表 2 Bailing-TTS 在中文普通話、方言上的說話人微調和零樣本克隆的測試結果

技術的落地應用與未來前景

目前,這項多方言 TTS 大模型已經在多個實際場景中得到應用。例如,在遊戲中為 NPC 配音,影片創作中進行方言配音等。透過這一技術,遊戲和影片內容能夠更加貼近地域文化,提升使用者的沉浸感和體驗感。

未來,隨著端到端語音互動大模型的進一步發展,這項技術將在方言文化保護、遊戲 AI NPC 方言互動等領域展現更大的潛力。在方言保護場景中,透過支援多種方言的語音互動,可以讓下一代便捷地學習、傳承、守護漢語方言,讓漢語方言文化源遠流長。在遊戲場景中,會說方言的可語音互動的智慧 NPC,將進一步提升遊戲內容的表現力。

巨人網路 AI Lab 將繼續致力於推動這一技術的創新和應用,為使用者帶來更智慧、更便捷的語音互動體驗。

團隊介紹

巨人 AI 實驗室成立於 2022 年,是隸屬於巨人網路的人工智慧技術應用與研究機構。致力於面向 AIGC 內容(影像 / 文字 / 音影片 / 3D 模型等)生成領域,實現內容生產創作全面智慧化,推動遊戲玩法創新。目前,實驗室已在巨人內部構建起全鏈路 AI 工業化生產管線,同時完成遊戲行業內首個垂類大模型(GiantGPT)備案,率先投入商業化應用。

相關文章