AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
近期,港中大(深圳)聯手趣丸科技聯合推出了新一代大規模聲音克隆 TTS 模型 ——MaskGCT。該模型在包含 10 萬小時多語言資料的 Emilia 資料集上進行訓練,展現出超自然的語音克隆、風格遷移以及跨語言生成能力,同時保持了較強的穩定性。MaskGCT 已在香港中文大學(深圳)與上海人工智慧實驗室聯合開發的開源系統 Amphion 釋出。
論文連結:https://arxiv.org/abs/2409.00750
樣例展示:https://maskgct.github.io
模型下載:https://huggingface.co/amphion/maskgct
Demo 展示:https://huggingface.co/spaces/amphion/maskgct
專案地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
公測應用:voice.funnycp.com
本文介紹了一種名為 Masked Generative Codec Transformer(MaskGCT)的全非自迴歸 TTS 模型。
現有大規模文字到語音(TTS)系統通常分為自迴歸和非自迴歸系統。自迴歸系統隱式地建模持續時間,但在魯棒性和持續時間可控性方面存在一定缺陷。非自迴歸系統在訓練過程中需要顯式的文字與語音對齊資訊,並預測語言單元(如音素)的持續時間,這可能會影響其自然度。
該模型消除了文字與語音監督之間的顯式對齊需求,以及音素級持續時間預測。MaskGCT 是一個兩階段模型:在第一階段,模型使用文字預測從語音自監督學習(SSL)模型中提取的語義標記;在第二階段,模型基於這些語義標記預測聲學標記。MaskGCT 遵循掩碼預測學習正規化。在訓練過程中,MaskGCT 學習根據給定的條件和提示預測掩碼的語義或聲學標記。在推理過程中,模型以並行方式生成指定長度的標記。透過對 10 萬小時的自然語音進行實驗,結果表明 MaskGCT 在質量、相似度和可理解性方面優於當前最先進的零樣本 TTS 系統。
一、方法
MaskGCT 模型由四個主要元件組成:
1. 語音語義表示編解碼器:將語音轉換為語義標記。
2. 語音聲學編解碼器:從聲學標記重建波形。
3. 文字到語義模型:使用文字和提示語義標記預測語義標記。
4. 語義到聲學模型:基於語義標記預測聲學標記。
語音語義表示編解碼器用於將語音轉換為離散的語義標記,這些標記通常透過離散化來自語音自監督學習(SSL)模型的特徵獲得。與以往使用 k-means 方法離散化語義特徵相比,這種方法可能導致資訊損失,從而影響高質量語音的重建或聲學標記的精確預測,尤其是在音調豐富的語言中。為了最小化資訊損失,本文訓練了一個 VQ-VAE 模型來學習一個向量量化碼本,該碼本能夠從語音 SSL 模型中重建語音語義表示。具體來說,使用 W2v-BERT 2.0 模型的第 17 層隱藏狀態作為語音編碼器的語義特徵,編碼器和解碼器由多個 ConvNext 塊組成。透過改進的 VQ-GAN 和 DAC 方法,使用因子分解碼將編碼器輸出投影到低維潛在變數空間。
語音聲學編解碼器旨在將語音波形量化為多層離散標記,同時儘可能保留語音的所有資訊。本文采用殘差向量量化(Residual Vector Quantization, RVQ)方法,將 24K 取樣率的語音波形壓縮為 12 層的離散標記。此外,模型使用 Vocos 架構作為解碼器,以提高訓練和推理效率。
文字到語義模型採用非自迴歸掩碼生成 Transformer,而不使用自迴歸模型或任何文字到語音的對齊資訊。在訓練過程中,我們隨機提取語義標記序列的字首部分作為提示,以利用語言模型的上下文學習能力。我們使用 Llama 風格的 Transformer 作為模型的主幹,結合門控線性單元(GLU)和 GELU 啟用函式、旋轉位置編碼等,但將因果注意力替換為雙向注意力。還使用了接受時間步 t 作為條件的自適應 RMSNorm。在推理過程中,我們生成任意指定長度的目標語義標記序列,條件是文字和提示語義標記序列。本文還訓練了一個基於流匹配的持續時間預測模型,以預測基於文字和提示語音持續時間的總持續時間,利用上下文學習。
語義到聲學模型同樣採用非自迴歸掩碼生成 Transformer,該模型以語義標記為條件,生成多層聲學標記序列以重建高質量語音波形。
二、樣例展示
MaskGCT 能超自然地模擬參考音訊音色與風格,並跨語言生成音訊:
參考音訊:中文克隆效果: 英文克隆效果: MaskGCT 還能夠模仿動畫人物和名人的聲音,猜猜下面的音訊都是誰?
王遠端:香港中文大學(深圳)電腦科學專業的二年級博士生,研究聚焦語音合成與表徵領域,曾作為共同第一作者,研發新一代語音合成系統 NaturalSpeech 3。
武執政:香港中文大學(深圳)副教授、博導,港中大深圳 - 趣丸科技聯合實驗室主任。入選國家級青年人才,連續多次入選史丹佛大學 “全球前 2%頂尖科學家”、愛思唯爾 “中國高被引學者” 榜單。
曾銳鴻:趣丸科技資深語音演算法工程師,研究聚焦跨語言零樣本語音合成。曾在頂級期刊 ACM TWEB 發表論文,以及多篇語音識別和語音合成相關發明專利。
詹皓粵:趣丸科技資深語音演算法工程師,研究聚焦跨語言零樣本語音合成,曾發表多篇領域頂會論文及發明專利。
張強:趣丸科技人工智慧研究中心副主任,人工智慧高階工程師,專注研究人工智慧演算法,目前主持語音大模型、2D 和 3D 數字人等技術的研發。
張順四:趣丸科技副總裁兼人工智慧研究中心主任,人工智慧高階工程師,粵港澳人工智慧產業智庫專家,長期從事低延遲音影片通訊技術和人工智慧技術的研究,主導過千萬級日活產品。發表技術發明專利 30 餘篇,發表 EI 3 篇,SCI 3 篇。