TTS 擂臺: 文字轉語音模型的自由搏擊場

HuggingFace發表於2024-03-16

對文字轉語音 (text-to-speech, TTS) 模型的質量進行自動度量非常困難。雖然評估聲音的自然度和語調變化對人類來說是一項微不足道的任務,但對人工智慧來說要困難得多。為了推進這一領域的發展,我們很高興推出 TTS 擂臺。其靈感來自於 LMSys 為 LLM 提供的 Chatbot 擂臺。借鑑 Chatbot 擂臺 的做法,我們開發了一款工具,讓任何人可以很輕鬆地對 TTS 模型進行並排比較。你僅需提交想要轉成語音的文字,然後聽一下兩個不同的模型生成的音訊,最後投票選出生成質量較好的模型。我們把投票結果組織成一個排行榜,用以展示社群評價最高的那些模型。

動機

長期以來,語音合成領域缺乏準確的方法以度量不同模型的質量。常用客觀指標 (如 WER (word error rate,單詞錯誤率) 等) 並不能可靠地度量模型質量,而 MOS (mean opinion score,平均意見得分) 等主觀指標通常只適用於對少數聽眾進行小規模實驗。因此,這些評估標準在對質量大致相當的兩個模型進行比較時並無用武之地。為了解決這些問題,我們設計了易用的介面,並邀請社群在介面上對模型進行排名。透過開放這個工具並公開評估結果,我們希望讓人人都參與到模型比較和選擇中來,並共享其結果,從而實現模型排名方式的民主化。

TTS 擂臺

由人類來對人工智慧系統進行排名並不是什麼新方法。最近,LMSys 在其 Chatbot 擂臺 中採用了這種方法,取得了很好的效果,迄今為止已收集到超過 30 萬個投票。被它的成功所鼓舞,我們也採用了類似的框架,邀請每個人投票參與音訊合成效果的排名。

具體方法很簡單: 使用者輸入文字,會有任意兩個模型對該文字進行合成; 使用者在聽完兩個合成音訊後,投票選出哪個模型的輸出聽起來更自然。為了規避人為偏見和濫用的風險,只有在提交投票後才會顯示模型名稱。

目前在打擂的模型

我們為排行榜選擇瞭如下幾個最先進 (SOTA) 的模型。其中大多數都是開源模型,同時我們還納入了幾個私有模型,以便開發人員可以對開源社群與私有模型各自所處的狀態進行比較。

首發的模型有:

  • ElevenLabs (私有模型)
  • MetaVoice
  • OpenVoice
  • Pheme
  • WhisperSpeech
  • XTTS

儘管還有許多其他開源或私有模型,我們首發時僅納入了一些被普遍認同的、最高質量的公開可用模型。

TTS 排行榜

我們會將擂臺票選結果公開在專門的排行榜上。請注意,每個模型只有積累了足夠的投票數後才會出現在排行榜中。每次有新的投票時,排行榜都會自動更新。

跟 Chatbot 擂臺一樣,我們使用與 Elo 評級系統類似的演算法對模型進行排名,該演算法常用於國際象棋以及一些其他遊戲中。

總結

我們希望 TTS 擂臺 能夠成為所有開發者的有用資源。我們很想聽聽你的反饋!如果你有任何問題或建議,請隨時給我們傳送 X/Twitter 私信 或在 擂臺 Space 的社群中開個帖子 和我們討論。

致謝

非常感謝在此過程中給予我們幫助的所有人,包括 Clémentine FourrierLucian PougetYoach LacombeMain Horse 以及整個 Hugging Face 團隊。特別要感謝 VB 的時間及技術協助。還要感謝 Sanchit GandhiApolinário Passos 在開發過程中提供的反饋及支援。


英文原文: https://hf.co/blog/arena-tts

原文作者: mrfakename, Vaibhav Srivastav, Clémentine Fourrier, Lucain Pouget, Yoach Lacombe, Main Horse, Sanchit Gandhi

譯者: Matrix Yao (姚偉峰),英特爾深度學習工程師,工作方向為 transformer-family 模型在各模態資料上的應用及大規模模型的訓練推理。

相關文章