爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量

机器之心發表於2024-05-31
未來人與人的交流,難道是這個樣?

近日,一個名為 ChatTTS 文字轉語音專案爆火出圈,引來大家極大的關注。短短三天時間,在 GitHub 上已經斬獲了 9.2 k 的 Star 量。

圖片

專案地址:https://github.com/2noise/ChatTTS/tree/main

作者本人也在 x 上表示,ChatTTS 突破了開源天花板。不過,目前開源的只是底模,沒有經過 SFT 監督微調。

圖片

該專案將文字轉換成語音,效果是這樣的:爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量ChatTTS 不僅能說中文,英文也能 hold 住,還支援一些細粒度控制,它允許你加入笑聲、說話間的停頓,還有語氣詞,可玩性很強。 爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量它可以復刻已經逝去的人的絕版聲音,想要再聽到賈伯斯開釋出會,隨時都可以。聽它模仿黴黴的音色,不論是語調還是語氣的變化,都挺接近本人,幾乎聽不出來 AI 味兒。 爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量中英文混說也能拿捏,這口半英半中的腔調勇闖留子圈,ChatTTS 的語言能力已達到 next level。 爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量

以上音訊來自 B 站: https://www.bilibili.com/video/BV1zn4y1o7iV/?share_source=copy_web&vd_source=983ec32a3036bb1cf2699e4fdbce3c28

從上述展示中我們可以看出,ChatTTS 能夠實現自然流暢的語音合成,同時支援多說話人;還能預測和控制細粒度的韻律特徵,包括笑聲、停頓和插入詞等;ChatTTS 在韻律方面超越了大部分開源 TTS 模型。

目前 ChatTTS 支援中文和英文。最大模型使用了超過 10 萬小時的中英文資料進行訓練。在 HuggingFace 中開源的版本為 4 萬小時訓練且未 SFT 的版本。

值得一提的是,上述展示的音訊都是基於語音合成技術製作,旨在展示技術成果,無意冒犯或侵犯他人權益。

專案一經發布,各路網友紛紛試用起來,給出了聲音確實真假難辨。

圖片爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量

還有人拿 GPT 生成文字,讓 ChatTTS「讀」出來,語氣語調和真人的差距非常小:

圖片爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量

效果這麼好,自然是想要上手試試。怎樣才能用 ChatTTS 當你的嘴替,可以參考如下方法進行操作。

線上體驗地址:https://huggingface.co/spaces/Dzkaka/ChatTTS

圖片

ChatTTS 主要有兩種核心功能,第一種是文字轉語音,第二種是將與大語言模型實時語音對話。在這些功能之外,可以在「Audio Seed」處調節數字指定說話人的音色,或者搖骰子隨機生成一種。但是有不少測試者表示,每次採用一樣的引數,生成的音色也不一定固定。

圖片

圖片

2Noise 稱,目前支援音色克隆,但需要更大的資料量。

圖片

在文字框內輸入文字後,ChatTTS 會自動為你生成韻律和停頓,還會加入一些如「然後」之類的語氣詞。如果你在輸入時在文字中加入 [laugh] 和 [uv_break],就能手動控制 ChatTTS 在說話間產生一些「笑果」。爆火ChatTTS突破開源語音天花板,3天斬獲9k的Star量

圖片

不過 ChatTTS 現在還不能搞定比較長的文字,有網友讓它挑戰了一下有聲書,發現初始版本不能生成超過 30 秒的音訊,需要手動修復。遇到比較長的文字時,ChatTTS 的分詞也會出問題。

圖片

圖片

相關文章