機器之能報導
編輯:楊文
這款新AI語音模型Fish Speech,模仿音色一絕。
近來,AI 語音賽道突然熱鬧起來。
一個多月前,一個號稱「開源語音 TTS 天花板級別」的 ChatTTS 爆火。
火到什麼程度呢?
僅三天時間就在 GitHub 狂攬 9.2k Star 量,還一度登頂 GitHub Trending 榜首並連續霸榜。
沒多久,位元組也推出一款類似專案 Seed-TTS,喊出的口號同樣是「生成自然真實的語音」。
這幾天,這一賽道又闖進新玩家 ——Fish Speech。
據悉,該模型經過 15 萬小時的資料訓練,已熟練掌握中英日三種語言,語音處理接近人類水平,對中文支援更是 ——
官方也甩出不少 demo——
中文句子:人間燈火倒映湖中,她的渴望讓靜水泛起漣漪。若代價只是孤獨,那就讓這份願望肆意流淌。流入她所注視的世間,也流入她如湖水般澄澈的目光。
鍾離,機器之能,15秒
影片連結:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
英文句子:In the realm of advanced technology, the evolution of artificial intelligence stands as a monumental achievement. This dynamic field, constantly pushing the boundaries of what machines can do, has seen rapid growth and innovation. From deciphering complex data patterns to driving cars autonomously, AI's applications are vast and diverse.
說英文,機器之能,25秒
影片連結:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
不少網友直呼:雖然有點電音,不過效果已經很不錯了,語調也不會讓人感到不適。
不過,也有網友提醒,這個專案雖開源但不可商用。
-1-
解說紀錄片、說繞口令,它到底行不行?
Fish Speech 是一款開源文字轉語音模型,由 Fish Audio 公司開發。據介紹,該模型僅有億級引數,能夠在個人裝置上輕鬆執行和微調。
官網連結:https://fish.audio/zh-CN/text-to-speech/
其官網介面設計簡潔,在「發現」一欄列表裡有網友訓練的各種聲音,例如丁真、川普、雷軍、鄧紫棋、董宇輝、單田芳等,還有 AD 學姐、流螢等二次元聲音。
接下來,我們就來實際測評下。
首先是另類解說《動物世界》。
前不久,有個 00 後博主 @維 C 動物園,以發瘋的方式另類解說《動物世界》而出圈。
例如,在《鴞張跋扈》這一集中,博主以一分正經、兩分清奇、三分幽默、四分莫名其妙的解說方式,介紹了一種叫做穴小鴞的動物。
影片連結:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
我們就用 Fish speech 中的「紀錄片旁白」這個聲音,給這個有大病的文案生成一段配音。
綠螳螂其實非常可愛,可愛死了,嘎嘣脆,雞肉味,但這一切都與美洲鶉無關,因為它也自身難保,黃腹隼表示真香。黃腹隼遍佈於南美洲各地,它們的視力極好,能看到10釐米以外的事物,所以我們今天的主角,不是它。
穴小鴞(xiao),江湖人稱鴞鮮肉,跟我表哥一樣,身高不足 30 釐米,十分可愛。正所謂「虎落平陽被犬欺,鴞在野外不如雞」,穴小鴞常因捕食能力太差,而被鄰居嘲笑。但咱不氣餒,既然找不到食物,就去找食物的食物。
我們又選用丁真、鄧紫棋的聲音來說繞口令。
影片連結:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
讓川普說英文繞口令。
If you understand, say "understand". If you don't understand, say "don't understand". But if you understand and say "don't understand", how do I understand that you understand. Understand?
Fish Speech英文繞口令,機器之能,14秒
試聽連結:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
還有單田芳說段子。
Fish speech 的模仿能力一絕,它可以模仿特定人物的音色、語調到以假亂真的程度,比如說單田芳、鄧紫棋、川普。
不過,它也有一些瑕疵,例如有時候它不識字,「穴小鴞」胡讀一通;不懂斷句,會把完整的句子讀得稀碎。此外,輸入的文字一旦太長,它就罷工。
-2-
三款 TTS 模型大亂鬥
除了使用現成的語音外,我們還可以自己構建語音。
操作也很 easy。只需點選網頁上方的「構建聲音」,即可跳轉至新介面。然後上傳封面、填寫聲音名稱、輸入音訊即可。
其中,在輸入音訊這個環節,我們既可以上傳現成的,也可以自己錄製,不過它對時長有限制,最好在 30 秒左右。
例如,我們上傳了一段徐志勝說脫口秀的音訊。
來看一下效果:
李長庚最近有點煩。
他此刻騎在一隻老鶴身上,在雲霧裡穿梭,想入了神。眼看快飛到啟明殿,老鶴許是糊塗了,非但不減速,反而直直地撞了過去。李長庚回過神來,連連揮動拂塵,它才急急一拍雙翅,歪歪斜斜地落在殿旁臺階上。
Fish Speech讀小說,機器之能,23秒
音色和徐志勝不能說毫不相干,只能說一模一樣,連口音都很像。
我們還讓它與「開源語音 TTS 天花板級別」的 ChatTTS 、Seed-TTS 進行 PK。
中文文字 : 好呀,哈哈哈哈哈,喜歡笑的人運氣都不會差哦,希望你每天笑口常開。
Fish Speech:
Fish Speech,機器之能,11秒
試聽連結:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
ChatTTS:
ChatTTS,機器之能,6秒
試聽連結:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw
由於位元組的 Seed-TTS 還無法親自體驗,所以我們就用了它的官方示例。
Seed-TTS,機器之能,6秒
這三款 TTS 模型各有千秋,如果非要給它們的實力排個序,Seed-TTS 的斷句、語音語調最自然,其次就是 ChatTTS,Fish Speech 雖然還有所欠缺,但它贏在可自定義音色上。
連結 ——
https://fish.audio/zh-CN/text-to-speech/
https://github.com/fishaudio/fish-speech
https://chattts.com/
https://bytedancespeech.github.io/seedtts_tech_report/
https://github.com/BytedanceSpeech/seed-tts-eval