Seed-TTS 是位元組跳動豆包大模型團隊近期釋出的語音生成大模型成果。
它生成的語音幾乎與真人完全一樣,連發音瑕疵也能生成出來,尤其在學習模仿人類說話方面,相似性和自然度均有很好表現。
舉例來說,將一段語音提供給 Seed-TTS,它就能按文字生成全新語音,且帶上原素材的聲音特徵。
原素材(Prompt):Seed-TTS 生成的中文語音:
突然,身邊一陣笑聲。我看著他們,意氣風發地挺直了胸膛,甩了甩那稍顯肉感的雙臂,輕笑道:“我身上的肉,是為了掩飾我爆棚的魅力,否則,豈不嚇壞了你們呢?”
Suddenly, there was a burst of laughter beside me. I looked at them, stood up straight with high spirit, shook the slightly fleshy arms, and smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"
小傻瓜,嗯……算是個很可愛很親切的名字,有點“獨特”哦,不過我有些好奇,你為什麼會給我選這個暱稱呢?
“這個藥丸……不會是迷藥或者春藥之類的東西吧?我怎麼聞著香味兒和兩位姐姐說的那麼相似?嗯,你該不會……想對我圖謀不軌吧?”韓立聞言是愣了半天吶,他現在突然有種吐血三碗的感覺,這女孩兒的心思也太難以捉摸了吧,竟然能把迎香丸,聯想到春藥上。哎呀韓立現在也不知是該佩服對方的謹慎小心,還是應該為自己的無故蒙冤,而大呼三聲了。“看樣子,你好像說的是真的。不過,我還是要把它拿去給二姐檢驗下才能用,畢竟我們女兒家,要小心為上。”“咳,咳,呃隨便你了。”韓立無言,只能乾咳幾聲,掩飾一下自己臉上的窘迫,他現在覺得呀,自己還是離這個小妖精遠點的好,否則,不知什麼時候就要被她給鬱悶死了。“哼哼,不過,如果這藥真像你所說的那麼好用,那就算你過關啦!今後師兄在莫府有什麼為難的事,儘管可以來找彩環幫忙。我只要收些小小的報酬,就肯定能幫你完全解決。”“行啊,師妹,師兄有事,一定找你幫忙。”韓立這時也恢復了常態,皮笑肉不笑地回應著此話,心裡呀,卻在惡狠狠地想到:“找你這個小財迷才怪了。”
論文連結:https://arxiv.org/abs/2406.02430 效果展示:https://bytedancespeech.github.io/seedtts_tech_report/
生成模型有語言模型和擴散模型兩套,分別偏向文字和影像,語音同時具備文字和影像兩者的屬性,這兩者哪個更適合用來語音建模,這是我們要去回答的問題。 語音和文字有很多相似之處,如何設計語音的表徵,使其更適合語言模型建模,也是需要解決的問題。 如何利用強化學習,將各種主客觀的偏好資訊整合到生成系統裡,同樣是問題之一。