耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘

机器之心發表於2024-06-26

Seed-TTS 是位元組跳動豆包大模型團隊近期釋出的語音生成大模型成果。

它生成的語音幾乎與真人完全一樣,連發音瑕疵也能生成出來,尤其在學習模仿人類說話方面,相似性和自然度均有很好表現。

舉例來說,將一段語音提供給 Seed-TTS,它就能按文字生成全新語音,且帶上原素材的聲音特徵。

原素材(Prompt):耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘Seed-TTS 生成的中文語音: 耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘

突然,身邊一陣笑聲。我看著他們,意氣風發地挺直了胸膛,甩了甩那稍顯肉感的雙臂,輕笑道:“我身上的肉,是為了掩飾我爆棚的魅力,否則,豈不嚇壞了你們呢?”

英文語音也可生成,且依然能“復刻”中文發音者的特點。

Seed-TTS 生成的英文語音:耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘
Suddenly, there was a burst of laughter beside me. I looked at them, stood up straight with high spirit, shook the slightly fleshy arms, and smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"

再舉例來說,音色定製,Seed-TTS 也能實現,並在聲音中帶出人物的“嬌嗔感”:耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘嘿嘿,你是不是也想擁有甜甜的戀愛呢?《微微一笑很傾城》是你的不二選擇,男女主是校花校草型別,他們透過遊戲結識,再到兩人見面,全程沒有一點誤會,真的齁甜,想想都忍不住“姨媽笑”~ 耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘
小傻瓜,嗯……算是個很可愛很親切的名字,有點“獨特”哦,不過我有些好奇,你為什麼會給我選這個暱稱呢?

不僅可以生成“單人”聲音,Seed-TTS 甚至可以根據小說情節和不同角色特質,呈現對應人物和情緒的“說書”。耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘
“這個藥丸……不會是迷藥或者春藥之類的東西吧?我怎麼聞著香味兒和兩位姐姐說的那麼相似?嗯,你該不會……想對我圖謀不軌吧?”韓立聞言是愣了半天吶,他現在突然有種吐血三碗的感覺,這女孩兒的心思也太難以捉摸了吧,竟然能把迎香丸,聯想到春藥上。哎呀韓立現在也不知是該佩服對方的謹慎小心,還是應該為自己的無故蒙冤,而大呼三聲了。“看樣子,你好像說的是真的。不過,我還是要把它拿去給二姐檢驗下才能用,畢竟我們女兒家,要小心為上。”“咳,咳,呃隨便你了。”韓立無言,只能乾咳幾聲,掩飾一下自己臉上的窘迫,他現在覺得呀,自己還是離這個小妖精遠點的好,否則,不知什麼時候就要被她給鬱悶死了。“哼哼,不過,如果這藥真像你所說的那麼好用,那就算你過關啦!今後師兄在莫府有什麼為難的事,儘管可以來找彩環幫忙。我只要收些小小的報酬,就肯定能幫你完全解決。”“行啊,師妹,師兄有事,一定找你幫忙。”韓立這時也恢復了常態,皮笑肉不笑地回應著此話,心裡呀,卻在惡狠狠地想到:“找你這個小財迷才怪了。”

更多演示及原理,請見原論文及效果展示:
圖片
  • 論文連結:https://arxiv.org/abs/2406.02430
  • 效果展示:https://bytedancespeech.github.io/seedtts_tech_report/

在公佈技術報告之前,Seed-TTS 部分技術已在 C 端產品上線一段時間,獲得使用者很多真實好評,並對外以豆包語音合成模型和豆包聲音復刻模型進行技術商業化服務。

關於該成果的技術亮點、研究價值、克服了哪些挑戰,不妨聽聽團隊的分享。

一個語音生成基座大模型

Q:Seed-TTS 已被一些圈內人關注到,有什麼認可,讓你印象很深?

A:有個做語音識別的教授,後來在一家公司就職,是我非常佩服的業內人。不久前一次學術會議,我們演示了 Seed-TTS 的 Demo ,他看了以後就反饋說,最近本想看看語音生成方向有什麼可做的,看完覺得這方面工作好像沒什麼可乾的了。儘管我覺著仍有提高空間,但聽完自己是非常開心的。

Q:為什麼感到開心?

A:別人直接說你做得好,更多可能是客氣。但這位教授當時正尋找相關研究課題,在這期間,看到我們的成果,給出正面評價,並且覺得我們的成果已經很好了,要另尋其他題,這對我們真的是很高的認可。

Q:對比此前成果,Seed-TTS 有什麼不同?

A:它是一個語音生成的基座模型,跟多數語音生成模型稍有不同。具體來說,傳統 TTS 是單一任務模型,但對於基座模型,我們希望它能幹任何任務,發出任何聲音,且同時允許我們進行很多個維度的操控,比如方言,真人口癖,甚至吞字這類語音上的瑕疵。

只要世界上存在的語音方式,英語、日語、漢語,甚至各類語言中的方言,如漢語中的陝西話、河南話…或者是開心、難過、大哭大喊、生氣,只要人類存在的聲音,我們都希望它發出來。

Q:以上種種設想,都做到了麼?

A:很大一部分做到了,當然也有一些地方做不到,但技術一直在往前走,就像現在語言模型是個基座,在文字層面有很深度的理解,我們也希望把它真正做成一個“基座”。

Q:做出一個“基座模型”的挑戰在哪裡?

A:第一是細節建模要好。以往 TTS 作為播報系統,其實很容易就能實現,但聽起來是“機器音”,如果要做到基座模型,且聲音像人,需要大量細節。尤其人類對自身聲音很敏感,小狗小貓叫聲即便不太自然,可能也聽不出來,但人類語音有一點問題,聽出來就很“機械”。

第二,需要高自然度和高穩定性。前兩年的主流 TTS 大多都基於先驗知識和時長模型,每一個 Phone 都會定義出來,但從底層就限制了表現力。倘若去掉這些,則會出現穩定性和自然度問題,這又是一個挑戰。

第三是資料覆蓋( Data Coverage )量級很大。我們想做到複製任何人的聲音與各種語言方言,包括復刻人類發音不完美,比如:吞字、發音不標準。為了重建這些特徵,還原“不完美”,資料覆蓋( Data Coverage )一定要高。之前,業界所使用的資料在成百上千的小時量級,也有上萬小時的模型,Seed-TTS 所用的資料量級是遠大於之前的。這麼大量級的資料,還會帶來質量和數量的平衡問題,這也是一個難點。

第四,模型設計。這麼大規模情況下,如何設計模型,使得各方面效果都比較好,這也是很大挑戰。

最後是工程挑戰。上面提到了,我們的資料量級大,模型複雜度高,自然就會帶來工程方面問題,這方面之前也很少有人去解決。

Q:技術層面看,解決這些挑戰有什麼價值?

A:主要是在研究過程中,試圖回答了很多過去沒解決的問題:

  • 生成模型語言模型和擴散模型兩套,分別偏向文字和影像,語音同時具備文字和影像兩者的屬性,這兩者哪個更適合用來語音建模,這是我們要去回答的問題。
  • 語音和文字有很多相似之處,如何設計語音的表徵,使其更適合語言模型建模,也是需要解決的問題。
  • 如何利用強化學習,將各種主客觀的偏好資訊整合到生成系統裡,同樣是問題之一。

其他方面亮點還有很多,包括自迴歸語音生成模型的穩定性問題。此外,透過這回研究,我們也在嘗試從 TTS 領域外的視角看 TTS 問題。

Q:你提到了對語言模型和擴散模型的研究,從中我們得出什麼結論?

A:Seed-TTS 不僅提供一個基於語言模型的技術方案,同時,也提供另一個完全脫離時長模型的 Diffusion 技術方案,這在業內也是第一個。

此外,經過對兩個系統的大量比較,我們發現,語言模型對於流式處理相對友好,擴散模型對編輯處理更為合適,我相信在未來,這兩者會繼續融合。

Q:對於這兩個系統,Seed-TTS 具體解決了哪些技術難點?

A:針對語言模型系統,主要解決語音的 Tokenizer 和穩定性。

對於語言模型建模來說,語音 token 化是核心一環。目前市面上,連續和離散的 Tokenizer 都有,團隊進行了較多探索。我們發現,Token 包含資訊的設計,對整個模型各方面表現及穩定性有非常關鍵的影響,這既包括 Token 的資訊、幀率等,也包括如何 Tokenizer ,以及如何將其再變回聲音。目前,這些在業內探索並不多。

語言模型的穩定性方面,我們在 token ,模型設計,解碼策略,資料準備上做了多方面的探索,真正做到了工業及應用的要求。

對於純 Diffusion 系統,由於去掉了額外的時長模型,其難點同樣集中在穩定性上。經過多方的嘗試,我們在該鏈路上也實現了很好的指標。

Q:關於“語音和文字模型有很多相似之處”,這對我們有什麼啟發?

A:從文字大模型的視角看,語音生成模型也可以分為 Pretrain,Instruct Fine-Tuning 和 Post Training。

其中, Pretrain 可提高模型的基礎能力,具體就體現為 Incontext Learning 能力,比如音色續寫,語音克隆等能力。

對於 Instruct Fine-Tuning ,主要就是透過 Instruct ,讓語音生成過程更加可控,就像導演跟演員去提要求,說話快點、慢點,怎麼才能打動人,這些都被我們整合進去。

最後,我們還發現強化學習在很多維度可以為模型帶來提高,將各種主客觀偏好資訊整合到生成系統裡,包括穩定性、控制力、表現力、自然度等等。業內在這方面探索的人也不太多。

在上述基礎上,我們也探索了利用合成資料以進行 Self-Distillation 的方法,同樣獲得非常好的收益。這在文字 LLM 中使用相對多一些,在語音行業,之前探索也相對較少。

Q:你三次提及“一些問題業內探索較少”,什麼造成了這個現象?

A:一方面,之前語音生成領域的研究相對獨立,有很多行業的傳統經驗,在這波 AIGC 大潮流下已經不一定適用了。從更廣義角度看,語音生成跟文字、影像生成有很多共通之處。文字大模型,影像生成的快速發展也帶給了我們很多新思考。由於新思路推廣還需要時間,所以業內探索還比較少。

另一方面是很多研究者在學校裡工作,沒有相關資源。這裡面系統性工程非常多,我們不僅能做到,而且探索也比較細,發現了一些能兼顧穩定性、表現力和運算量的模型。但這是不是做到了最好呢?可能還需要不斷探索。

Q:整個研究過程中有什麼里程碑式的時刻麼?

A:基礎效果去年就出了,此後我們用真實案例迭代了很多,這當中的工作包括:真實案例的尋找、各種 Post Training 、解決落地問題(比如各種場景下的穩定性、首包延遲、併發數、運算量等)。相比當時,現在效果又提升了非常多。

語音生成大模型走到哪一步了?

Q:現在回看,整個研究的價值在哪?

A:從 Seed-TTS 本身價值來說,語音不完全是工具,而是人類最直接的互動形式。比如從無聲電影到有聲電影,小小的變化,卻是一個行業巨大的飛躍。人與人之間的情感連線更多依靠語音,比如小孩喊一聲爸爸,給你的情感連線和讀文字完全不一樣。

如果我們要邁向真正的 AI ,語音的自然度是關鍵一環。過去我們想象的機器都是機器音,比如《流浪地球》裡的 Moss ,如果 AI 真能像你的助手、夥伴一樣,那語音帶來的情感連線必不可少。《鋼鐵俠》的賈維斯之所以被很多人記住,也是因為它是真人配音的。

此外,在應用方面,語音的落地場景也非常多,比如小說電子書、角色設計、影片翻譯、虛擬角色、播音、演員表達,都有用武之地,包括口吃、發不出聲音的人仍然可以藉助語音技術表達。只要不是純粹資訊媒介屬性的語音場景,都有應用空間,這也是我們把基座模型做好的動力。

Q:Scaling law 已被一些從業者視為“信仰”,對於語音生成模型,我們把資料和模型 Scale 後,結果如何?

A:即便在很大量級上,我們繼續擴大規模,也總能看見收益。總的來說,透過 Scale 的量級增大,我們很驚喜地看到,模型在不斷獲取新能力。

Q:根據你們的觀察,這個極限在哪?

A:目前來說,我們依然每次仍能看到收益,肯定還需要繼續探索。不過,我們已經證明透過正確的模型設計,可以打破 TTS 傳統思路。以往,我們依靠少量高品質資料,但現在,我們不斷增加量級,能獲得更高收益。

Q:GPT4-o 對我們有什麼啟示?

A:它是一個生成和理解統一的模型,對語音技術的要求更高,需要一個模型同時具備聽,說,想的能力。這些對我們工作提出很多新要求。

Q:目前語音領域大模型發展到哪一步了?

A:一方面是希望模型擁有專業演員級別的表現力和控制力。大部分時候,模型生成語音跟真人已經差別不大,但在影視劇中,演員表達情緒非常激烈,資訊密度比較高,不完全能對齊。我們都希望把 Corner Case 補全。

另一方面就是細節的處理,包括 Bad Case 處理和最佳化,解決不常見的長尾情況。

大模型工作需要大量優秀人才參與進來

Q:本次 Seed-TTS 的釋出,全球各地的同事都有參與進來,為什麼有這麼多人參與?

A:隨著行業發展,多人合作是不可避免的。要把大模型做到極致,同時滿足工業化落地,不可能透過 1 - 2 個想法支撐,必須很多人參與進來。且各方面參與者都得很專業。比如我們的資料,需要專業同學參與處理。再比如落地過程涉及很多細節,需要專門做評測、工程支援同學配合。他們都做出了巨大貢獻。

我們可以看到 AI 前沿研究的主流玩家中,一個專案參與者人數非常多,每個環節都有專業的同學負責,如此高密度、高複雜度的人才協作、精密配合,對組織力的要求也是很高的。

Q:你眼中的團隊氛圍是怎麼樣?

A:我覺得是有“衝勁”和“摳細節”。“衝勁”體現在大家做事都很主動。出於好奇和改變行業的想法,這本身也是一個自驅的過程。這種氛圍比較像創業公司,大公司比較少。

Q:你還提到了團隊會“摳細節”,如何理解?

A:這個說的是摳真實場景中的細節。對於生成類工作,Demo 很容易做得漂亮,但在實際應用中,系統會面臨各種各樣的細節問題。為保證模型始終都有高質量的生成,滿足使用者需求,我們對系統穩定性和魯棒性要求很苛刻,需要反覆打磨,把每一個細節都做到很高質量。反而是 Demo ,我們沒做太多最佳化。

Q:關於“不做太多 Demo 最佳化”,我們內部有過爭論麼?

A:有啊,尤其年輕同學們,畢竟大家都希望把比較好的一面展示出來,但我們還是希望拿到能夠落地的效果,避免使用者在真實使用過程中發現產品和 Demo 有很大落差,真正改變行業。

Q:目前相關技術在豆包 App 有應用麼?

A:一些相關技術已經應用一段時間,在真實場景中經使用者認可,我們才對外展示,還有部分技術正在做一些最後上線工作。

Q:哪些關鍵詞能概括我們的團隊?

A:第一個是專業。這體現在很多方面,包括資料、基礎設施、模型設計等等。我們會很專業地去摳每個環節細節,從工業落地角度出發,把效能做到極致。

第二個詞是專注與衝勁。為了達到我們的目標,專注和衝勁是少不了的。所以大家投入度非常高,等成果真正做出來後,大家也很有成就感,獲得了自信。

第三個詞是團結。團隊協作的時候,大家都沒什麼領地意識,配合也會很順暢,這讓我感覺非常舒服,這在大公司是很少見的。

Q:我們團隊希望持續吸引什麼特質的人加入?

A:首先看價值觀能不能符合上。能力固然是一方面,更重要的是,我們希望能找到同舟共濟的夥伴,讓每個人能獲得自我實現。在這種價值觀下合作,天然地,就會很順暢。

其次是背景的多樣性。目前 AI 各領域使用的方法都相似,且大家正逐漸往統一方向去融合,因此,強化學習、視覺識別、音訊識別等領域的經驗都對生成有至關重要的作用。我們希望不同專業背景的同學參與進來。我自己就是語音理解出身,轉做 TTS 的。

最後是主觀能動性和學習能力,對工作有高追求。生成式任務也有很多獨特之處,我們希望候選人能找到任務與結合自身經驗的結合點,這當中,主動學習能力是必要的,同時,我們希望能做出行業最好的技術和產品,日常也要求同學們懷揣這樣的願景不斷前進。



以上即 Seed-TTS 團隊同學的分享,目前團隊還在持續招聘優秀人才。

如果你也對大模型技術懷揣理想,抱有熱忱,同時認可豆包大模型團隊的氛圍,歡迎登入豆包大模型團隊官網 team.doubao.com 或關注團隊官方公眾號,瞭解更多技術進展、團隊故事、招聘資訊:耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘
位元組跳動 Top Seed 人才計劃正在招聘中,我們希望持續吸引和招募目標遠大、有志於“用科技改變世界”的頂尖人才。加入我們,你將和最優秀的科學家、工程師一起,參與行業頂尖的技術挑戰和攻堅。

歡迎長按下方二維碼或點選閱讀原文,投遞簡歷。

圖片

點選此連結,一鍵投遞崗位!

相關文章