高質量音樂生成、高靈活音樂編輯,Seed-Music 再次開啟了 AI 音樂創作的天花板。
放假期間,本 i 人又領教了被 e 人支配的恐懼。
跟 e 人朋友出門玩,先被拉去飯局尬聊,再和陌生人組隊打本,下面這首歌真是唱出了 i 人心聲。後兩天假期就舒服多了。通關了黑神話悟空還不過癮,我在家補經典 86 版的《西遊記》。無論多少次重溫,還是會被大聖的魅力吸引。
這歌怎麼樣,是不是感覺鬥戰勝佛活靈活現,如在眼前?實際上,兩首歌都並非真人所作,而是全靠位元組最新發布的音樂大模型 ——Seed-Music。Seed-Music 官網:https://team.doubao.com/seed-music
據豆包大模型團隊官網介紹,Seed-Music 是一個具有靈活控制能力的音樂生成系統,包含 Lyrics2Song、Lyrics2Leadsheet2Song、Music Editing、Singing Voice Conversion 四大核心功能,具體涵蓋十種創作任務。剛釋出,Seed-Music 就已經在海外平臺引起了關注。有音樂人表示:“(Seed-Music)生成的音樂質量比同類模型都高出一籌。已經期待它能作為一項服務被使用。”雖說 AIGC 很火,但相較於語音合成、文字生成,音樂生成面臨著更為複雜的挑戰。目前,業界在 AI 音樂領域的研究主要集中在以下幾個核心問題:- 音樂訊號的複雜性:音樂訊號包含多個重疊音軌、豐富的音調和音色以及廣泛的頻率頻寬,不僅要保持短期旋律的連貫性,還要在長期結構上展現出一致性。
- 評估標準的缺乏:音樂作為一種開放、主觀的藝術形式,缺乏一套通用的問題表述和用於比較的黃金指標,評估侷限性大。
- 使用者需求的多樣性:不同的使用者群體,如音樂小白、音樂初學者、資深音樂人等,對音樂創作的需求差異很大。
無論是傳統的音樂輔助創作工具,還是當下熱門的 AI 音樂生成的研究和產品,面向上述問題,均還處於摸索階段。比如針對音樂訊號複雜性,Google、Meta、Stability AI 等各家在音訊、演奏、曲譜層面上做了建模嘗試,效果各有優缺,而且各家的評估方法均有侷限,人工評測仍必不可少。面對這些挑戰,位元組 Seed-Music 採用了創新的統一框架,將語言模型和擴散模型的優勢相結合,並融入符號音樂的處理。透過官方影片展示,我們發現,與其他音樂模型相比,Seed-Music 能更好地滿足不同群體的音樂創作需求。我們仔細研究了 Seed-Music 的音樂生成 demo,發現其能力真・豐富多樣,且 demo 人聲效果逼真度,絕了。接下來,我製作成幾個短影片,向大家直觀展示下效果。對於專業音樂人來說,使用 AI 工具輔助創作,最大痛點莫過於無法對音樂進行編輯。Seed-Music 創新點之一,在於能透過 lead sheet(領譜)來編輯音樂,這增加了音樂創作可解釋性。在官方影片的 Lead2Song 部分,可以看到同一版歌詞,透過領譜增減音軌、改變輸入風格後,就能得到不同結果的歌曲,顯著提高模型的實用性。除領譜外,Seed-Music 也能直接調整歌詞或旋律。比如,“情人節的玫瑰花,你送給了誰 / 你送給別人”,歌詞修改前後,旋律保持不變,音樂的連貫性得以保持,過渡效果非常平滑。即使是音樂小白,Seed-Music 也提供了簡單有趣的創作場景。輸入內容除了文字,也可以是音訊,它能基於原曲輸出續作或仿作。下面這首英文歌曲“搖身一變”,仿寫成了中文古風歌。哪怕輸入臨時錄製的 10 秒人聲, Seed-Music 的零樣本音訊轉換技術都能夠將其轉化為流暢的聲樂。驚喜的是,Seed-Music 能將中文人聲輸入轉換為英文聲樂輸出,實現了跨語種人聲克隆,擴大了音樂小白們的創作空間。- 論文:《Seed-Music: Generating High-Quality Music in a Controlled Way》
- 技術報告地址:https://arxiv.org/pdf/2409.09214
那為什麼 Seed-Music 能做到生成高質量音樂、提供靈活編輯能力呢? 來自豆包大模型團隊的研究者們表示,這主要得益於統一框架,關鍵技術貢獻如下:- 提出了一種基於新型 token 和語言模型(LM)的方法,並引入了一種能夠根據不同型別使用者輸入生成專業生成內容(PGC)質量音樂的訓練方法。
- 提出了一種全新的基於擴散模型的方法,特別適合音樂編輯。
- 引入了一種在歌唱聲音背景下的零樣本聲音轉換的新穎方法。系統可以根據使用者短至 10 秒的參考歌唱或甚至普通語音的音色生成完整的聲樂混音。
Seed-Music 架構
根據官方論文,如上圖所示,從高層次來看 Seed-Music 有著統一的音樂生成框架,主要包含以下三個核心元件:一個表徵模型,用於將原始音訊波形壓縮成某種壓縮表徵形式;一個生成器,經過訓練可以接受各種使用者控制輸入,並相應地生成中間表徵;一個渲染器,能夠從生成器輸出的中間表徵中,合成高質量的音訊波形。基於統一框架,Seed-Music 建立了三種適用於不同場景的中間表徵:音訊 token、符號音樂 token 和聲碼器 latent。- 音訊 token:通常以低於音訊取樣率的標記率學習,旨在有效編碼語義和聲學資訊,能輕鬆橋接不同模態,但不同音樂資訊高度糾纏,給生成器帶來挑戰。
- 符號音樂 token:如 MIDI、ABC 記號或鋼琴捲簾記號等,本質上離散,可被大型語言模型操作,具有可解釋性,便於使用者在輔助音樂創作中互動,但缺乏聲學資訊,依賴渲染器生成聲學細節。
- 聲碼器 latent:在探索基於擴散模型的音樂音訊生成中,可作為中間表徵,與量化音訊標記相比,資訊損失少、渲染器權重更輕,但生成器輸出不可解釋,且由於僅用波形重建目標訓練,可能不夠有效作為訓練生成器的預測目標。
Seed-Music pipeline
如圖所示,中間表徵對整個系統來說很重要,每種表徵都有其特點和適用場景,具體選擇取決於使用者的音樂創作任務。- 基於音訊 token 的鏈路:包括 tokenizer、自迴歸語言模型、token 擴散模型和聲碼器,音訊 token 有效地儲存了原始訊號的顯著音樂資訊,語言模型根據使用者控制輸入生成音訊 token,token 擴散模型處理音訊 token 以生成具有增強聲學細節的音訊波形。
- 基於符號音樂 token 的鏈路:採用符號音樂 token 作為中間表徵,與音訊 token 基於的管道類似,但有一些區別,如 lead sheet tokenizer 將資訊編碼為 token,語言模型學習預測 lead sheet token 序列,lead sheet token 是可解釋的,並且允許在訓練和推理中注入人類知識,但擴散模型從 lead sheet token 預測聲碼器 latent 更具挑戰性,需要更大的模型規模。
- 基於聲碼器 latent 的鏈路:遵循透過 latent 擴散建模從文字直接生成音樂到聲學聲碼器 latent 表徵的工作,透過變分自編碼器和擴散模型將條件訊號對映到歸一化和連續的聲碼器 latent 空間。
在上述鏈路中,Seed-Music 經歷三個訓練階段:預訓練、微調和後訓練。預訓練旨在為音樂音訊建模建立強大的基礎模型;微調包括基於高質量音樂資料集的資料微調,以增強音樂性,或者針對特定創作任務提高可控性、可解釋性和互動性的指令微調;後訓練是透過強化學習進行的,從整體上提高了模型的穩定性。此外,在推理時,樣本解碼方案對於從訓練模型中誘匯出最佳結果至關重要。研究者們同時會應用模型蒸餾和流式解碼方案來提高系統的延遲。回顧過往,新技術往往能夠激發新創新。可以看到,Seed-Music 將音樂生成自然地嵌入不同創作群體的工作流中,使 AI 音樂具備獨特的社交屬性,這是其與傳統音樂創作模式的不同之處。在未來,或許會由此湧現創作音樂、欣賞音樂、分享音樂的新場景。就目前觀察到的業界各玩家動向來說,Meta 和谷歌在 MusicGen 和 MusicLM 論文釋出、Lyria 短暫內測之後,暫無更多訊息放出。Suno、Udio 更為活躍,正側重於改善效果。Seed-Music 此番在技術研發層面提供了更多可能。期待 Seed-Music 乃至 AI 產業各類玩家能在未來獲取更多突破。最後,歡迎對 Seed-Music 感興趣的朋友訪問豆包大模型團隊官網 https://team.doubao.com/seed-music,瞭解更多相關的資訊。