【論文速讀】位元組跳動音樂生成模型 Seed-Music

techlead_krischang發表於2024-10-15

file

論文速讀:https://arxiv.org/pdf/2409.09214 Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

速讀海報

file

研究背景

1.研究問題

這篇文章要解決的問題是如何利用現代生成模型技術來降低音樂創作的門檻,使更多的人能夠參與到音樂創作過程中。具體來說,文章提出了一套音樂生成和編輯系統Seed-Music,旨在透過高質量的音樂生成和細粒度的風格控制來支援音樂創作和後期製作。

2.研究難點:該問題的研究難點包括:

  • 音樂訊號的高度複雜性,既有短期的旋律連貫性,又有長期的結構的連貫性。

  • 音樂生成的評估難度較大,需要領域專家來評估藝術質量。

  • 生成模型需要大量的標註音樂資料,而這些資料的獲取需要專業的音樂知識。

  • 不同使用者的需求多樣,從新手到專業製作人對音樂創作工具的需求不同。

3.相關工作:該問題的研究相關工作有:

  • 早期的符號音樂生成系統,如基於規則的系統和資料驅動的系統。

  • 基於語言模型的生成方法,如AudioLM和Seed-family模型。

  • 基於擴散模型的生成方法,如Noise2Music和Stable Audio。

研究方法

這篇論文提出了一個統一的框架,結合了自迴歸語言建模和擴散模型,用於解決高質量音樂生成和編輯的問題。具體來說,

1.音訊令牌管道:該管道包括四個構建模組:

-音訊分詞器:將原始音樂波形轉換為低速率離散令牌。

-自迴歸語言模型(即生成器):根據使用者控制輸入生成字首令牌,並預測目標音訊令牌序列。

-令牌擴散模型:根據音訊令牌預測vocoder潛在表示。

-聲學vocoder:基於vocoder潛在表示合成高質量的44.1kHz立體聲音訊。

2.符號令牌管道:該管道包括以下步驟:

-根據使用者提示,自迴歸語言模型生成對應的符號令牌。

擴散變換模型生成連續的vocoder潛在表示。

vocoder生成高質量的44.1kHz立體聲音訊。

3.vocoder潛在管道:該管道包括以下步驟:

訓練一個在低潛在幀率下執行的變分自編碼器(VAE)和一個擴散變換模型(DiT),將條件輸入對映到歸一化的連續vocoder潛在表示。

實驗設計

1.資料收集

實驗使用了多種來源的音樂資料,包括MIDI、ABC記譜、MusicXML等符號資料,以及高質量的音訊資料。

2.實驗設定:實驗分為四個部分:

  • Lyrics2Song:生成基於使用者提供的歌詞和音樂風格描述的表演質量音樂。

-Lyrics2Leadsheet2Song:透過符號音樂表示增強可解釋性,並生成lead sheet,允許使用者在最終渲染前編輯旋律、和絃、樂器和節奏。

  • MusicEDiT:探索基於擴散的修復系統,允許使用者編輯現有音樂音訊片段的歌詞和旋律。

  • 零樣本唱歌聲音轉換:允許使用者根據其自己的聲音修改現有音訊的音色,最小化參考資料需求。

結果與分析

  1. Lyrics2Song

系統能夠生成具有表現力的聲樂表演,支援短形式音訊片段生成和全長曲目生產。生成的音訊展示了引人入勝的旋律和廣泛的樂器種類。

2. Lyrics2Leadsheet2Song

系統能夠生成具有詳細音符級別資訊的lead sheet,並從中渲染出高質量的音訊混合。

  1. MusicEDiT

系統能夠精確修改歌聲,同時保留旋律和伴奏軌道,支援英語和普通話的歌詞編輯。

4.零樣本唱歌聲音轉換

系統能夠在不同場景下執行唱歌聲音轉換,結果的質量取決於參考聲音與目標唱歌訊號的相似度。

總體結論

這篇論文介紹了Seed-Music,一套綜合的音樂生成和編輯系統,旨在支援多樣化的音樂創作工作流程。系統透過高質量的音樂生成和細粒度的風格控制,降低了音樂創作的門檻,使更多的人能夠參與到音樂創作過程中。Seed-Music的多樣化工具和框架能夠滿足從新手到專業製作人的各種需求,推動音樂創作的發展。

優點與創新

1.統一的框架

提出了一個結合自迴歸語言建模和擴散模型的框架,用於高質量的有控音樂生成。

2.多模態輸入支援

系統能夠處理包括歌詞、風格描述、音訊參考、樂譜和語音提示在內的多模態輸入,實現細粒度的風格控制。

3.細粒度的音樂編輯工具

提供了互動式工具,允許使用者在現有的音樂音訊軌道中直接編輯人聲歌詞、旋律和音色。

4.零樣本唱歌聲音轉換方法

提出了一種新穎的零樣本唱歌聲音轉換方法,僅需使用者10秒的唱歌或語音錄音即可實現。

5.多種應用場景

系統支援人聲和器樂樂器的生成、唱歌聲音合成、唱歌聲音轉換、音樂編輯等多種應用。

6.中間表示的選擇

提出了三種中間表示(音訊令牌、符號音樂令牌和變分自編碼器潛在表示),並根據具體任務選擇合適的表示。

7.強化學習最佳化

透過強化學習方法改進生成輸出與控制訊號的對齊,提升音樂性。

8.實時流式解碼

開發了模型蒸餾和流式解碼方案,減少延遲並提供接近實時的體驗。

不足與反思

1.領域複雜性

音樂訊號高度複雜,包含短期旋律連貫性和長期結構一致性,模型必須同時生成旋律人聲、和聲和節奏打擊樂。

2.評估難度

評估音樂生成模型通常需要領域專業知識來評估藝術質量,量化這些藝術元素具有挑戰性。

3.資料複雜性

生成模型需要註釋的音樂資料來學習如何根據歌詞、流派、樂器和歌曲結構條件化輸出,但音樂註釋需要專門的領域知識。

4.多樣化的使用者需求和細分市場

新手創作者的需求與專業製作人的需求大不相同,文字到音樂的系統對初學者可能有變革性影響,但對專業製作人可能提供的價值有限。

5.未來的研究方向

未來的研究將繼續探索音樂音訊的最佳表示,關注壓縮方法、解耦機制以及高層次語義與低層次聲學特徵之間的權衡。

關鍵問題及回答

問題1:Seed-Music框架中的三種中間表示(音訊令牌、符號令牌和vocoder潛在表示)各自的優勢和侷限性是什麼?

1.音訊令牌:
優勢:高效地編碼了語義資訊和聲學資訊,壓縮率高,適合與自迴歸語言模型結合使用,能夠連線不同的模態資料。

侷限性:缺乏可解釋性,音樂屬性(如發音、音色和音高)嵌入在一個高度糾纏的格式中,生成器難以控制特定的音樂元素(如旋律和音色)。

2.符號令牌:

優勢:離散且易於轉換為與語言模型相容的格式,具有良好的可解釋性,允許創作者直接閱讀和修改樂譜。

侷限性:缺乏聲學細節,系統依賴於渲染器的生成能力來呈現細膩的聲學特性,需要大規模的對齊音訊和符號轉錄資料。

3. vocoder潛在表示:

優勢:作為連續的中間表示,捕捉了更多的細微資訊,適合與擴散模型結合使用,渲染器可以更輕量級。

侷限性:缺乏可解釋性,且由於最佳化了音訊重建,可能會編碼過多的聲學細節,影響生成器的預測任務。

問題2:Seed-Music框架中的Lyrics2Song系統是如何利用音訊令牌管道生成高質量聲樂表演的?

Lyrics2Song系統透過以下步驟利用音訊令牌管道生成高質量聲樂表演:

1.音訊分詞器:將原始音樂波形轉換為低速率離散令牌。這些令牌包含了旋律、節奏、和聲、音素和樂器音色等關鍵資訊。

2.自迴歸語言模型(生成器):根據使用者提供的音樂風格描述和歌詞生成目標音訊令牌序列。生成器處理不同型別的控制訊號(如分類訊號、浮點訊號和歌詞訊號),並使用教師強制法進行訓練。

3.令牌擴散模型:根據音訊令牌預測vocoder潛在表示。擴散模型透過逐步去噪的過程,從噪聲中生成清晰的v ocoder潛在表示。

4.聲學vocoder:從vocoder潛在表示渲染高質量的44.1kHz立體聲音訊波形。聲學vocoder結合了擴散變換器和聲學模型,確保生成的音訊具有自然的音色和細節。

透過這些步驟,Lyrics2Song系統能夠生成具有表現力的聲樂表演,支援短形式音訊片段生成和全長音軌生產,覆蓋了廣泛的樂器和流派。

問題3:Seed-Music框架中的MusicEDiT系統是如何實現基於擴散的音樂編輯的?

MusicEDiT系統透過以下步驟實現基於擴散的音樂編輯:

1.資料準備:使用內部音樂資訊檢索(MIR)模型對現有音樂音訊片段進行預處理,提取歌詞、旋律和其他音樂特徵。

2.擴散變換器模型訓練:將預處理後的資料作為條件輸入,訓練一個擴散變換器模型,使其能夠根據條件輸入預測和修復音樂片段中的缺失或錯誤部分。

3.編輯過程:在推理階段,使用者透過修改樂譜或提供新的歌詞輸入,觸發擴散變換器模型進行修復。模型在每一步去噪的過程中,根據使用者的輸入逐步恢復和最佳化音樂片段。

4.後處理:生成的音樂片段透過聲學vocoder進行渲染,確保最終的音訊具有高質量和自然的音色。

透過這種基於擴散的修復方法,MusicEDiT系統能夠精確修改現有音樂音訊片段的歌詞和旋律,同時保留旋律和背景音樂,實現高質量的音訊編輯。

本文由部落格一文多發平臺 OpenWrite 釋出!

相關文章