楊淨衡宇發自凹非寺
量子位 | 公眾號 QbitAI

一段話整出一首歌，甚至是男女唱（跳）rap的那種。

谷歌最新模型MusicLM一經推出就驚豔四座，不少網友驚呼：這是迄今聽到最好的譜曲。

谷歌AI練習生寫了首歌，網友聽完心率都低了

它可以根據文字生成任何型別的音樂，不管是根據時間、地點、年代等各種因素來調節，還是給故事情節、世界名畫配樂、生成人聲rap口哨，通通不在話下。

比如這幅《吶喊》（Scream）

谷歌AI練習生寫了首歌，網友聽完心率都低了

在一段摘自百科的說明提示下，它生成了這樣一段音樂。

（蒙克在一次幻覺經歷中感受到並聽到了整個自然界的尖叫聲，它的靈感來源於此，描繪了一個驚慌失措的生物，既像屍體又讓人聯想到精子或胎兒，其輪廓與血紅色天空的旋渦線條相呼應。）

ViT（Vision Transformer）作者在聽過一段關鍵詞含“平靜舒緩”“長笛和吉他”的生成音樂後，表示自己真的平靜下來。

谷歌AI練習生寫了首歌，網友聽完心率都低了

也不免有同行表示，這對我來說比ChatGPT更值得關注，谷歌幾乎解決了音樂生成的問題。

谷歌AI練習生寫了首歌，網友聽完心率都低了

畢竟MusicLM背靠280000小時音樂的訓練資料庫，事實上從現釋出的Demo來看，MusicLM的能力還不止如此。

還可以5分鐘即興創作

可以看到，MusicLM最大的亮點莫過於就是根據豐富的文字描述來生成音樂，包括樂器、音樂風格、適用場景、節奏音調、是否包括人聲（哼唱、口哨、合唱）等元素，以此來生成一段30秒的音樂。

即便說的只是那種說不清道不明的氛圍，“迷失在太空”、“輕鬆而悠閒”；又或者是直接用在一些實用場景上，比如“街機遊戲配樂”、給繪畫配樂等。

谷歌AI練習生寫了首歌，網友聽完心率都低了

除此之外，MusicLM具備長段音樂創作、故事模式、調節旋律等方面的能力。

在長段音樂方面，它能完成5分鐘即興創作，即便提示只有一個詞。

比如僅在Swing（搖擺）的提示下，聽著真就有種想馬上下班去跳舞的衝動。（bushi）

而在故事模式中，不同的情標記甚至可以精確到秒的生成，哪怕情境之間完全沒有任何聯絡……

遊戲中播放的歌曲（0到15秒）——河邊播放的冥想曲（15到20秒）——火(0:30-0:45)——煙花(0:45-0:60 )

谷歌AI練習生寫了首歌，網友聽完心率都低了

更讓人驚豔到的是，它還有很強的實用性功能。

一方面，它可以將旋律的提示結合進文字提示當中去，這樣一來可以更精細地來調整音樂。有點改甲方爸爸需求那味了。

另一方面，它還能根據具體的樂器、地點、流派、年代、甚至是音樂家演奏水平等文字來生成。

谷歌AI練習生寫了首歌，網友聽完心率都低了

背後生成模型MusicLM

但有一說一，AI生成音樂模型不在少數，谷歌自己此前也推出有類似的模型AudioLM。

此番MusicLM究竟有何不同？

谷歌AI練習生寫了首歌，網友聽完心率都低了

據研究團隊介紹，貢獻主要有三個方面：

生成模型MusicLM。
把方法擴充套件到其他條件訊號，如根據文字提示合成的旋律，並生成5分鐘的demo。
釋出了首個專門為文字-音樂生成任務評估資料集MusicCaps。

首先，MusicLM正是基於谷歌三個月前提出AudioLM模型的擴充。

AudioLM不需要轉錄或標記，只需收聽音訊，AudioLM就能生成和提示風格相符的連貫音樂，包括鋼琴音或人聲對話等複雜聲音。

而最新的MusicLM，就是利用了AudioLM的多階段自迴歸建模作為生成條件，且以此為基礎進行擴充，使其可以透過文字提示來生成和修改音樂。

它是一個分層的序列到序列（Sequence-to-Sequence）模型，可以透過文字描述，以24kHz的頻率生成音樂，並在幾分鐘內保持這個頻率。

谷歌AI練習生寫了首歌，網友聽完心率都低了

具體而言，研究團隊使用了三個模型來用來預訓練，包括自監督音訊表徵模型SoundStream，它可以以低位元率壓縮一般音訊，同時保持高重建質量。

還有語義標記模型w2vBERT，促進連貫生成；音訊文字嵌入模型Mulan，它可以將音樂及其對應的文字描述投射到嵌入空間（以消除在訓練時對文字的不同需求），並允許純音訊語料庫上進行訓練，以此來應對訓練資料有限的難題。

谷歌AI練習生寫了首歌，網友聽完心率都低了

訓練過程中，他們從純音訊訓練集中提取MuLan音訊標記、語義標記和聲學標記。

在語義建模階段，他們用MuLan音訊標記作為條件來預測語義標記。隨後在聲學建模階段，又基於MuLan音訊標記和語義標記來預測聲學標記。

每個階段都被建模為一個序列-序列任務，均使用單獨解碼器Transformer。

在推理過程中，他們使用從文字提示中計算出的MuLan文字標記作為調節訊號，並使用SoundStream解碼器將生成的音訊標記轉換成波形。

在280000個小時的訓練後，MusicLM最終學會了保持24kHz的頻率生成音樂，哪怕用來生成音樂的文字非常繞口。

類似“迷人的爵士歌曲與令人難忘的薩克斯獨奏和獨奏歌手”或“柏林90年代低音和強烈的電子樂”之類的。

谷歌AI練習生寫了首歌，網友聽完心率都低了

研究團隊還引入了一個高質量音樂資料集MusicCaps來解決任務缺乏評估資料的問題。

MusicCaps由專業人士共建，涵蓋5500個音樂-文字對。研究團隊公佈了這個資料集，方便大夥進一步的研究。

這麼一套操作下來，透過定量指標和人工評估，MusicLM在音訊質量和文字契合度等方面都優於此前的音樂生成AI。

谷歌AI練習生寫了首歌，網友聽完心率都低了

不過，谷歌研究團隊說了：目前沒有對外發布MusicLM的計劃。

原因很簡單，除了訓練過程中難免出現的樣本質量失真，最最關鍵的還有2點。

一來，儘管MusicLM在技術上可以生成合唱和聲等人聲，但是仔細聽來，生成音樂的歌詞，有的還勉勉強強聽得出是音樂，有的根本就是無人能聽懂的外星方言。

再者，研究團隊發現系統生成的音樂中，約有1%直接從訓練集的歌曲中複製——這已經足以阻止對外發布MusicLM了。

此外，還有批評者質疑，在受版權保護的音樂素材上訓練AI模型到底合不合理。

谷歌AI練習生寫了首歌，網友聽完心率都低了

不過團隊在論文中介紹了下一步動向，主要關注歌詞生成、改善提示文字準確性以及提高生成質量。

複雜音樂結構的建模也將成為團隊的重點關注方向之一。

音訊生成AI

這個研究的背後團隊，是谷歌研究院。

共同一作Timo I. Denk，是谷歌瑞士的軟體工程師，每天的工作就是利用ML進行音樂理解。

谷歌AI練習生寫了首歌，網友聽完心率都低了

在這裡多說兩句，MusicLM的論文中，研究團隊提到，MusicLM在質量和提示依從性方面都優於以前的系統。

“以前的系統”包括哪些？

一個是Mubert，已在Github開源API，是一個text-to-music的AI，系列產品有根據既有標籤生成音樂的Mubert Render、聽歌軟體Mubert Play等。

還有Riffusion，它建立在AI繪圖的基礎上，但將其應用於聲音。

換句話說，Riffusion的工作原理是首先構建一個索引的頻譜圖集合，上面標記代表頻譜圖中捕獲的音樂風格的關鍵字。

在頻譜圖主體上訓練時，Riffusion就用Stable Diffusion的同一個方法——干預噪音，來獲得與文字提示匹配的聲波影像。

還有針對音樂製作人和音樂家的 AI 音訊生成工具Dance Diffusion，OpenAI推出的可自動生成音樂的ML框架Jukebox……

要我們說，別成天盯著ChatGPT了，AIGC下一個風口萬一是音樂生成呢？

參考連結：
[1]
[2]
[3]

谷歌AI練習生寫了首歌，網友聽完心率都低了

楊淨 衡宇 發自 凹非寺量子位 | 公眾號 QbitAI

還可以5分鐘即興創作

背後生成模型MusicLM

音訊生成AI

相關文章

楊淨衡宇發自凹非寺
量子位 | 公眾號 QbitAI