谷歌AI練習生寫了首歌,網友聽完心率都低了
楊淨 衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
一段話整出一首歌,甚至是男女唱(跳)rap的那種。
谷歌最新模型MusicLM一經推出就驚豔四座,不少網友驚呼:這是迄今聽到最好的譜曲。
它可以根據文字生成任何型別的音樂,不管是根據時間、地點、年代等各種因素來調節,還是給故事情節、世界名畫配樂、生成人聲rap口哨,通通不在話下。
比如這幅《吶喊》(Scream)
在一段摘自百科的說明提示下,它生成了這樣一段音樂。
(蒙克在一次幻覺經歷中感受到並聽到了整個自然界的尖叫聲,它的靈感來源於此,描繪了一個驚慌失措的生物,既像屍體又讓人聯想到精子或胎兒,其輪廓與血紅色天空的旋渦線條相呼應。)
ViT(Vision Transformer)作者在聽過一段關鍵詞含“平靜舒緩”“長笛和吉他”的生成音樂後,表示自己真的平靜下來。
也不免有同行表示,這對我來說比ChatGPT更值得關注,谷歌幾乎解決了音樂生成的問題。
畢竟MusicLM背靠280000小時音樂的訓練資料庫,事實上從現釋出的Demo來看,MusicLM的能力還不止如此。
還可以5分鐘即興創作
可以看到,MusicLM最大的亮點莫過於就是根據豐富的文字描述來生成音樂,包括樂器、音樂風格、適用場景、節奏音調、是否包括人聲(哼唱、口哨、合唱)等元素,以此來生成一段30秒的音樂。
即便說的只是那種說不清道不明的氛圍,“迷失在太空”、“輕鬆而悠閒”;又或者是直接用在一些實用場景上,比如“街機遊戲配樂”、給繪畫配樂等。
除此之外,MusicLM具備長段音樂創作、故事模式、調節旋律等方面的能力。
在長段音樂方面, 它能完成5分鐘即興創作,即便提示只有一個詞。
比如僅在Swing(搖擺)的提示下,聽著真就有種想馬上下班去跳舞的衝動。(bushi)
而在故事模式中,不同的情標記甚至可以精確到秒的生成,哪怕情境之間完全沒有任何聯絡……
遊戲中播放的歌曲(0到15秒)——河邊播放的冥想曲(15到20秒)——火(0:30-0:45)——煙花(0:45-0:60 )
更讓人驚豔到的是,它還有很強的實用性功能。
一方面,它可以將旋律的提示結合進文字提示當中去,這樣一來可以更精細地來調整音樂。有點改甲方爸爸需求那味了。
另一方面,它還能根據具體的樂器、地點、流派、年代、甚至是音樂家演奏水平等文字來生成。
背後生成模型MusicLM
但有一說一,AI生成音樂模型不在少數,谷歌自己此前也推出有類似的模型AudioLM。
此番MusicLM究竟有何不同?
據研究團隊介紹,貢獻主要有三個方面:
生成模型MusicLM。
把方法擴充套件到其他條件訊號,如根據文字提示合成的旋律,並生成5分鐘的demo。
釋出了首個專門為文字-音樂生成任務評估資料集MusicCaps。
首先,MusicLM正是基於谷歌三個月前提出AudioLM模型的擴充。
AudioLM不需要轉錄或標記,只需收聽音訊,AudioLM就能生成和提示風格相符的連貫音樂,包括鋼琴音或人聲對話等複雜聲音。
而最新的MusicLM,就是利用了AudioLM的多階段自迴歸建模作為生成條件,且以此為基礎進行擴充,使其可以透過文字提示來生成和修改音樂。
它是一個分層的序列到序列(Sequence-to-Sequence)模型,可以透過文字描述,以24kHz的頻率生成音樂,並在幾分鐘內保持這個頻率。
具體而言,研究團隊使用了三個模型來用來預訓練,包括自監督音訊表徵模型SoundStream,它可以以低位元率壓縮一般音訊,同時保持高重建質量。
還有語義標記模型w2vBERT,促進連貫生成;音訊文字嵌入模型Mulan,它可以將音樂及其對應的文字描述投射到嵌入空間(以消除在訓練時對文字的不同需求),並允許純音訊語料庫上進行訓練,以此來應對訓練資料有限的難題。
訓練過程中,他們從純音訊訓練集中提取MuLan音訊標記、語義標記和聲學標記。
在語義建模階段,他們用MuLan音訊標記作為條件來預測語義標記。隨後在聲學建模階段,又基於MuLan音訊標記和語義標記來預測聲學標記。
每個階段都被建模為一個序列-序列任務,均使用單獨解碼器Transformer。
在推理過程中,他們使用從文字提示中計算出的MuLan文字標記作為調節訊號,並使用SoundStream解碼器將生成的音訊標記轉換成波形。
在280000個小時的訓練後,MusicLM最終學會了保持24kHz的頻率生成音樂,哪怕用來生成音樂的文字非常繞口。
類似“迷人的爵士歌曲與令人難忘的薩克斯獨奏和獨奏歌手”或“柏林90年代低音和強烈的電子樂”之類的。
研究團隊還引入了一個高質量音樂資料集MusicCaps來解決任務缺乏評估資料的問題。
MusicCaps由專業人士共建,涵蓋5500個音樂-文字對。研究團隊公佈了這個資料集,方便大夥進一步的研究。
這麼一套操作下來,透過定量指標和人工評估,MusicLM在音訊質量和文字契合度等方面都優於此前的音樂生成AI。
不過,谷歌研究團隊說了:目前沒有對外發布MusicLM的計劃。
原因很簡單,除了訓練過程中難免出現的樣本質量失真,最最關鍵的還有2點。
一來,儘管MusicLM在技術上可以生成合唱和聲等人聲,但是仔細聽來,生成音樂的歌詞,有的還勉勉強強聽得出是音樂,有的根本就是無人能聽懂的外星方言。
再者,研究團隊發現系統生成的音樂中,約有1%直接從訓練集的歌曲中複製——這已經足以阻止對外發布MusicLM了。
此外,還有批評者質疑,在受版權保護的音樂素材上訓練AI模型到底合不合理。
不過團隊在論文中介紹了下一步動向,主要關注歌詞生成、改善提示文字準確性以及提高生成質量。
複雜音樂結構的建模也將成為團隊的重點關注方向之一。
音訊生成AI
這個研究的背後團隊,是谷歌研究院。
共同一作Timo I. Denk,是谷歌瑞士的軟體工程師,每天的工作就是利用ML進行音樂理解。
在這裡多說兩句,MusicLM的論文中,研究團隊提到,MusicLM在質量和提示依從性方面都優於以前的系統。
“以前的系統”包括哪些?
一個是Mubert,已在Github開源API,是一個text-to-music的AI,系列產品有根據既有標籤生成音樂的Mubert Render、聽歌軟體Mubert Play等。
還有Riffusion,它建立在AI繪圖的基礎上,但將其應用於聲音。
換句話說,Riffusion的工作原理是首先構建一個索引的頻譜圖集合,上面標記代表頻譜圖中捕獲的音樂風格的關鍵字。
在頻譜圖主體上訓練時,Riffusion就用Stable Diffusion的同一個方法——干預噪音,來獲得與文字提示匹配的聲波影像。
還有針對音樂製作人和音樂家的 AI 音訊生成工具Dance Diffusion,OpenAI推出的可自動生成音樂的ML框架Jukebox……
要我們說,別成天盯著ChatGPT了,AIGC下一個風口萬一是音樂生成呢?
參考連結:
[1]
[2]
[3]
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024420/viewspace-2933151/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 驚了!谷歌的 AI 高中數學都不及格,網友:打臉?谷歌AI
- 剛剛!為吊打谷歌,微軟砸10億美元佈局AI,網友炸了!發帖上熱門……谷歌微軟AI
- 練完這篇就會寫正則
- 別再眼高手低了! 這些Linq方法都清楚地掌握了嗎?
- 全網最全Python專案練習500例(附原始碼),練完可就業Python原始碼就業
- 所有網站都死了,所以只能寫文章了(大綱)網站
- 爆火的ChatGPT太強了!寫程式碼、改bug,網友:可取代Stack Overflow了ChatGPT
- 完勝 BERT,谷歌最佳 NLP 預訓練模型開源,單卡訓練僅需 4 天谷歌模型
- 聽說了嗎?阿里雙11作戰室竟1根網線都沒有阿里
- 1.都2019了,你還沒聽說過Flutter?Flutter
- 研究型AI面試怎麼過?Reddit網友谷歌面試經驗分享 | 附資源AI面試谷歌
- 誤會了《陳奕迅-單車》這首歌了(粵語)
- OpenAI | GPT-3新模型Davinci,將AI寫作提升到新水平!網友驚呼:GPT-4要來了?OpenAIGPT模型
- AI能寫論文了!華人本科生發明AI論文生成器AI
- AI自動生成prompt媲美人類,網友:工程師剛被聘用又要淘汰了AI工程師
- 兩年前端開發:三大框架都會了,感覺迷茫!網友:其實還是新手!前端框架
- Python團隊還沒解散完,谷歌又對Flutter、Dart動手了Python谷歌FlutterDart
- 網速是個大問題 國外網友普遍不看好谷歌Stadia谷歌
- 寫文章都能靠AI了,你還在手動組網嗎?AI
- 剛剛!位元組跳動為AI企業投資百萬,網友:終於下手了!AI
- Doug Lea在J.U.C包裡面寫的BUG又被網友發現了
- Claude也變懶了!網友:學會給自己放假了
- 抽象類練習_學生與工人抽象
- 厲害!中國AI企業50強榜單!看完員工待遇,網友:我酸了AI
- CVPR 2022 | 這個自蒸餾新框架新SOTA,降低了訓練成本,無需修改網路框架
- 要炸了!剛寫完這段程式碼,就被開除了
- 【python】遞迴聽了N次也沒印象,讀完這篇你就懂了Python遞迴
- cache 有幾種寫法,你都會了麼?
- Django練習-學生管理系統案例Django
- Yelp訓練了一個神經網路來debug,然後就被這個AI刪庫了神經網路AI
- 從電競練習生到B站UP主,年輕一代的AI生活AI
- Mysql 練習(牛客網)MySql
- 登上Nature的AI晶片設計屢遭質疑,谷歌發文反擊,Jeff Dean:質疑者連預訓練都沒做AI晶片谷歌
- 程式設計師寫了一個新手都寫不出的低階bug,被罵慘了。程式設計師
- 【python】裝飾器聽了N次也沒印象,讀完這篇你就懂了Python
- 練習英文寫作 Learn to write the english word
- AI時代,連相親都開始用RPA了?AI
- 日常練習:寫了個grpc 連線池,希望各位前輩能提下意見RPC