我們已經看到,AI 已經能夠理解和生成文字、影像、影片,儘管各個產品目前能達到的準確性和審美水準還不相同。
自帶曲譜的音樂生成似乎是 AI 要征服的下一座山峰,而這場競爭正在白熱化。
近日,音樂生成領域再次迎來新玩家「Udio」。
與前段時間大火的 Suno V3 相似,Udio 僅透過一些人工輸入的文字提示(包括使用者提供的歌詞),就可以建立高保真音樂音訊。但它擁有比 Suno 更多的自定義能力,風格涵蓋鄉村音樂、理髮店四重唱(Barbershop)、德國流行樂(German pop)、古典音樂、硬搖滾、嘻哈、演唱曲調等。
在測試階段,使用者可以免費使用,每人每月可以免費生成 1200 首音樂。
在官網中,我們已經看到了眾多網友的創作成果:https://www.udio.com/
釋出之後,由於大量使用者湧入,官網一度崩潰:
從高亢的福音音樂到低沉的藍調音樂,從夢幻般的流行音樂到柔美的說唱,Udio 應有盡有。
我們先來聽幾首「編輯精選」的曲目:
《Rising Sun Gospel》
標籤:Female vocalist, R&b, Contemporary r&b, Passionate, Rhythmic, Uplifting, Lush, Introspective, Anthemic, Gospel
歌詞:
There is a house way down in New Orleans They call the Rising Sun And it's been the ruin of many a poor boy And God I know I'm one
《Crater Lullaby》
標籤:Americana, Northern american music, Regional music, Folk, Country
歌詞:
[Verse]
With each step on the moon dust
In a sea of tranquil gray
Solitude in one vast jump
Leaves the world so far away
[Chorus]
Like a lone space cowboy, yeah
Ridin' past the craters wide
X 使用者 @Min Choi 率先註冊了 Udio 賬號生成了多首音樂作品,並盛讚:「這就像是音樂界的 Sora。」
但也有人試完感覺:「好像不如 Suno?」
一部分網友懷疑,Udio 網站上展示的高質量音樂 demo 很可能是透過大量人工輸入(如人工撰寫的歌詞),並從多次迭代的歌曲中挑選出最佳作曲部分而產生的。
Udio 官方表示:「v1 模型功能強大,但並不完美。我們正在快速迭代,並致力於更長的樣本、更好的音質、支援更多語言和下一代可控性。敬請期待即將推出的更多功能和改進。」
官方教程
Udio 分兩個階段完成任務:首先利用類似於 ChatGPT 的大語言模型,根據所提供的提示生成歌詞。接下來,利用一種 Udio 沒有透露的方法合成音樂,但這很可能是一種擴散模型,類似於 Stability AI 的 Stable Audio。此外,Udio 團隊沒有透露其模型或訓練資料的具體細節(其中很可能充斥著受版權保護的材料)。
在「常見問題」中,Udio 列出了製作一首 1.5 分鐘時長歌曲的使用指南:https://www.udio.com/faq
首先,在提示框中輸入您要建立的內容的描述,然後單擊 “建立”。
例如,輸入「一首關於紐約的爵士歌曲」:
如果不確定要輸入什麼內容,可以單擊骰子圖示,使用隨機示例提示填充提示框。
提示詞一般由自由格式文字和標籤的組合組成,例如「一首關於夏雨、爵士、醇厚、溫暖的歌曲」。其中「一首關於夏雨的歌」是自由形式,「爵士」、「醇厚」、「溫暖」是標籤。請注意,提示詞的不同部分用逗號 (,)、分號 (;) 或句號 (.) 分隔,可以包含任意數量、任意順序的自由形式部件和標籤。
此外,提示詞中也可以引用藝術家風格,這樣可以更輕鬆地描述您想要建立的音樂。例如可以將上面的提示擴充套件為:「一首關於夏雨的歌曲,爵士樂,醇厚,溫暖,比莉・哈樂黛的風格。」不過,Udio 並不會使用藝術家的聲音生成歌曲,風格只是用於參考,在幕後會被一組相關標籤替換。
在文字輸入框下方,系統也推薦一些標籤,使用者可以單擊它們將其新增到提示中:
如果你想使用自己的歌詞,可以在提示框的歌詞部分選擇自定義模式,然後將歌詞放入文字輸入中。Udio 能夠識別的語言包括中文、日語、俄語、波蘭語、德語、法語、義大利語。如果想為創作增添趣味,可以新增特殊描述符,例如 [Verse]、[Chorus]、[Hook]、[Guitar Solo] 或 [Drop]。
如下圖所示:
但是,無論文字提示多麼詳細,都無法完全定義一首實際的音樂 —— 同一份文字描述會產生無數可能的音軌。這就是為什麼為了接近腦海中的音樂創意,使用者可能需要建立具有相同提示(和其他設定)的多個剪輯。
根據給定的提示,Udio 的人工智慧模型會生成兩個不同的歌曲片段供選擇。然後,使用者可以在 Udio 社群釋出歌曲,下載音訊或影片檔案在其他平臺上分享,或直接在社交媒體上分享,其他 Udio 使用者也可以對現有歌曲進行混音或改編。Udio 的服務條款規定,公司對生成的音樂不享有任何權利,使用者可以將其用於商業目的。
Udio 這家公司由一批 DeepMind 前員工在 2023 年創立,在倫敦和紐約均設有辦公室。目前已經得到了 16z、will.i.am、Common、Tay Keith、Steve Stoute 的 UnitedMasters、Mike Krieger(Instagram 聯合創始人兼技術長)、Kevin Wall、a16z 文化領導力基金和 Oriol Vinyals(Gemini colead)的支援。
Udio 聯合創始人、CEO David (Fengning) Ding 曾在 2018 年到 2023 年 10 月期間在 DeepMind 任職:
Udio 的誕生,象徵著 AI 生成音樂已經達到了「專業級」。因此,它被一些人稱為新時代的先驅,也被另一些人稱為「Suno 殺手」。
但可以判定的是,音樂界的這場革命,還遠遠沒有走到終點。