首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風

机器之心發表於2024-04-17
在「天工」大模型釋出一週年之際,崑崙萬維重磅宣佈,「天工 3.0」基座大模型與「天工 SkyMusic」音樂大模型正式開啟公測。

自從 AI 讓人類實現音樂創作自由後,連吵架都變得有趣了起來。

前段時間,X 平臺知名 AI 博主 Aran Komatsuzaki 自己寫了一首歌,專門用來表達對另一位 AI 科學家 ——Gary Marcus 的不滿,還用當前大火的 Suno 把它生成了出來。要知道,過去,這些大佬們的口水戰主要就是發個帖子,然後你來我往地跟帖。這次,Aran Komatsuzaki 的做法可謂是玩出了新花樣,不知道是不是從「謝帝謝帝我要 diss 你」得到的靈感。

圖片

和 Aran Komatsuzaki 一樣,國內外很多懂音樂、不懂音樂的人都在試玩 Suno 等 AI 音樂創作工具,生成了很多非常有意思的音樂作品。

不過,有很多網友反映,Suno 有時生成中文不太穩定,會出現中文歌曲帶有英文感、生僻字唱錯等問題。

圖片

圖片

B 站網友針對 Suno 生成的一首中文歌發表的評論。影片地址:https://b23.tv/gVqTUOu

那麼,有沒有一個 AI 音樂生成模型專門針對中文做過最佳化呢?

崑崙萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模型。它生成的中文人聲發音清晰、正宗、無異響,沒有出現「百老匯式中文歌」等水土不服的情況。而且,它不僅針對普通話做了最佳化,粵語、成都話、北京話等方言語種也照顧到了。首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風

那麼,和 Suno 比,天工 SkyMusic 表現如何呢?橫向測評的資料顯示,在人聲和 BGM 音質、人聲自然度、發音可懂度等幾個指標上,天工 SkyMusic 都更勝一籌,綜合效能超越 Suno V3,成為中國首個音樂 AIGC 的 SOTA 模型,也讓中國的自研大模型技術第一次在 AIGC 領域領跑全球。

圖片

如此優異的表現自然離不開強大的基座模型,即崑崙萬維在同一時間釋出並開源的大模型「天工 3.0」。該模型擁有 4000 億引數,超越了 3140 億引數的 Grok-1,是全球最大的開源 MoE 大模型。

圖片

在 MMBench 等多項權威多模態測評結果中,「天工 3.0」超越 GPT-4V,全球領先。

圖片

在這個基座模型的加持下,天工 SkyMusic 對歌曲的理解更為深刻。它能夠透過歌詞控制情緒變化,並實現如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品情感更加豐富且貼合情境。首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風

那麼,這個模型具體怎麼用?技術路線是怎樣的?它背後的「天工 3.0」又有何創新之處?我們一個一個來看。

首個國產音樂 SOTA 模型的無限玩法

其實,用天工 SkyMusic 生成歌曲是非常簡單的:你只需要輸入歌名、歌詞,選擇參考曲目,它就能生成風格、唱腔與之類似的歌。

圖片

如果你不想自己寫歌詞,也可以試試輸入框右下角的「AI 寫詞」功能。它可以從第一句開始寫,每次只生成一句,不滿意的句子可以及時刪掉,直至整首歌創作完成。

圖片

當然,你也可以嘗試用「天工 3.0」來寫歌,比如這首《機器之心》就是我們用「天工 3.0」寫出來的:

圖片

接下來就是選擇參考歌曲,這也是天工 SkyMusic 的獨特之處,即能夠按照示例音源生成音樂。

在這一步,天工 SkyMusic 提供了很多參考曲目,你可以從中挑選,也可以選擇上傳歌曲檔案。在這裡,我們上傳了一首洛天依的歌曲,看看生成效果如何:首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風這種按照示例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在使用者作品展示區域,我們看到,光是《新造的人》(電影《周處除三害》插曲)就有古風搖滾、DJ 等五個版本。 首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風在試用過程中我們還發現,其實,天工 SkyMusic 生成的音樂涵蓋了說唱、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓使用者根據哼出來的旋律生成歌曲,這將對專業人士有很大幫助。 首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風

目前,天工 SkyMusic 已全面開放,下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型,它的出現填補了國內 AIGC 工具在這一領域的空白。

雖然這個模型還處於起步階段,但已經讓很多人感受到了音樂創作的樂趣。大家用它去改造神曲、二創金曲、改寫古詩詞助力教育…… 開發出了各種音樂創作新方向。

自研類 Sora 架構,技術路線圖已公開

天工 SkyMusic 是一個端到端的音樂生成模型,因此我們用起來感覺非常簡單。但是,整個模型的開發卻沒有那麼簡單。

首先從技術路線來說,天工 SkyMusic 選擇了大模型音樂音訊生成路線,這意味著它直接學習並生成音訊波形,而不是採用符號音樂生成路線(如 MIDI)來生成樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,從而提供更直接、更高質量的音樂創作體驗。但是,這個方向也更難,需要高昂的算力和資金,因此做的人非常少。

而且,在這個方向中,下決心去攻克「人聲 Song」領域的人更少,大部分研究集中於無人聲的 BGM 領域,因為前者幾乎沒有任何開放的資料或開源模型可供參考。

頂著這些壓力,崑崙萬維做了無數次研發實驗,投入了大量算力,構建了包含 2000 萬首歌曲的資料集(人類有史以來最大的音樂資料集),終於探索出了一個效果好、可復現的方案。而且,他們還把這個方案的技術原理圖公開了。

圖片

天工 SkyMusic 技術原理圖:Large-scale Transformer 負責譜曲,來學習 Music Patches 的上下文依賴關係,同時完成音樂可控性;Diffusion Transformer 負責演唱,透過 LDM 讓 Music Patches 被還原成高質量音訊。這套模型架構在處理影片、音訊和音樂時效果極佳。

從圖中可以看出,天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑,不過研發時間是在 Sora 問世之前,因此不可避免地要踩很多坑。

對於產業來說,這張原理圖非常寶貴,因為市面上沒有任何可用的 AI 音樂大模型企業公開自己的技術路徑,包括 SUNO,崑崙萬維是唯一一個。

強大的背後基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背後的基座模型 —— 天工 3.0。它最核心的升級體現在「獨立思考」方面。這在該模型新增的多輪搜尋與綜合工具呼叫、圖表繪製、研究模式、增強模式等功能中均有所體現。

給定一個資料統計任務,它不僅能夠幫你把資料都收集齊全,還能自己寫程式碼、呼叫各種函式來繪製圖表。各個中間步驟被拆解得條理清晰,後續的執行也基本不需要人去幹預,甚至連「避免標籤重疊」、「文字居中顯示」這類細節都被考慮到了。這就是「獨立思考」能力的體現。首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風

這種「獨立思考」能力的提升離不開「天工 3.0」在語義理解、邏輯推理等方面的最佳化。與上一代「天工 2.0」MoE 大模型相比,「天工 3.0」在模型語義理解、邏輯推理以及通用性、泛化性、不確定性知識、學習能力等領域擁有驚人的效能提升,其模型技術知識能力提升超過 20%,數學 / 推理 / 程式碼 / 文創能力提升超過 30%。

以搜尋任務為例。在「搜尋增強」模式中,給出一個簡單的搜尋請求,「天工 3.0」不僅會給出一段概括性的回答,還會把一些重要資訊提煉成圖表。首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風

在「研究」模式中,它還會提供一個「深入研究」模組,去展開討論搜尋 Query 中未提到的延伸問題,讓你有一種在讀論文的感覺。最後,它還把這些資訊整理成了思維導圖,方便迅速查閱。首個國產音樂SOTA模型來了!專為中文最佳化,免費用,不限曲風

在語義理解、邏輯推理能力均大幅提升的基礎上,「天工 3.0」還針對模型獨立規劃、呼叫、組合外部工具及資訊的能力進行了專項訓練。透過獨立規劃以及呼叫、組合外部工具及資訊,它可以幫你精準高效地完成產業研究、產品橫評、資訊分析等各類複雜需求。

這種獨立思考的能力對於人工智慧大模型至關重要。首先,這種能力使得 AI 能夠在缺乏直接指令的情況下進行自主推理,提高其處理複雜問題的能力;其次,獨立思考的 AI 模型能夠進行創新性的解決方案設計,滿足個性化和場景化的需求;最後,這種能力促使 AI 在遇到新奇或變化的環境時,透過自我學習和適應來持續最佳化其效能。這三個方面的累積作用,極大地推動了 AI 技術的應用廣度和深度,使其在多種實際應用中表現出更高的智慧和效率。

「天工 3.0」包含了 AI 音樂、AI 搜尋、AI 寫作、AI 繪畫等多項大模型能力,談到 4000 億引數 MoE 大模型「天工 3.0」與天工 SkyMusic 背後的關係時,崑崙萬維董事長兼 CEO 方漢解釋說,「大家知道 AI 底座大模型是 AIGC 堅實的基礎,尤其是文字大模型。文生圖、文生音樂和文生影片(這些 AIGC 模型)的能力基礎都是文字大模型。如果文字模型能力不夠強,AIGC 能力就會受到很大限制。」

這種作用在「天工 3.0」的 AI 繪畫等能力上也有所體現。「天工 3.0」新增了圖片尺寸擴充套件、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能,實測效果優秀。

圖片

「我們的 4000 億大模型是給我們所有的面向 C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、影片以及動漫產品就會做得更好。所以我們做底座大模型是有非常強的動力的。」方漢說到。

實現通用人工智慧

讓每個人更好地塑造和表達自我

在關於 AGI 的願景中,我們經常聽一些AI企業高管提到,他們想要用 AI 工具來提高人類社會的生產力和效率。因此,他們大多專注於模型智力的擴充套件和增強。但在方漢看來,這其中忽略了一個重要問題,即如何用 AI 幫助人們更好地理解和表達情感。

在天工 SkyMusic 的音樂作品區,我們看到了很多這樣的例子:學生即將畢業的離愁、青年愛而不得的神傷、中年人養家餬口的疲憊都透過歌聲表達了出來。這是真正的「以歌明志」。

圖片

圖片

圖片

而對於方言的支援則更像一種文化平權,這是方漢非常看重的一點。未來,他們希望把更多語種加進去,讓每一個小語種人群都可以輕鬆創作出屬於自己的文化內容。

「在 AIGC 領域,我們宏偉的目標是希望全世界每一個人都能平等地去創作內容。我們想要降低所有人的創作門檻,讓大家都能更好地塑造和表達自我。」方漢表示。

最近,這些內容還被寫入了崑崙萬維的最新使命中。

圖片

其實,這種做法在商業上也是有意義的。「一旦人人都可以創作音樂之後,我相信任何一個公共場所,比如說每個餐廳、每個酒吧都可以創作出屬於自己的背景音樂,來滿足自己的業務需要。」方漢解釋說。

隨著未來持續的最佳化完善,天工 SkyMusic 會逐漸演變成一個專業且易用的全民音樂創作平臺。

當然,崑崙萬維的發力方向不只是音樂。以「天工 3.0」為基礎,他們已經形成了六大 AI 業務矩陣。未來,這些矩陣將組成一個 AI UGC 平臺。

圖片

這個平臺不僅能夠幫助普通人表達自我,還能幫助那些想用 AI 創作內容的創作者完成 IP 創作的全閉環。這個閉環以「好的故事(IP)」為核心,跨越文字、漫畫、音樂和影片等多種形式,消費者的內容消費也都在這一個平臺上完成,這是崑崙萬維構建的商業邏輯

「我們的本質是讓更多人參加到創作者隊伍裡面去。前提是你要會講一個好的故事。如果你能夠創作一個好的 IP,那麼就能創作內容。可以預見到的是,所有內容行業都將被重做一遍。創作者人數將以百倍擴充,能夠消費的內容也是以百倍擴充。人類將進入一個新時代,這也是我們提出『All in AGI 與 AIGC』戰略的邏輯。」方漢說到。

這個時代將被塑造成什麼樣子?我們拭目以待。

相關文章