終於,谷歌新一代影片生成大模型 Veo2 把 Sora 給秒了:「更懂人間煙火」、「懂電影拍攝技巧」、「解析度高達 4K 」……
影片生成已經步入影視級,但,還是個默片。
Veo2生成影片,來自X網友 @moderncpp7,背景音效是作者手動新增。
國內網際網路公司卻開闢了新玩法,讓「視聽同步生成」變成現實。只需上傳一段影片,音樂大模型就能立刻整出 30 秒的 MV !
中文吐詞清晰,聲音自然,歌詞高度貼合畫面,韻律也很中國,因為影片只有16秒所以MV也就16秒。
過去整這麼一出,還有點折騰。得先用音樂大模型生成音訊,再用剪輯工具把影片和音訊「拼」起來。
現在,音樂大模型直接把 MV 給你端上來,連提示詞都省了。
一鍵配樂「天譜樂」拿下「全球首創」
今年 7 月,音訊垂直賽道獨角獸趣丸科技推出了全球首個多模態配樂大模型「天譜樂」。
趣丸科技一直深耕音樂、音訊領域,旗下的拳頭產品有 TT 語音,如今累計註冊使用者已超 2 億,是國內最大的興趣社交平臺之一。
AI音樂創作平臺-天譜樂官網
「天譜樂」支援文字生曲,最長 3.5 分鐘。
文字生成歌曲,提示詞:寫一首關於當代年輕人青春熱血的歌曲。
除了文字,「天譜樂」 還支援圖片生曲、影片生曲,也是全球首個落地多模態能力的 AI 音樂應用:
使用者上傳圖片或 60 秒內影片,就能立刻生成與之高度匹配的 BGM,呈現 30 秒 MV 效果。
而 Suno 直到 10 月才推出了 SunoScenes ,允許使用者透過上傳照片和影片作為提示詞,生成與之匹配的 30 秒音樂。 我們上傳了一張《好東西》的劇照,「天譜樂」立刻生成了一首歌曲。
給李子柒的一段製茶影片配上音樂,無論是歌詞還是曲風都帶有濃濃的國風。
我們知道,Suno V3 和 Udio 生成的歌曲都有帶著明顯的金屬質感,聽起來像壓縮過的 MP3 ,尤其是人聲部分特別明顯,中文人聲唱詞更是差強人意。
在最具挑戰的人聲問題上,「天譜樂」中文人聲唱詞在多次技術迭代之後,已經達到了專業級人聲效果,顯著減少了電音感,擁有更加真實的歌手聲音,接近音樂發行的級別。
「天譜樂」此次的技術突破,來自於天譜樂大模型在長序列音樂語意建模和高質量音訊空間建模上實現進一步突破,高度還原音樂音訊在高維空間的連續訊號表徵,實現音樂性和音質的飛躍。
不過,要生成理想的 MV 效果,歌曲必須高度貼合內容,這意味著音樂模型還要能理解畫面蘊含的情緒、主題和細節。
基於大模型,「天譜樂」能準確識別出畫面情緒和基調,完成卡點,生成精準匹配的背景音樂,這種先進的多模態理解與生成能力使「天譜樂」達到了國際領先水平。
目前,「天譜樂」大模型已全面接入趣丸旗下唱鴨 App,在國內率先實現產品化應用,目前已有 4600 萬人註冊使用唱鴨 App 或天譜樂官網,累計創作近 1000 萬首 AI 歌曲。
「零門檻」音樂生成 國產應用三分天下
2023 年 12 月底上線的 Suno 迅速成為 2024 年 AI 音樂領域的焦點。在國內,類似 Suno 的音樂創作模型接連面世,趣丸科技「天譜樂」也與位元組跳動、崑崙萬維兩家音樂大模型形成「三分天下有其一」的格局。
在這場「零門檻」AI 音樂生成角逐中,崑崙萬維最先發力。旗下的音樂生成模型「天工 SkyMusic 」基於崑崙萬維的「天工 3.0 」超級大模型打造,能夠快速生成多種風格的音樂作品。
在音質上表現出色,還支援粵語、成都話等方言歌曲創作。目前僅支援文字生曲。
隨後,崑崙萬維又推出 AI 流媒體 App( Melodio )和 AI 商用音樂創作平臺( Mureka ),致力於讓全球使用者都能輕鬆進行音樂表達。
8 月,位元組跳動攜豆包音樂大模型加入 AI 音樂戰局,此時,趣丸科技推出「天譜樂」已兩月有餘。
位元組的模型一上線就全面接入豆包 App、海綿音樂 App(位元組旗下 AI 音樂創作工具),向所有使用者開放。使用者只需輸入簡單的提示詞,就能得到包含歌詞、曲譜和演唱的完整歌曲作品,還內建十多種風格和情緒選項。
相比 Suno,海綿音樂在人聲清晰度、中文發音等方面進行了最佳化,更能駕馭國風類音樂。
目前支援文字、圖片生曲,但不包括影片輸入。
相比之下,擁有海量版權的線上音樂巨頭則審慎得多。針對創作者,網易雲音樂和騰訊音樂分別推出了具備 AI 輔助創作功能的「天音」和「啟明星」平臺。
「天音」更適合專業創作者,在「一鍵生成」上並沒展現出領先其他 AI 生成應用的優勢。「啟明星」接入了「琴樂大模型」,仍聚焦於純音樂創作,並未涉足涉及人聲的歌曲生成。
對此,騰訊音樂表示,歌曲生成等複雜能力可以拭目以待。作為這一輪 AI 技術下的使用者平臺,他們選擇踴躍但理性投入。
「啟明星」接入了騰訊音樂「琴樂大模型」,輸入曲風、樂器、場景等關鍵詞就會生成一段純音樂。
商用領跑 跨界共創
技術可以跨越國界,但應用一定要滿足本地使用者的需求。與當前已經落地的 AIGC 應用類似,國內 AI 音樂模型的發展也更接地氣。
得益於更容易獲符合本土市場偏好的華語和國風音樂訓練資料,國內模型能夠更準確地把握中國聽眾的音樂審美偏好,因此在中文歌曲創作上,「天譜樂」等國產音樂大模型明顯優於市場上最先進的 AI 音樂模型之一 Suno。
Suno 為杜甫《小至》創作的歌曲,無論人聲吐詞還是旋律,都明顯「水土不服」。
同時,國內音樂大模型市場也展現出獨特的競爭格局。與 Suno 等專注技術創新的初創企業不同,這裡的主導者是一批深耕內容與文娛領域的網際網路企業。
他們無一例外地將重點放在降低創作門檻上,幫普通人生成個性化音樂,除了想在 C 端市場快速建立起存在感,也源於自身業務的深層需求,如平臺在流量增長進入瓶頸期後儘可能地留住使用者。
資料顯示,2023 年抖音使用者投稿超過 100 億,其中有 78% 的內容都含有 BGM ,對 30 秒到 1 分鐘不等的配樂需求量巨大。傳統模式下,平臺要麼為此支付高額版權費,要麼自建 BGM 庫。音樂大模型能低成本批次生成個性化 BGM,滿足迫切的業務需求。
作為國內最大的興趣社交平臺之一,趣丸也順應年輕人消費音樂的方式從「聽唱」轉向「唱作」,將音樂大模型整合進唱鴨等產品,透過提升使用者體驗來強化其社交生態。
不少從業者認為,短影片、廣告宣傳、直播、遊戲等場景的 BGM 很可能率先被 AI 取代。這些「快餐」內容對創作專業性、音質和 IP 要求都相對較低,更注重快速生產和個性化定製,與當前 AI 音樂的技術優勢完美契合。
2024 年,音樂大模型橫空出世終於補齊了 AIGC 時代「創作平權」的最後一塊拼圖。隨著技術持續迭代,國內 AI 音樂應用也正朝著雙軌並行的方向演進。
以「天譜樂」為例,一方面踐行著「人人都能玩點音樂」,為普通使用者提供娛樂性音樂生成服務;另一方面也在為專業人士提供更加實用的創作輔助,創造更大價值。
「天譜樂」網頁端已經為廣告、影視和音樂從業者提供專家模式,實現更精準的引數控制。
另外在影片配樂上,鏡頭卡點識別功能將傳統需要剪輯師手動完成的情緒匹配和卡點對齊過程自動化,極大地提升了工作效率。
「天譜樂」網頁端(也是「唱鴨」的網頁版AI作曲),為廣告、影視和音樂從業者提供音樂專家模式,具備更精準的引數控制和更高的創作自由度。
據瞭解,「天譜樂」即將推出 MidiRender 功能,它像音樂界的 ControlNet,讓創作過程更可控:
創作者先確定核心創意和基礎旋律——比如像《星球大戰》主題曲開頭那樣具有標誌性的動機旋律,再由 AI 協助完成歌詞填充和編曲工作。
MidiRender 不僅強化了人類對音樂生成的細節把控,也大大縮短了傳統創作中從動機旋律到完整作品需要的數週乃至數月時間。
創作者輸入原創音樂片段:「天譜樂」填充歌詞完成編曲:
有了 MidiRender ,「天譜樂」最終做出來的音樂,跟最初人類作曲家的動機旋律完全匹配。
事實上,業界對提升 AI 音樂「可編輯能力」的呼聲一直很高。端到端生成模式難以進行編輯調整,也難以獲取分軌、MIDI 等製作檔案,要讓音樂生成工具真正融入創作人士的工作流程,必須實現從盲盒式生成到精確控制的轉變。
視覺生成的技術軌跡也證明了這一點:從 DALL-E 「盲盒式生成」到 Midjourney 的區域性重繪,再到 Stable Diffusion 的 ControlNet,影片生成可控性也在逐步提升。
AI 大模型作為工具,最終還是要服務於人,而不是去搶奪創作主導權,趣丸科技副總裁賈朔認為。未來,AI 和藝術家會是合作伙伴,畢竟,誰不能也不想獨自創造音樂的未來。