終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

机器之心發表於2024-09-29
「火山爆發,震撼天地。」這八個字會在你的頭腦中觸發怎樣的影像?是否與下面的影片類似?終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器
提示詞:火山噴發,升起巨大蘑菇雲,岩漿順著山體往下流,鏡頭拉近,岩漿正在火山口跳動冒出。

這段 10 秒的影片是豆包影片生成模型基於以上提示詞想象創造的。可以說這段影片的擬真度非常高,並且有著嫻熟的運鏡,足以放入任何影視作品中。

有著剪映、即夢等影片創作工具的位元組跳動,正式宣告進軍 AI 影片生成領域。那是在本週二,「2024 火山引擎 AI 創新巡展」來到了深圳。這一巡展上,位元組跳動如火山爆發,一連發布了三個面向不同細分領域(影片生成、音樂和同聲傳譯)的多模態大模型,同時給之前已有的通用語言模型、文生圖模型、語音模型來了一波大升級。這些模型共同構建起了火山引擎的「豆包全模態大模型家族」。

家族新秀:豆包影片生成模型 PixelDance 和 Seaweed

驚豔、驚喜、目眩神迷……

在深圳站城市巡展上,火山引擎為豆包全模態大模型家族帶來了兩員新秀:PixelDance(畫素跳動)和 Seaweed(海草)。

對於 PixelDance,記憶好的讀者可能依然記得這個名詞。是的,去年 11 月份,PixelDance 就已經憑藉高動態影片生成能力在 AI 社群刷了一波存在感,感興趣的讀者可訪問《影片生成新突破:PixelDance,輕鬆呈現複雜動作與炫酷特效》。

今年 5 月份,豆包影片生成模型的早期版本開始在即夢 AI 上應用,收穫了不少好評。現在又過去了幾個月時間,豆包影片生成模型已經完成迭代升級,能力更是大幅提升,機器之心也測試體驗了其最新版本。

實測下來,PixelDance 和 Seaweed 這兩個豆包影片生成模型的效果確實超乎了我們的想象。在此之前,大多數影片生成模型給出的結果都像是 PPT 一樣:場景通常變化不大,而變化較大的場景又常會出現不一致問題。

豆包影片生成模型不僅能生成連貫一致的影片,而且還支援在生成的影片中採用不同運鏡方式、多鏡頭切換、變焦等技法。此外,豆包影片生成模型還支援多種不同的風格以及各種常見裝置的高寬比,適用於各種平臺和場景。終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

提示詞:一位老人正眺望遠方的大海,鏡頭緩慢拉遠,一艘白色的輪船從畫面右側駛來,天上飛著幾隻海鷗。

具體技術上,豆包影片生成模型基於 DiT(擴散 Transformer)架構。透過高效的 DiT 融合計算單元,讓影片在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。全新設計的擴散模型訓練方法更是攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風格、氛圍的一致性,這也是豆包影片生成模型獨具特色的亮點。

前些天,豆包影片生成模型剛釋出時,機器之心已經受邀進行了一波內測,那時候我們主要測試的模型是豆包-Seaweed,參閱機器之心報導《位元組版 Sora 終於來了!一口氣兩款影片模型,帶來的震撼不只一點點》中帶「即夢 AI」水印的影片。報導發出後,有讀者評論表示這比仍處於 PPT 階段的 Sora 強多了。

這一次,我們又獲得了另一個模型豆包-PixelDance 的內測機會。讓我們用更多例項來驗證一下豆包影片生成模型的各項能力,看它是否真像傳說中那樣,有著超越 Sora 的表現。

能力 1:支援更復雜的提示詞和多動作多主體互動:想象一個充滿活力的城市廣場,人群熙攘,街頭藝人表演,孩童嬉戲,情侶漫步。豆包影片生成模型能將這複雜場景栩栩如生地呈現出來,不再侷限於單一動作或簡單指令。它能精準捕捉多個主體之間微妙的互動,從眼神交流到肢體語言,都能完美詮釋。這種高階理解能力可為創作者開啟無限可能,讓想象力在影片中自由翱翔。終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

提示詞:80 年代風格,小男孩們在街頭奔跑,汽車在街道上行駛。

能力 2:可在鏡頭切換時有效地保持鏡頭一致性:10 秒,足以讓豆包影片生成模型講述一個跌宕起伏的微電影。從溫馨的家庭晚餐到激烈的街頭追逐,再到感人的重逢場景,鏡頭切換行雲流水,卻始終保持主角特徵、場景風格、情感氛圍和敘事邏輯的完美統一。這種高超的一致性掌控,可為創作者的影片作品增添專業電影般的敘事魅力。終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

提示詞:女生先是流下眼淚,然後開心地笑起來,並主動擁抱了男生。

能力 3:強大動態與酷炫運鏡:生成的影片可同時存在主體的大動態與鏡頭的炫酷切換。支援變焦、環繞、平搖、縮放,目標跟隨等超多鏡頭語言,實現對視角的靈活控制。無論是震撼的動作場面,還是細膩的情感表達,豆包影片生成模型都能以最佳視角呈現,帶來超越想象的視覺盛宴。終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

提示詞:特寫,一個女生悲傷的面部,她緩緩轉身,鏡頭拉遠,看見了一個英俊的男子正注視著她。

能力 4:多樣化的風格支援:從經典黑白到前衛 3D 動畫,從清新淡雅的水墨國畫到熱烈奔放的厚塗風格,再到溫馨可愛的 2D 動畫,豆包影片生成模型可為每個創意賦予獨特的藝術魅力。無論你想要懷舊、未來、寫實還是夢幻,豆包影片生成模型都能完美詮釋你的藝術視野。終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器
提示詞:油畫風格,鏡頭拉遠,一個穿著黑色西裝的男人正走在這條路上。

能力 5:支援多種寬高比:支援 1:1、3:4、4:3、16:9、9:16、21:9,全面覆蓋各種常見的顯示器或應用。無論是傳統電視、電影銀幕、電腦顯示器,還是各類移動裝置,生成的影片都能完美呈現。讓創意不受裝置限制,在任何平臺上綻放光彩。
圖片

心動了嗎?你不僅能心動,而且不久之後就能真正開始體驗豆包影片生成模型!據瞭解,豆包影片生成模型 PixelDance 和 Seaweed 已在火山引擎開啟邀測,企業可透過火山引擎官網提交測試申請。

  • 豆包影片生成模型邀測報名入口:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?projectName=default&type=GenVideo

音訊模態的破局者:豆包音樂及同聲傳譯模型

除了影片生成,位元組跳動也強勢進軍音訊生成領域,釋出了豆包音樂模型及同聲傳譯模型。我們知道,聲音的本質是空氣中震盪的機械波,人類對此的物理理解已經相當深刻,但要讓 AI 創作出動人心絃的和諧韻律,或在瞬息間跨越語言的鴻溝,卻是兩個截然不同的挑戰。

火山引擎近日釋出的豆包音樂模型和同聲傳譯模型在各自的難點上都取得了質的突破,達到了可實際投入生產應用的水平。

豆包音樂模型:每個人都能有自己的歌

想象一下,僅憑一句話或一張圖片,就能瞬間編織出動人心絃的旋律!

是的,不同於 Suno 等其它常見的音樂生成模型只能使用文字作為提示詞或歌詞資訊,豆包的音樂生成模型還能使用圖片作為靈感來源。這不僅能極大豐富使用者的靈感來源,並且還能讓使用者根據視覺場景生成最適合場景的音樂。豆包音樂模型還支援音樂轉換,只需 10 秒的語音或歌聲錄音,即可將其轉換為不同風格的音樂。

不僅如此,這位 AI 作曲家還精通 10 多種音樂風格和情感色彩,讓你可以隨心所欲地探索民謠、流行、搖滾、國風、嘻哈等多種風格和情緒表現。

比如隨手拍攝的小貓照片,它就能給你創作出一首非常好聽的歌:終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

當然,你也可以讓豆包音樂模型演唱你自己創作的歌詞。我們以杜甫名篇《登高》做了測試:終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

豆包音樂模型現已向使用者開放,企業和開發者可以透過火山方舟使用其 API,使用者也可以直接透過豆包 App 和海綿音樂 App 創作音樂。

豆包同聲傳譯模型:準確、實時、真正同聲

相較於注重和諧韻律的音樂模型,同聲傳譯模型的核心需求是準確和實時。

豆包同聲傳譯模型採用了端到端的方式來實現同聲傳譯。這不僅能避免分階段處理(語音識別→機器翻譯→語音合成)時錯誤的傳遞和積累問題,還能極大降低延遲。據瞭解,豆包同聲傳譯模型的準確度在辦公、法律、教育等場景中接近甚至超越人類同傳水平,而延遲水平僅有半句話左右。

基礎能力之上,豆包同聲傳譯模型還具備音色克隆能力,可生成與說話人音色一致的外語聲音,實現真正的「同聲」傳譯。終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

更多相關細節可參閱我們之前的報導《位元組大模型同傳智慧體,一出手就是媲美人類的同聲傳譯水平》。

已有模型大升級,效率大提升

除了新發布的視覺和音訊模態模型,在火山引擎這一次還對已有的通用語言模型、文生圖模型、語音模型來了一波大升級。

通用語言模型:增大上下文、提升綜合能力

從 5 月到 9 月,豆包大模型的使用量實現了超過 10 倍的爆發式增長,順著這股爆發式增長的勢頭,火山引擎宣佈將旗艦級豆包大模型「豆包通用模型 Pro」迭代成了更強大的新版本,讓模型的綜合能力提升了 25%,在各個維度上都達到了國內領先水平,尤其是在數學和專業知識能力上。

圖片

這樣的提升可讓豆包更加輕鬆地應對更為複雜的工作和生活場景。

此外,豆包通用模型 Pro 的上下文視窗也從之前的 128k 倍增到了 256k,可一次性處理約 40 萬漢字,相當於一口氣讀完《三體》的前兩部。

文生圖模型:推理效率和效能大幅提升

火山引擎也將豆包文生圖模型迭代到了 2.0 版本。其採用了更高效的 DiT 架構。模型的推理效率和效能都獲得了顯著提升。除了繼承之前已有的高美感等優勢,這一次升級,火山引擎著重最佳化了文生圖模型的物理感知能力,可讓模型感知多主體、數量、大小、高矮、胖瘦和運動等複雜屬性並實現對應的生成。

文生圖模型 2.0 的想象力也獲得了提升,可更好地呈現虛構和超現實畫面。另外,文生圖模型 2.0 還能以極高的美感呈現中國古代的各類繪畫風格。如下例子所示,生成人物的頭髮、手指和妝造都堪稱完美。

圖片
提示詞:古裝美人賞月圖,長髮飄飄,燭火熒熒

同時,文生圖模型的出圖速度也獲得了提升 —— 最快可做到 3 秒出圖。

文生圖模型 2.0 已經上線即夢,使用者可以即刻開始嚐鮮了。

語音模型:超強混音,音色自由組合

火山引擎也為自家的語音合成模型帶來了一輪升級,其中最具看點的新功能是透過混音來組合形成不同的音色,並由此打破了音色數量的限制。並且,這個功能不僅允許使用者自由組合火山引擎提供的聲音,還能將自己的聲音復刻為混音音源。

這些透過混音生成的聲音不僅在音色自然度上有了質的飛躍,其連貫性、音質和韻律也達到了與真人幾乎無異的水平,難以分辨虛實,令人驚歎。

比如我們可以透過混合猴哥和港劇女聲的音色比例來獲得妙趣橫生的新音色。終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器

效率提升和成本降低:讓大模型真正可用的基礎

大模型服務要真正有用並能被使用者使用,只是能力強大還不夠,還需要強大的伺服器提供硬體支援,同時還需要控制使用成本,讓使用者可以接受。

效率方面,火山引擎總裁譚待宣佈,豆包 Pro 預設的初始 TPM(每分鐘 token 數)為 800k,高於業界其它模型,並且還可根據企業具體需求進一步擴容。實際上,800k 的 TPM 足稱業界最強,可以滿足很多企業級的應用場景。

圖片

而在成本方面,火山引擎也做了很多創新和探索,併成功在今年 5 月將每千 token 的使用成本降到了 1 釐(0.001 元)以下,使位元組跳動成為國內第一家能做到如此低成本的公司。可以說,token 的價格已經不再是阻礙 AI 應用創新的阻力

另外,火山引擎還開發了全新的上下文快取技術。這能讓使用者無需重複對話,就能保留上下文。由此可以降低多輪對話的延遲,改善使用者體驗。同時還能有效降低企業使用大模型的成本。

結語

在這場令人目眩神迷的 AI 盛宴中,火山引擎展示了其在影片、音訊、文字等不同模態上的卓越能力。同時其也不斷重申了對安全和隱私的重視。

火山引擎的全模態大模型戰略正在逐步展現其全力以赴 AI 的決心。從文字到影像,從影片到音訊,再到跨模態的融合應用,火山引擎正在構建一個全方位、多維度的 AI 生態系統,甚至能讓使用者「一個人就能成為想象的指揮家」,完成從創意加工到影片製作的全流程。這個生態系統不僅能為開發者和企業使用者提供豐富的工具和介面,更為未來的智慧應用描繪了一幅令人期待的前景。

相關文章