位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點

机器之心發表於2024-09-25

我們用17個Prompt,實測了一把位元組的兩大影片生成模型。


位元組憋了個大招。

9 月 24 日,位元組跳動旗下的火山引擎在深圳辦了一場 AI 創新巡展,一口氣釋出了兩款影片生成大模型,正式宣告進軍 AI 影片生成

這兩款模型,一個名為 PixelDance(以下簡稱 P 模型),一個名為 Seaweed(以下簡稱 S 模型),不僅在審美、動幅上提升了一個 level,還破解了多主體互動和一致性難題。

話不多說,先整幾個影片讓大家感受下:

一位年輕女生微簇眉頭,生氣地戴上一副墨鏡,這時,男主角入畫,緊緊抱住了她。

這段 10 秒的鏡頭中,人物面部表情變化自然,沒有任何虛化崩壞。位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點再如,一隻金毛小狗在草地上追逐泡泡。 位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點 (AI 自動配樂)

以及一個 3D 風格的可愛小女孩正在跳舞。 位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點 (AI 自動配樂)

看來,位元組這次是把攢了許久的絕活兒,一股腦全倒出來了。

目前,新款豆包影片生成模型正在即夢 AI 內測版小範圍測試,未來將逐步開放給所有使用者。

我們也在第一時間拿到內測資格,接下來,就奉上新鮮出爐的一手實測。

解鎖多動作、多主體

目前,市面上大部分影片生成模型,只能完成簡單指令或者單一動作。而這次,豆包影片生成模型一頓升級,不僅可以遵循複雜 Prompt,還能捕捉多動作序列和主體互動。

例如,梵高站在自己的畫作前,捂嘴大笑起來,臉上的褶子都清晰可見;隨即又秒變嚴肅,手緩緩落下,捋捋自己的小鬍子。

整套動作行雲流水,表情自然逼真。位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點再比如,我們輸入 Prompt:兩名宇航員行走在夜晚繁華的街道上。 位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點
兩名身穿宇航服的航天員,一前一後漫步在繁華街道上,身後人來人往,兩側的建築亮起了絢麗的燈光和店招。

眾所周知,AI 最容易犯的毛病之一,就是左右腿不分,或者驚現四條腿。

而在豆包影片模型中,二人走路姿勢正常,幾乎與真人無異,沒有模糊、扭曲,也沒有出現各種詭異畫面。

我們還輸入了一段形容詞賊多的 Prompt:一隻蝸牛在雨後的森林地面上緩緩爬行,它身後留下一條閃閃發光的粘液軌跡。蝸牛的觸角謹慎地移動著,它的殼的每一段都有精細的紋理。一個攝像機跟蹤著蝸牛的緩慢旅程。鏡頭非常接近,以至於蝸牛殼和身體上的水滴清晰可見,地面的細節也展現得非常清楚。

圖片

豆包模型生成的影片中,蝸牛柔軟的軀體緩慢向後蠕動,觸角也隨之搖晃。硬硬的殼上有著精細的紋理,上面還沾著細小的水珠。

由於是特寫鏡頭,森林的背景自然虛化,而雨後地面的水窪則清晰可見。

Prompt:許多水母在水下游動,它們的身體透明,在深海中發著光。

圖片

畫面中出現了大大小小的透明水母,它們輕輕張開傘蓋,再緊緊收縮,觸手也在水中自由擺動。

Prompt:寫實,一個小女孩吹生日蠟燭,然後笑了。

圖片

鏡頭中,一個頭戴壽星帽的小女孩,張著嘴巴吹蠟燭,臉上露出微笑。同時,身後的親友團,或鼓掌、或拍照。該影片中的人物不僅多元,動幅也很大。

動作靈活,運鏡酷炫

這次豆包影片模型還有一大特點 —— 鏡頭多樣。

變焦、環繞、平搖、縮放、目標跟隨等超多鏡頭語言,它都能靈活控制視角,而且影片細節更豐滿,表情更豐富。

Prompt:一個推進鏡頭,沿著樹木成行的郊區住宅街道拍攝,白天,天空晴朗湛藍,色彩飽和,對比度高。

圖片

隨著鏡頭緩慢推進,乾淨的街道、樹木掩映的成排小別墅映入眼簾,畫面中還展示了優秀的光影效果。

Prompt: 北極光在北極天空中舞動,星星閃爍,白雪覆蓋的景觀的延時攝影。

圖片

天空舞動的極光,在雪地上對映出相應的顏色。豆包模型生成的這段延時攝影,簡直和紀錄片拍攝的如出一轍。

我們還試了下圖生影片,上傳圖片後,輸入 Prompt:金魚遊動,水中冒著氣泡。

別看這個 Prompt 簡單, 豆包模型的「腦回路」卻複雜得很。不僅完美遵循文字指令,還學會了搖鏡頭。位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點
畫面一開始,水缸中的金魚開始遊動,並伴隨著大量氣泡。隨後,鏡頭一拉,現出女孩全身,她在水中緩緩轉過身,髮絲和寬鬆的衣襬在水中的漂浮感,以及頭頂露出水面的狀態,豆包模型均捕捉到位。

此外,豆包影片模型還採用全新設計的擴散模型訓練方法,成功攻克了多鏡頭切換時難以保持一致性的困擾,可 10 秒講述一個起承轉合的故事。

比如,用它生成一段睡美人的故事。位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點
睡美人躺在床上陷入沉睡,窗外的小鳥嘰嘰喳喳也吵不醒她,這時一位王子俯下身吻了睡美人,試圖喚醒她。

在這個 prompt 中,涉及多個鏡頭的切換,但主體、風格、氛圍和邏輯仍能保持一致性。

審美高階,風格多變

豆包新模型採用深度最佳化的 Transformer 結構,大幅提升了影片生成的泛化能力,黑白、3D 動畫、2D 動畫、國畫、厚塗等多種風格,它通通支援。

比如,一隻戴著墨鏡頗具喜感的北極熊,蹬著四隻爪子在海里暢遊,水面上泛起微波,甚至還折射出了北極熊的影子。

圖片

(Prompt: 戴著墨鏡的北極熊在海里游泳。)

再來個動畫風格的。

身穿灰色時尚衛衣的貓咪,邁著「六親不認」的步伐,走在星光閃耀的 T 臺上。

其中,貓咪眨巴著眼睛,毛髮和衣服褶皺處理得也相當逼真,胸前的兩根衣帶也能隨著步伐而擺動。位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點
(Prompt:一隻擬人小貓正在 T 臺上走秀。)

呆萌二哈一身潮範兒,頭戴棒球帽,手端咖啡杯,仰起頭,張開嘴,就將其一飲而盡,隨後,P 模型發揮想象力,讓二哈順手將咖啡杯放置在兩側的椅子上,整套動作行雲流水,很是流暢自然。位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點
(Prompt:二哈正在喝咖啡。)

陽光明媚,樹影斑駁,兩隻擬人化的企鵝,戴著 Fashion 的墨鏡,舒服地坐在沙灘椅上曬著日光浴,時不時還嘮上兩句磕兒。

圖片

(Prompt:動畫風格,兩隻擬人化的企鵝,戴著墨鏡,坐在沙灘椅上曬太陽。)

兩隻卡哇伊的毛絨小怪物,搖頭晃腦地跳著舞,畫風有種迪士尼的感覺。

豆包影片模型對於細節的把握也是相當到位,比如小怪物晃動身體時,頭上的毛髮也會隨之起舞等。

圖片

(Prompt:兩隻毛茸茸的微型可愛怪物,正在跳舞,3D 渲染,Octane,柔和的照明,夢幻般的散景效果,電影感。)

小貓晃動著爪子,和小熊貓玩親親,細節層次豐富,光影隨著主體運動而變化,大幅提升畫面視覺審美。

圖片

(Prompt:小貓和小熊貓開心地跳著,然後擁抱在一起。)

不僅如此,我們還可以拿它製作廣告大片。

例如,先透過即夢的文生圖功能,搞出一張香水的商品圖。

圖片

然後再透過圖生影片功能,輸入 Prompt:藍色的煙霧緩緩升起。

效果如下:

圖片

大家覺得豆包影片生成模型水平咋樣呢?來評論區聊聊吧。

相關文章