位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

机器之心發表於2024-09-25

原文網址 : https://www.jiqizhixin.com/articles/2024-09-24-4

Sora模型

我們用17個Prompt，實測了一把位元組的兩大影片生成模型。

位元組憋了個大招。

9 月 24 日，位元組跳動旗下的火山引擎在深圳辦了一場 AI 創新巡展，一口氣釋出了兩款影片生成大模型，正式宣告進軍 AI 影片生成。

這兩款模型，一個名為 PixelDance（以下簡稱 P 模型），一個名為 Seaweed（以下簡稱 S 模型），不僅在審美、動幅上提升了一個 level，還破解了多主體互動和一致性難題。

話不多說，先整幾個影片讓大家感受下：

一位年輕女生微簇眉頭，生氣地戴上一副墨鏡，這時，男主角入畫，緊緊抱住了她。

這段 10 秒的鏡頭中，人物面部表情變化自然，沒有任何虛化崩壞。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

再如，一隻金毛小狗在草地上追逐泡泡。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

^{（AI 自動配樂）}

以及一個 3D 風格的可愛小女孩正在跳舞。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

^{（AI 自動配樂）}

看來，位元組這次是把攢了許久的絕活兒，一股腦全倒出來了。

目前，新款豆包影片生成模型正在即夢 AI 內測版小範圍測試，未來將逐步開放給所有使用者。

我們也在第一時間拿到內測資格，接下來，就奉上新鮮出爐的一手實測。

解鎖多動作、多主體

目前，市面上大部分影片生成模型，只能完成簡單指令或者單一動作。而這次，豆包影片生成模型一頓升級，不僅可以遵循複雜 Prompt，還能捕捉多動作序列和主體互動。

例如，梵高站在自己的畫作前，捂嘴大笑起來，臉上的褶子都清晰可見；隨即又秒變嚴肅，手緩緩落下，捋捋自己的小鬍子。

整套動作行雲流水，表情自然逼真。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

再比如，我們輸入 Prompt：兩名宇航員行走在夜晚繁華的街道上。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

兩名身穿宇航服的航天員，一前一後漫步在繁華街道上，身後人來人往，兩側的建築亮起了絢麗的燈光和店招。

眾所周知，AI 最容易犯的毛病之一，就是左右腿不分，或者驚現四條腿。

而在豆包影片模型中，二人走路姿勢正常，幾乎與真人無異，沒有模糊、扭曲，也沒有出現各種詭異畫面。

我們還輸入了一段形容詞賊多的 Prompt：一隻蝸牛在雨後的森林地面上緩緩爬行，它身後留下一條閃閃發光的粘液軌跡。蝸牛的觸角謹慎地移動著，它的殼的每一段都有精細的紋理。一個攝像機跟蹤著蝸牛的緩慢旅程。鏡頭非常接近，以至於蝸牛殼和身體上的水滴清晰可見，地面的細節也展現得非常清楚。

豆包模型生成的影片中，蝸牛柔軟的軀體緩慢向後蠕動，觸角也隨之搖晃。硬硬的殼上有著精細的紋理，上面還沾著細小的水珠。

由於是特寫鏡頭，森林的背景自然虛化，而雨後地面的水窪則清晰可見。

Prompt：許多水母在水下游動，它們的身體透明，在深海中發著光。

畫面中出現了大大小小的透明水母，它們輕輕張開傘蓋，再緊緊收縮，觸手也在水中自由擺動。

Prompt：寫實，一個小女孩吹生日蠟燭，然後笑了。

鏡頭中，一個頭戴壽星帽的小女孩，張著嘴巴吹蠟燭，臉上露出微笑。同時，身後的親友團，或鼓掌、或拍照。該影片中的人物不僅多元，動幅也很大。

動作靈活，運鏡酷炫

這次豆包影片模型還有一大特點 —— 鏡頭多樣。

變焦、環繞、平搖、縮放、目標跟隨等超多鏡頭語言，它都能靈活控制視角，而且影片細節更豐滿，表情更豐富。

Prompt：一個推進鏡頭，沿著樹木成行的郊區住宅街道拍攝，白天，天空晴朗湛藍，色彩飽和，對比度高。

隨著鏡頭緩慢推進，乾淨的街道、樹木掩映的成排小別墅映入眼簾，畫面中還展示了優秀的光影效果。

Prompt: 北極光在北極天空中舞動，星星閃爍，白雪覆蓋的景觀的延時攝影。

天空舞動的極光，在雪地上對映出相應的顏色。豆包模型生成的這段延時攝影，簡直和紀錄片拍攝的如出一轍。

我們還試了下圖生影片，上傳圖片後，輸入 Prompt：金魚遊動，水中冒著氣泡。

別看這個 Prompt 簡單，豆包模型的「腦回路」卻複雜得很。不僅完美遵循文字指令，還學會了搖鏡頭。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

畫面一開始，水缸中的金魚開始遊動，並伴隨著大量氣泡。隨後，鏡頭一拉，現出女孩全身，她在水中緩緩轉過身，髮絲和寬鬆的衣襬在水中的漂浮感，以及頭頂露出水面的狀態，豆包模型均捕捉到位。

此外，豆包影片模型還採用全新設計的擴散模型訓練方法，成功攻克了多鏡頭切換時難以保持一致性的困擾，可 10 秒講述一個起承轉合的故事。

比如，用它生成一段睡美人的故事。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

睡美人躺在床上陷入沉睡，窗外的小鳥嘰嘰喳喳也吵不醒她，這時一位王子俯下身吻了睡美人，試圖喚醒她。

在這個 prompt 中，涉及多個鏡頭的切換，但主體、風格、氛圍和邏輯仍能保持一致性。

審美高階，風格多變

豆包新模型採用深度最佳化的 Transformer 結構，大幅提升了影片生成的泛化能力，黑白、3D 動畫、2D 動畫、國畫、厚塗等多種風格，它通通支援。

比如，一隻戴著墨鏡頗具喜感的北極熊，蹬著四隻爪子在海里暢遊，水面上泛起微波，甚至還折射出了北極熊的影子。

^{（Prompt: 戴著墨鏡的北極熊在海里游泳。)}

再來個動畫風格的。

身穿灰色時尚衛衣的貓咪，邁著「六親不認」的步伐，走在星光閃耀的 T 臺上。

其中，貓咪眨巴著眼睛，毛髮和衣服褶皺處理得也相當逼真，胸前的兩根衣帶也能隨著步伐而擺動。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

^{（Prompt：一隻擬人小貓正在 T 臺上走秀。）}

呆萌二哈一身潮範兒，頭戴棒球帽，手端咖啡杯，仰起頭，張開嘴，就將其一飲而盡，隨後，P 模型發揮想象力，讓二哈順手將咖啡杯放置在兩側的椅子上，整套動作行雲流水，很是流暢自然。位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

^{（Prompt：二哈正在喝咖啡。）}

陽光明媚，樹影斑駁，兩隻擬人化的企鵝，戴著 Fashion 的墨鏡，舒服地坐在沙灘椅上曬著日光浴，時不時還嘮上兩句磕兒。

^{（Prompt：動畫風格，兩隻擬人化的企鵝，戴著墨鏡，坐在沙灘椅上曬太陽。）}

兩隻卡哇伊的毛絨小怪物，搖頭晃腦地跳著舞，畫風有種迪士尼的感覺。

豆包影片模型對於細節的把握也是相當到位，比如小怪物晃動身體時，頭上的毛髮也會隨之起舞等。

^{（Prompt：兩隻毛茸茸的微型可愛怪物，正在跳舞，3D 渲染，Octane，柔和的照明，夢幻般的散景效果，電影感。）}

小貓晃動著爪子，和小熊貓玩親親，細節層次豐富，光影隨著主體運動而變化，大幅提升畫面視覺審美。

^{（Prompt：小貓和小熊貓開心地跳著，然後擁抱在一起。）}

不僅如此，我們還可以拿它製作廣告大片。

例如，先透過即夢的文生圖功能，搞出一張香水的商品圖。

然後再透過圖生影片功能，輸入 Prompt：藍色的煙霧緩緩升起。

效果如下：

大家覺得豆包影片生成模型水平咋樣呢？來評論區聊聊吧。

位元組終面的一點感悟和反思
2024-12-20
開源社群引數量最大的文生影片模型來了，騰訊版Sora免費使用
2024-12-03
模型Sora
Video Depth Anything來了！位元組開源首款10分鐘級長影片深度估計模型，效能SOTA
2025-01-27
IDE模型
當“無雙割草”的風吹向二遊，這款新品能否給玩家帶來億點震撼？
2024-04-15
牛逼！位元組 IDE 來了！！
2024-11-15
IDE
它來了它終於來了- Beego 1.12.2
2020-07-01
Go
關於看門狗的兩種模型以及帶來的思考
2021-04-17
模型
Sora終於來了，但卷王可靈已經「拍」上了AI電影
2024-12-11
SoraAI
《地鐵》迎來了新的終結，別讓自己錯過這款震撼心靈的遊戲
2020-02-13
遊戲
VS Code Day，終於來了！
2023-04-18
GPT-4，終於來了！
2023-03-17
GPT
C#9.0 終於來了，帶你一起解讀 nint 和 Pattern matching 兩大新特性玩法
2020-06-13
C#
WorldGPT來了：打造類Sora影片AI智慧體，「復活」圖文
2024-03-21
GPTSoraAI智慧體
VSCode 的 Live Share 功能終於來了
2018-05-08
VSCode
位元組海外電競迎來轉機了？
2021-04-28
這一天終於還是來了嗎
2020-11-27
肝了一週的 UDP 基礎知識終於出來了。
2020-11-26
UDP
蘋果2021 WWDC 來了！兩大亮點值得關注
2021-06-08
蘋果
原生 CSS Custom Highlight 終於來了~
2023-02-13
CSS
秋招真實記錄：緊張的337小時，我終於等來了位元組跳動offer（Android崗）
2020-11-20
Android
來了來了，CSS 版的冰墩墩來了……
2022-02-12
CSS
英特爾一口氣釋出了三款處理器、兩款儲存、一款乙太網介面卡
2019-04-03
終於拿到內測！豆包-PixelDance真是位元組影片生成大殺器
2024-09-29
LDA
React全新文件終於來了
2021-10-28
React
終於，我也來學習VUE了
2021-09-17
Vue
真·賽博菩薩！最大的開源影片模型來了，我們實測：有點東西，但不多
2024-10-23
模型
影片號：來了
2022-11-27
「Sora平替」來了！一鍵生成5秒影片，還免費，我們實測：很頂！
2024-05-21
Sora
沒等來OpenAI，等來了Open-Sora全面開源
2024-03-18
OpenAISora
(ROYOLE)全球首款柔性屏開發套件,柔宇RoKit終於來了!
2021-07-15
套件
AI「視覺圖靈」時代來了！位元組OmniHuman，一張圖配上音訊，就能直接生成影片
2025-02-05
AI視覺圖靈音訊
《山海旅人》團隊兩位滬漂少女帶來了一款“推理”新作《雙盲把戲》
2023-11-21
全身美型影片模式終於來了：美圖推送MEIOS4.3.4系統
2018-08-15
模式iOS
一口氣推出兩名新英雄，這款新銳射擊手遊仍在突破自我
2024-01-30
炸了！一口氣問了我18個JVM問題！
2020-11-13
JVM
發現一個開源專案優化點，點進來就是你的了
2022-05-25
優化
Laravel 之道：終於走到了控制器執行的原始碼分析，先吐一口氣
2019-04-27
Laravel原始碼
又一Sora級選手來炸街！我們拿它和Sora、可靈PK了下
2024-06-14
Sora

位元組版Sora終於來了！一口氣兩款影片模型，帶來的震撼不只一點點

相關文章