Open main menu
IT人
位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點
机器之心
發表於
2024-09-25
原文網址 :
https://www.jiqizhixin.com/articles/2024-09-24-4
Sora
模型
我們用17個Prompt,實測了一把位元組的兩大
影片生成
模型。
位元組憋了個大招。
9 月 24 日,
位元組跳動
旗下的火山引擎在深圳辦了一場 AI 創新巡展,一口氣釋出了兩款
影片生成
大模型,正式宣告進軍 AI
影片生成
。
這兩款模型,一個名為 PixelDance(以下簡稱 P 模型),一個名為 Seaweed(以下簡稱 S 模型),不僅在審美、動幅上提升了一個 level,還破解了多主體互動和一致性難題。
話不多說,先整幾個影片讓大家感受下:
一位年輕女生微簇眉頭,生氣地戴上一副墨鏡,這時,男主角入畫,緊緊抱住了她。
這段 10 秒的鏡頭中,人物面部表情變化自然,沒有任何虛化崩壞。
再如,一隻金毛小狗在草地上追逐泡泡。
(AI 自動配樂)
以及一個 3D 風格的可愛小女孩正在跳舞。
(AI 自動配樂)
看來,位元組這次是把攢了許久的絕活兒,一股腦全倒出來了。
目前,新款豆包
影片生成
模型正在即夢 AI 內測版小範圍測試,未來將逐步開放給所有使用者。
我們也在第一時間拿到內測資格,接下來,就奉上新鮮出爐的一手實測。
解鎖多動作、多主體
目前,市面上大部分
影片生成
模型,只能完成簡單指令或者單一動作。而這次,豆包
影片生成
模型一頓升級,不僅可以遵循複雜 Prompt,還能捕捉多動作序列和主體互動。
例如,梵高站在自己的畫作前,捂嘴大笑起來,臉上的褶子都清晰可見;隨即又秒變嚴肅,手緩緩落下,捋捋自己的小鬍子。
整套動作行雲流水,表情自然逼真。
再比如,我們輸入 Prompt:兩名宇航員行走在夜晚繁華的街道上。
兩名身穿宇航服的航天員,一前一後漫步在繁華街道上,身後人來人往,兩側的建築亮起了絢麗的燈光和店招。
眾所周知,AI 最容易犯的毛病之一,就是左右腿不分,或者驚現四條腿。
而在豆包影片模型中,二人走路姿勢正常,幾乎與真人無異,沒有模糊、扭曲,也沒有出現各種詭異畫面。
我們還輸入了一段形容詞賊多的 Prompt:一隻蝸牛在雨後的森林地面上緩緩爬行,它身後留下一條閃閃發光的粘液軌跡。蝸牛的觸角謹慎地移動著,它的殼的每一段都有精細的紋理。一個攝像機跟蹤著蝸牛的緩慢旅程。鏡頭非常接近,以至於蝸牛殼和身體上的水滴清晰可見,地面的細節也展現得非常清楚。
豆包模型生成的影片中,蝸牛柔軟的軀體緩慢向後蠕動,觸角也隨之搖晃。硬硬的殼上有著精細的紋理,上面還沾著細小的水珠。
由於是特寫鏡頭,森林的背景自然虛化,而雨後地面的水窪則清晰可見。
Prompt:許多水母在水下游動,它們的身體透明,在深海中發著光。
畫面中出現了大大小小的透明水母,它們輕輕張開傘蓋,再緊緊收縮,觸手也在水中自由擺動。
Prompt:寫實,一個小女孩吹生日蠟燭,然後笑了。
鏡頭中,一個頭戴壽星帽的小女孩,張著嘴巴吹蠟燭,臉上露出微笑。同時,身後的親友團,或鼓掌、或拍照。該影片中的人物不僅多元,動幅也很大。
動作靈活,運鏡酷炫
這次豆包影片模型還有一大特點 —— 鏡頭多樣。
變焦、環繞、平搖、縮放、目標跟隨等超多鏡頭語言,它都能靈活控制視角,而且影片細節更豐滿,表情更豐富。
Prompt:一個推進鏡頭,沿著樹木成行的郊區住宅街道拍攝,白天,天空晴朗湛藍,色彩飽和,對比度高。
隨著鏡頭緩慢推進,乾淨的街道、樹木掩映的成排小別墅映入眼簾,畫面中還展示了優秀的光影效果。
Prompt: 北極光在北極天空中舞動,星星閃爍,白雪覆蓋的景觀的延時攝影。
天空舞動的極光,在雪地上
對映
出相應的顏色。豆包模型生成的這段延時攝影,簡直和紀錄片拍攝的如出一轍。
我們還試了下圖生影片,上傳圖片後,輸入 Prompt:金魚遊動,水中冒著氣泡。
別看這個 Prompt 簡單, 豆包模型的「腦回路」卻複雜得很。不僅完美遵循文字指令,還學會了搖鏡頭。
畫面一開始,水缸中的金魚開始遊動,並伴隨著大量氣泡。隨後,鏡頭一拉,現出女孩全身,她在水中緩緩轉過身,髮絲和寬鬆的衣襬在水中的漂浮感,以及頭頂露出水面的狀態,豆包模型均捕捉到位。
此外,豆包影片模型還採用全新設計的擴散模型訓練方法,成功攻克了多鏡頭切換時難以保持一致性的困擾,可 10 秒講述一個起承轉合的故事。
比如,用它生成一段睡美人的故事。
睡美人躺在床上陷入沉睡,窗外的小鳥嘰嘰喳喳也吵不醒她,這時一位王子俯下身吻了睡美人,試圖喚醒她。
在這個 prompt 中,涉及多個鏡頭的切換,但主體、風格、氛圍和
邏輯
仍能保持一致性。
審美高階,風格多變
豆包新模型採用深度最佳化的 Transformer 結構,大幅提升了
影片生成
的泛化能力,黑白、3D 動畫、2D 動畫、國畫、厚塗等多種風格,它通通支援。
比如,一隻戴著墨鏡頗具喜感的北極熊,蹬著四隻爪子在海里暢遊,水面上泛起微波,甚至還折射出了北極熊的影子。
(Prompt: 戴著墨鏡的北極熊在海里游泳。)
再來個動畫風格的。
身穿灰色時尚衛衣的貓咪,邁著「六親不認」的步伐,走在星光閃耀的 T 臺上。
其中,貓咪眨巴著眼睛,毛髮和衣服褶皺處理得也相當逼真,胸前的兩根衣帶也能隨著步伐而擺動。
(Prompt:一隻擬人小貓正在 T 臺上走秀。)
呆萌二哈一身潮範兒,頭戴棒球帽,手端咖啡杯,仰起頭,張開嘴,就將其一飲而盡,隨後,P 模型發揮想象力,讓二哈順手將咖啡杯放置在兩側的椅子上,整套動作行雲流水,很是流暢自然。
(Prompt:二哈正在喝咖啡。)
陽光明媚,樹影斑駁,兩隻擬人化的企鵝,戴著 Fashion 的墨鏡,舒服地坐在沙灘椅上曬著日光浴,時不時還嘮上兩句磕兒。
(Prompt:動畫風格,兩隻擬人化的企鵝,戴著墨鏡,坐在沙灘椅上曬太陽。)
兩隻卡哇伊的毛絨小怪物,搖頭晃腦地跳著舞,畫風有種迪士尼的感覺。
豆包影片模型對於細節的把握也是相當到位,比如小怪物晃動身體時,頭上的毛髮也會隨之起舞等。
(Prompt:兩隻毛茸茸的微型可愛怪物,正在跳舞,3D 渲染,Octane,柔和的照明,夢幻般的散景效果,電影感。)
小貓晃動著爪子,和小熊貓玩親親,細節層次豐富,光影隨著主體運動而變化,大幅提升畫面視覺審美。
(Prompt:小貓和小熊貓開心地跳著,然後擁抱在一起。)
不僅如此,我們還可以拿它製作廣告大片。
例如,先透過即夢的文生圖功能,搞出一張香水的商品圖。
然後再透過圖生影片功能,輸入 Prompt:藍色的煙霧緩緩升起。
效果如下:
大家覺得豆包
影片生成
模型水平咋樣呢?來評論區聊聊吧。
相關文章
位元組終面的一點感悟和反思
2024-12-20
開源社群引數量最大的文生影片模型來了,騰訊版Sora免費使用
2024-12-03
模型
Sora
Video Depth Anything來了!位元組開源首款10分鐘級長影片深度估計模型,效能SOTA
2025-01-27
IDE
模型
當“無雙割草”的風吹向二遊,這款新品能否給玩家帶來億點震撼?
2024-04-15
牛逼!位元組 IDE 來了!!
2024-11-15
IDE
它來了它終於來了- Beego 1.12.2
2020-07-01
Go
關於看門狗的兩種模型以及帶來的思考
2021-04-17
模型
Sora終於來了,但卷王可靈已經「拍」上了AI電影
2024-12-11
Sora
AI
《地鐵》迎來了新的終結,別讓自己錯過這款震撼心靈的遊戲
2020-02-13
遊戲
VS Code Day,終於來了!
2023-04-18
GPT-4,終於來了!
2023-03-17
GPT
C#9.0 終於來了,帶你一起解讀 nint 和 Pattern matching 兩大新特性玩法
2020-06-13
C#
WorldGPT來了:打造類Sora影片AI智慧體,「復活」圖文
2024-03-21
GPT
Sora
AI
智慧體
VSCode 的 Live Share 功能終於來了
2018-05-08
VSCode
位元組海外電競迎來轉機了?
2021-04-28
這一天終於還是來了嗎
2020-11-27
肝了一週的 UDP 基礎知識終於出來了。
2020-11-26
UDP
蘋果2021 WWDC 來了!兩大亮點值得關注
2021-06-08
蘋果
原生 CSS Custom Highlight 終於來了~
2023-02-13
CSS
秋招真實記錄:緊張的337小時,我終於等來了位元組跳動offer(Android崗)
2020-11-20
Android
來了來了,CSS 版的冰墩墩來了……
2022-02-12
CSS
英特爾一口氣釋出了三款處理器、兩款儲存、一款乙太網介面卡
2019-04-03
終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器
2024-09-29
LDA
React全新文件終於來了
2021-10-28
React
終於,我也來學習VUE了
2021-09-17
Vue
真·賽博菩薩!最大的開源影片模型來了,我們實測:有點東西,但不多
2024-10-23
模型
影片號:來了
2022-11-27
「Sora平替」來了!一鍵生成5秒影片,還免費,我們實測:很頂!
2024-05-21
Sora
沒等來OpenAI,等來了Open-Sora全面開源
2024-03-18
OpenAI
Sora
(ROYOLE)全球首款柔性屏開發套件,柔宇RoKit終於來了!
2021-07-15
套件
AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片
2025-02-05
AI
視覺
圖靈
音訊
《山海旅人》團隊兩位滬漂少女帶來了一款“推理”新作《雙盲把戲》
2023-11-21
全身美型影片模式終於來了:美圖推送MEIOS4.3.4系統
2018-08-15
模式
iOS
一口氣推出兩名新英雄,這款新銳射擊手遊仍在突破自我
2024-01-30
炸了!一口氣問了我18個JVM問題!
2020-11-13
JVM
發現一個開源專案優化點,點進來就是你的了
2022-05-25
優化
Laravel 之道:終於走到了控制器執行的原始碼分析,先吐一口氣
2019-04-27
Laravel
原始碼
又一Sora級選手來炸街!我們拿它和Sora、可靈PK了下
2024-06-14
Sora