AI好好用報導
編輯:楊文
支援1分鐘、1080P解析度的超長影片生成。
國產影片大模型再次卷出「新高度」。
前腳快手可靈升級完 1.5 模型,後腳位元組就正式進軍影片生成。
幾乎同一時間,美圖公司也突然宣佈,自家的奇想大模型(MiracleVision)影片生成能力已完成全面升級。
具體而言,它不僅單次文生影片時長、單次圖生影片時長均達 5 秒,還支援 1 分鐘、幀率 24FPS、解析度 1080P 的超長影片生成。
而更讓人驚喜的,則是它超強的風格化。
比如,寫實風格的熊貓,坐在牆根上彈著吉他:
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
動畫風格的酷女孩,戴著墨鏡,邊走邊喝咖啡:
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
卡通風格的大黑牛騎著心愛的小摩托狂飆:
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
毛氈風格的農夫和小兔:
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
目前,美圖奇想大模型全新影片生成能力已在MOKI上線,後續將逐步覆蓋到美圖秀秀、美顏相機、Wink、開拍、美圖設計室、WHEE等產品。
接下來,我們將從寫實、動畫、國風、風格化、人像等維度,對它來一個全方位的測評。
寫實風格:重現真實物理規律
AI 生成寫實影片時,經常會遇到肢體變形、動作卡頓等問題,而美圖的奇想大模型在複雜 3D 時空精準重構基礎上,影片生成能夠重現真實物理規律,支援大幅度流暢運動。
例如,這段 Sora 的經典 Prompt,就是對大幅度流暢運動的考驗:
一輛白色的越野 SUV,疾馳在蜿蜒的崎嶇山路上,周圍是鬱鬱蔥蔥的灌木叢。
奇想大模型不僅完美遵循文字指令,還體現出諸多小細節:透過車後泛起的塵土體現越野車的速度,逆光拍攝時畫面出現的光斑等。
再比如,Prompt:穩定拍攝的運動鏡頭,在戶外的一隻棕色皮毛的小松鼠,從畫面的右邊一路向右邊跳躍,動作敏捷。
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
這隻身手矯健的松鼠,前肢抬起,後肢發力,騰空跳躍,四隻爪子配合協調,尾巴隨之搖晃,觸碰到的樹葉也會彈動。
倒牛奶是一個包含複雜物理互動和視覺細節的場景。
我們輸入 Prompt:一隻手平穩地將銀色水罐中的牛奶倒入透明高腳杯中。
奇想大模型正確模擬了牛奶從容器中倒出、流動和最終落入杯中的過程。動作在時間上保持連貫,牛奶的流動沒有出現突然的中斷或不自然的加速,並且正確模擬出液麵的上升和下降。
再來看看這段玫瑰花蕾盛開的延時攝影。
花朵開放有一定生物學規律,並且需要理解和表現出延時攝影被壓縮的時間感。奇想大模型生成的影片,不僅真實,還捕捉到動態的花瓣伸展的細節。
下面這段萬馬奔騰的航拍鏡頭也相當震撼。
Prompt:航拍鏡頭,從空中俯瞰到一群活力四射的駿馬在一片遼闊的大地上飛馳而過,鬃毛和馬尾隨風飄揚。
近 20 匹毛色各異的駿馬,馳騁在一望無際的草原上,它們四蹄翻飛,鬃毛和尾巴隨風飄揚,還展現出優美的肌肉線條。
即使是多主體、大幅度運動,奇想模型生成的畫面仍表現穩定,幾乎無虛化扭曲。
我們繼續輸入 Prompt: 一隻戴著紅項圈的橙色虎斑貓坐在床上,正看著熟睡在藍白條紋羽絨被下的女生。
奇想大模型生成的畫質清晰,貓咪毛髮透著光澤,鬍鬚根根分明,女主人手指也沒有明顯的 bug,甚至它還生成了人物由於側躺產生的脖頸上的皺紋。
隨著鏡頭緩慢推進,貓咪轉過腦袋,項圈上的金屬環也隨之擺動,其動作自然連貫。
除了運動流暢外,奇想大模型還能進行復雜的語義理解。
比如 Prompt:靜態廣角鏡頭,在一個日常生活的家中,一隻棕色的小狗坐在掃地機器人上隨著它移動,在家中打掃衛生。
在這段文字指令中,既有鏡頭的要求,還有主體、動作以及場景的限制。奇想大模型均 get 到了。
在這個低機位廣角鏡頭中,一隻小狗坐在工作著的掃地機器人上,左瞅瞅右看看。
鏡頭隨著掃地機器人的執行軌跡而移動,掃攝到房間裡的沙發腿、略顯雜亂的飄窗等,要不是畫面開始右上角人物的腳有些彆扭,真以為是實拍。
不得不說,奇想大模型對於動物的神態和動作,捕捉得也相當到位。
這隻變色龍的特寫鏡頭中,其眼珠轉動,嘴巴微張,以此來體現其警惕的神態,而且變色龍顆粒狀、粗糙的皮膚也生成得很逼真。
梅花鹿豎起的耳朵,然後突然轉身離開的神態,簡直復刻出真實小鹿的反應。
動畫風格:擁有超強藝術審美
眾所周知,製作一部精美的動畫,那是相當費時費力,即使是宮崎駿這樣的大師,也不例外。
《你想活出怎樣的人生》耗費 7 年之久,《起風了》打磨了 2 年,僅關東大地震的 4 秒鏡頭,宮崎駿就「死磕」了 1 年零 3 個月。
不過有了 AI,大部分的「體力活」都可以被自動化。
就拿奇想大模型來說,曾經一個團隊需要吭哧吭哧幹幾個月的活兒,現如今,只需上傳一張圖片,或者輸入一段提示詞,它幾分鐘就搞定。
例如,我們輸入提示詞:動畫風格,一個小男孩和一個小女孩正坐在樹下吃西瓜。
奇想大模型生成的影片中,兩個小孩眨著大眼睛,臉上帶著天真無邪的笑容。
他們捧著半拉西瓜,紅色的果肉在陽光下顯得格外誘人,還有西瓜籽點綴其間。畫風溫馨治癒,極具美感。
再如,手拿麵包的小女孩,竟有了一種宮崎駿的感覺。
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
小女孩拿起一塊麵包,然後將其丟到另一隻手上,雖然動作幅度較大,但畫面並沒有崩壞。
我們還上傳了一張圖片,並輸入提示詞:公交車在鄉間小路上行駛。
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
隨著公交車的前行,鏡頭開始輕微晃動,模擬著跟拍的效果。
為了營造出鄉間小路的坑坑窪窪,奇想大模型還讓公交車呈現出顛簸的效果。
還有火車在白雪皚皚的林海中穿行:
一艘小船駛向岸邊:
小狗在家門口「汪汪」直叫,然後撒腿就跑:
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
國風:最懂「中國味」
要說奇想大模型最拿手的,非國風莫屬。
先給大家看兩組鏡頭:
猜猜哪個是奇想大模型生成的?答案是:第一個。
要想有地道的「中國味」,AI 需要理解中國傳統文化的元素和美學。
奇想大模型生成的國風動畫中,女孩身著中國傳統服飾、梳著結鬟式髮髻,身後古樸的木屋也有著中國獨特的韻味。
同時,它對於細節的處理也相當精細,人物表情靈動,服飾紋理細膩,甚至還能模擬出光照和色彩的自然過渡。
而在國風人物群像中,奇想大模型表現也很出彩。
主角表情變化自然,先是表情嚴肅,微微轉動眼珠,繼而嘴角擠出一抹神似華妃的「皮笑肉不笑」,肢體動作也很流暢。
身後的配角們模樣各異,雖無較大動作,但眨巴著眼睛,也相當逼真。
此外,奇想大模型還可以生成水墨動畫。
畫面中,山間雲霧繚繞,瀑布從山崖飛流直下,清流激湍,身穿飄逸長袍的俠客站在岩石上瀟灑轉身,動作絲毫不僵硬。
風格化:追求極致細節
憑藉在影像領域的長期深耕,美圖在風格化方面有著得天獨厚的優勢,實現了在藝術風格、細膩畫風、細節把控之間的高度平衡,具備強大的風格泛化力與兼具藝術審美的視覺表現力。
比如毛氈風格,喪眉耷眼的小浣熊,搖頭晃腦地自說自話,背景自然虛化,但隱約能看到滿樹桃花隨風晃動。
要知道,不少 AI 影片模型在模擬毛氈的視覺效果時,對於紋理和光影效果的處理稍顯欠缺,而奇想大模型生成的影片,畫質清晰穩定,毛絨感細膩。
即使畫面出現多個主體,也能實現風格的整體統一,哈巴狗和後面的小動物們,反應各異,但動態效果流暢連貫,並未出現視覺上的跳躍感。
再來個粘土風格。
影片連結:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g
晃晃悠悠的鏡頭中,鬍子拉碴的大叔獨自坐在小屋裡彈吉他。
衣服的褶皺,屋頂垂下來的電燈,牆上掛的畫框和雜物,以及窗臺上的綠植,都生成得極具美感,尤其是那把吉他,非常逼真。
不過,唯一美中不足的,就是撥絃時手部稍顯扭曲。
人像風格:極具電影質感
美圖的奇想大模型還能根據文字或影像,生成逼真的人像影片,這為影視製作、廣告創意、時尚行業以及多媒體藝術創作開啟了一扇新的大門。
在奇想大模型生成的正面人像影片中,戴著牛仔帽的兩個男子坐在車裡盯著鏡頭,身體隨著汽車的顛簸而晃動。
車窗外,景色不斷變換,行道樹向後退去,整個鏡頭很有電影感。
夢幻般的森林中,一道道柔和的光線從樹縫中灑下,俊男美女站在光束下深情擁抱,周圍落葉紛飛。
整個場景如同一幅精美的油畫,光影、色彩、動靜結合得恰到好處,很是唯美。
為了在影片生成領域一鳴驚人,美圖公司一直在悄悄努力。
去年 6 月,美圖奇想大模型上線,經過一年時間的迭代,目前已更新至 V5 版本,並升級為 Diffusion 與 Transformer 模型結合的全新技術路線,採用 DiT 影片生成架構。
在新的技術路線下,相較業界先頭兵,美圖奇想大模型選擇優先攻克更具挑戰性的問題。
此次升級,該模型在技術層面上解決了主體一致性、運動連貫性、物理邏輯合理性等影片生成能力落地的核心問題,並逐步嵌入多款產品中。
看完以上這 5 大維度、30 段絕美實測影片,大家覺得美圖奇想大模型實力咋樣?評論區暢所欲言吧。