傳說中的 Sora 公測還遙遙無期,「卷王」可靈又又又上新了。
要知道,自今年 6 月釋出以來,僅三個月,可靈 AI 就迭代了 9 次。
這次它還直接把基座模型升級了,推出可靈 1.5 模型。
那麼,這個新模型到底強在哪兒?
舉個例子,我們輸入同樣的 Prompt:一位女生看到一封信後悲傷起來,不停地哭泣。
1.0 模型的效果是這樣的:
1.5 模型的效果則是這樣:
(影片來源:X 博主 Pierrick Chevallier)
一言以蔽之,可靈 1.5 模型不僅顯著提升畫質,直出 1080p 影片,還讓畫面主體的動幅更大、質量更高,文字響應度也更強。
甚至官方還放出「豪言」,與可靈 1.0 模型相比,1.5 模型的內部評測整體效果提升 95%。
同時,可靈 AI 還在圖生影片中引入了全新的「運動筆刷」功能,進一步提升對影片生成的精準控制能力。
別看可靈 AI 拿出了不少寶貝,但加量不加價,生成價格不變,一則高品質模式影片仍是 35 個靈感值。
國外網友已經玩瘋了,甚至一度把伺服器擠崩潰。
廢話不多說,是騾子是馬,現在咱就拉出來遛遛。
可靈AI官網連結:https://klingai.kuaishou.com/
媲美電影大片的質感
此前的可靈 1.0 模型,在高品質模式下只能生成 720p 的影片,雖在眾多影片生成模型中表現出色,但隨著使用者對 AI 技術的期望不斷提升,這個清晰度已無法滿足他們的高標準需求。
現在可靈 AI 新推出可靈 1.5 模型,支援高品質模式下,生成 1080p 高畫質影片。
例如,我們輸入 Prompt:一隻擬人化的橘貓,戴著黑框眼鏡,圓腦袋大肚子,穿著白襯衫,坐在電腦桌前,表情疲憊想睡覺。
1.0 模型:
1.5 模型:
雖然二者均遵循了 Prompt 的要求,但從美感上來說,1.5 模型的橘貓倚在座位上眯著眼打盹,模樣更憨態可掬,柔和的檯燈光線灑在橘貓臉上,配色也更自然。
再來個科幻風格的。
Prompt:超現實,電影,宇航員駕駛著馬車在荒涼的月球上前行,極致細節。
1.0 模型:
1.5 模型:
在可靈 1.0 模型中,兩位宇航員乘坐的馬車稍顯簡陋,只有一匹馬、倆輪子,外加一塊破布胡亂擺動。
而到了 1.5 模型,全副武裝的宇航員端坐在車廂中,馬蹄上裹著金屬材質的護腿,散發著藍色的幽光,無論是構圖還是氛圍感,都有科幻電影的感覺。
我們繼續輸入 Prompt:一隻在指尖上行走的微型小斑馬。
眾所周知,手指扭曲向來是 AI 的通病之一,但在可靈 1.5 模型中,手部細節並未出現明顯的 bug,同時還發揮想象力,展示出一位年輕女子注視迷你斑馬的鏡頭,眼神流轉甚是逼真。
再比如 Prompt:一個小男孩正在街上滑滑板。
可靈 1.5 模型中,小男孩從站立滑行到緩慢俯身抓住滑板,整套動作行雲流水,也比較符合物理世界的運動規律。
同時,男孩面部表情自然,絲毫沒有崩壞,頭髮絲也清晰可見,對光影的處理更是到位,整個畫面極具電影美感。
還有國外網友用可靈 1.5 模型生成了一段女孩站在廢墟中的場景。
戰爭過後一片狼藉,小女孩無助地站在廢墟之上,眉頭緊鎖,眼中流露出無盡的悲傷和恐懼,其真實性和細節處理得堪比實地拍攝。
動幅再大也不崩
目前,市面上大部分 AI 生成模型都有個毛病,要麼是運動幅度小、流暢性不足,要麼就是動幅太大,冒出詭異畫面。
例如,騎摩托騎到天上去的大媽們:
此次可靈 1.5 模型把動態質量提升到一個新 level,可以讓影片中的角色運動幅度更大、動作更合理,還能保持一致性。
Prompt:一個短髮亞洲女孩兒,穿著米色寬鬆毛衣,淺棕色褲子,騎著一輛羅馬假日的小摩托,摩托是蒂芙尼藍的顏色,在羅馬的街頭,陽光明媚,完美構圖,精美畫面,細節刻畫,電影鏡頭。
1.0 模型:
1.5 模型:
1.5 模型中女孩手握車把調整方向,頭髮也隨之飄動,整體的運動幅度更大,電動車的執行軌跡也更合理。
Prompt:一隻毛茸茸的黃色小貓正在玩一隻小小的紅色毛線團。
1.0 模型:
1.5 模型:
在這輪測試中,兩個模型的表現各有千秋。
1.0 模型強調的是小貓咪撩撥拴在脖子上的紅毛線,構圖、配色頗具美感;1.5 模型則突出小貓抬起爪子玩線團,無論是小貓的動作還是毛線團的轉動,其運動幅度都更大。
我們再來試一下圖生影片功能。上傳一張馬斯克的圖片,輸入提示詞:馬斯克正在吃漢堡。
1.0 模型:
1.5 模型:
背靠有著眾多吃播影片的快手,可靈 AI 在吃飯影片生成上可以說是無人能敵。在這一輪的 PK 中,兩大模型的生成效果不相上下。
「矽谷鋼鐵俠」馬斯克秒變吃貨,他先是拿起漢堡看了一眼,然後張大嘴巴咬一口,咀嚼時下巴一上一下,兩頰有節奏地顫動著,漢堡上也留下清晰的咬痕。
最讓人驚喜的,還是豬八戒拿起筷子吃麵條這段:
二師兄端著碗,提起筷,挑起一坨麵條就歪著腦袋呼呼地往嘴裡送。不得不說,豬八戒握筷子的姿勢,簡直比人類還有範,那麵條的垂墜感表現得也相當細膩。
再複雜的鏡頭語言也能 get 到
除了畫質更高、運動幅度更大外,可靈 1.5 模型還可以響應更復雜的文字描述要求,甚至還能「無中生有」。
例如,我們上傳一張沒有人物的牛肉麵的圖片,然後再配上 Prompt:鏡頭拉遠,一個小女孩拿著筷子開始吃飯。
可靈 1.5 模型生成的影片中,隨著鏡頭緩慢拉遠,一雙筷子入畫,繼而出現一個手握筷子、嗦著麵條的小女孩。
而在 1.0 模型中,對於提示詞的理解就稍微欠缺一些,畫面中沒有出現人物,只是出現了一雙筷子慢慢夾起了碗中的牛肉。
我們還輸入了一段如同小作文般的文字描述,既包括諸多場景細節,又有鏡頭景深的要求。
Prompt:一隻花斑狗在濃密的花園中歡快地穿梭,彷彿在追逐著什麼,它向前小跑著,眼睛睜得大大的,充滿喜悅之情,在行走的過程中,它仔細地掃視著樹枝、花朵和樹葉,小徑十分狹窄,花斑狗不得不在植物之間穿梭而行,畫面是從地面角度拍攝的,緊跟花斑狗的步伐,提供了一個低矮而親密的視角,畫面色調溫暖,顆粒感明顯,給人一種電影般的視覺效果,樹葉和植物上方灑落的陽光營造出溫暖的對比效果,突出了花斑狗的毛髮。畫面清晰銳利,景深較淺。
可靈 1.5 模型生成效果如下:
它不僅準確理解了輸入的指令,還生成與之匹配的影片內容,畫面整體構圖和光影表現也讓影片頗具藝術感和觀賞性。
再來一個鏡頭語言更復雜的 Prompt:燈塔周圍的超快速無人機視角,懸崖,戲劇性,pov 鏡頭,電影。
1.0 模型:
1.5 模型:
「pov 鏡頭」、「超快速無人機視角」等鏡頭描述,無疑加大了 AI 理解難度,但兩個模型均給出了超預期的畫面。
1.5 模型生成的畫面更穩,鏡頭由遠及近慢慢推進,矗立在懸崖上的燈塔還射出一道白色的亮光。
而 1.0 模型的鏡頭轉換則更加刺激,先是一頓旋轉式俯拍,接著近距離環繞拍攝,完全契合了超快速無人機拍攝的文字描述。
一勾一畫,指哪動哪
圖生影片時,為了大幅提升創作者對運動效果的控制能力,可靈 AI 還帶來了「運動筆刷」功能。
不過,該功能只能在可靈 1.0 模型中使用。
玩法也很簡單。
比如,我們上傳一張水母的圖片,然後將圖片中需要控制運動方向的部分勾勒出來,再畫一個示意運動方向箭頭,就可實現精準運動控制。
當然,我們也可以開啟「自動檢測區域」的按鈕,讓 AI 自動識別,還可以為某些元素額外指定靜止區域,讓影片內容有更好的運動控制及運動表現。
上效果:
值得注意的是,目前該功能可以為圖中的 6 個元素指定運動軌跡。
比如讓三隻水母在海里朝著不同方向遊動:
或者把一幅梵高風格的油畫,各種塗抹標軌跡。
最終生成的影片竟有了一種 3D 效果:
此外,可靈 AI 還順道升級了其他功能,比如可一次性生成最多 4 條影片;「圖生影片」功能新增支援 10 秒時長、標準模式下支援增加尾幀;「AI 圖片」支援畫質增強等。
可靈 AI 的這些新功能一經推出,便吸引了全球網友前往「嚐鮮」。不少網友體驗後表示,這是迄今為止最好的影片生成模型,足以媲美專業電影製作的標準。
自今年 6 月份首次亮相以來,可靈 AI 已經進行了 9 次迭代升級,至今已服務超過 260 萬使用者,生成 5300 萬張圖片和 2700 萬個影片,深受包括國內知名導演在內的創作者們的青睞。
為了進一步探索 AI 在電影製作中的潛力,快手還特別啟動了「可靈 AI」導演共創計劃。該計劃匯聚了李少紅、賈樟柯、葉錦添等 9 位傑出導演,他們將利用可靈 AI 的技術,創作 9 部 AIGC 電影短片,這不僅是技術與藝術的結合,也是對未來電影製作模式的一次大膽嘗試。
由此可見,AI 對電影行業的重塑已不再是一個遙遠的預言,而是正在發生的現實。AI「新影像」時代正呼嘯而來。
參考連結:
可靈官網 https://klingai.kuaishou.com/
https://x.com/CharaspowerAI/status/1836519202112573940