在 AI 生成的這些影片中,你能判斷出哪個是 Sora 生成的嗎?
左為 Sora 生成,右為國產智象多模態大模型生成。12 月 10 日,OpenAI 釋出了 Sora。但與 10 個月前的預覽效果相比,正式釋出並沒有帶來預期的震撼效果。許多國產模型在某些方面甚至超越了 Sora。與此同時,關於影像、影片生成模型應用前景的問題也被再次提起。記得 2 月份 Sora 剛釋出預覽版的時候,國內 AI 公司就是否跟進這一方向出現了一波分歧 —— 有人認為這個方向有著廣闊的應用前景,值得做;但也有人認為這類模型的商業化要五年甚至十年,因此堅持不做。10 個月後,我們看到,那些選擇去做的公司不僅在模型效果上有所突破,也確實摸索出了一些當前就可以落地的場景。貢獻上述 demo 的智象未來(HiDream.ai)就是這樣一家公司。智象未來成立於 2023 年 3 月,核心團隊在幾年前就開始研究影片、影像生成模型。如今,他們的智象多模態生成大模型已經更新到了 3.0 版本,還發布了理解大模型 1.0。該公司 CTO 姚霆告訴機器之心,其實在影片、影像生成領域,「我們不需要等到基礎模型達到 100 分才去做應用。在現有的基礎模型能力之上,如果你能找到真正解決使用者痛點的場景,並在應用上做得很深,真正做到端到端的 95 分以上,使用者就會買單。」基於這一發現,智象未來對他們的模型做了很多場景驅動的最佳化,特別關注基礎模型在上層應用中的表現,去解決使用者「最後一公里」的問題,同時也在探索效果更好、效率更高的模型架構。我們將在下文中詳細探討這些內容。什麼樣的模型才是使用者真正需要的?姚霆在採訪中分享了他從使用者反饋中觀察到的現象。他提到,「我們和一些 90 後、00 後的年輕人聊過,他們認為目前 AI 生成的一分鐘單鏡頭影片,他們根本不會看,因為覺得有些無聊。但一些簡單的、帶特定 IP 的動態桌布,卻能吸引他們付費。」這些應用並不複雜,「但他們的要求很精準 ——IP 的每個細節不能變,比如五官。」B 端場景也類似,比如需要將商品 logo 印在衣服上,要求效果自然、直接可用。 這些現象揭示了模型和應用之間的 gap:研究人員以為他們要把基礎模型做到 100 分才會有人買單,因此拼命讓模型參加各種能彰顯通用能力的「考試」。而使用者其實只想要一個在解決自己特定問題上能達到 95 分的模型。現階段,這樣的模型並不好找。這種 gap 讓姚霆意識到,從場景需求的角度出發去最佳化模型,才有可能做出真正好用的產品。智象多模態生成大模型 3.0 就是在這樣的理念下被打磨出來的。總的來說,它實現了三大方面的最佳化:一是畫面質量和相關性提升;
二是鏡頭運動和畫面運動更可控;
三是特色場景下的生成效果提升。
對於影像生成模型來說,過硬的畫面質量和遵循提示的能力是模型落地的基礎。為了在這些方面實現提升,智象未來在技術架構上引入了 Diffusion Transformer (DiT) + Autoregressive model (AR) 的混合架構。DiT 的優勢無需多言。在 Sora 釋出後,它已經成為視覺生成模型的主流架構。不過與此同時,也有不少學者在研究基於 AR 的視覺生成路線,因為這類模型的可擴充套件性已經在語言模型中得到了驗證。而且,它們可以透過一個 token 化的過程打通語言、視覺等多種模態,把生成和理解統一在一個框架內,提升生成模型的可控性(如 IP 保持、提示遵循)。考慮到兩種架構各有其優點和侷限性,智象未來團隊選擇將二者融合,使得新架構在保持 DiT 中連續影像編碼優勢的同時實現自迴歸過程和輕量化擴散過程結合。最終,除了提高生成質量和可控性,這種融合還帶來了一個好處,就是模型推理速度的提升,這可以讓使用者更快地得到生成結果。下圖顯示了智象多模態生成大模型與其他模型在影像生成效果上的差異。可以看到,在畫面設計方面,智象多模態生成大模型的角色設計明顯更加立體、生動,例如憤怒角色帶有火焰效果,快樂角色微笑明顯。在與提示的相關性方面,智象多模態生成大模型的生成效果最貼合文字描述,各個角色的情緒特徵都表達得準確且生動。架構升級所帶來的提升一目瞭然。與此同時,智象多模態生成大模型的影片生成質量也有所提升,因為智象未來延續了之前高效的時空建模方法,並進一步增大了 DiT 模型的規模,從而實現了對複雜高畫質細節和邏輯關係的時空建模,提升了每幀的畫面質量和整體相關性。廣義的影片運動本質上包含了複雜的全域性鏡頭運動和區域性畫面運動。當前的很多模型都存在兩種運動的不協調問題(想象一下,一個人在小路上往前走,後面的山卻沒有逐漸往後退),從而影響了畫面的真實感和可用性。為了解決這個問題,智象未來把鏡頭運動和畫面運動進行聯合訓練,強化了對於影視級別鏡頭的學習和模擬,同時也提升了畫面本身運動的自然度。如下面這幾個影片所示,智象多模態生成大模型能夠處理非常複雜的鏡頭運動,如平移、縮放、旋轉等,而且在鏡頭變化的同時,主體也在發生合理的變化(如螞蟻隨著鏡頭變焦而縮小),且主體動作非常連貫、絲滑(如旋轉鏡頭中車的運動)。「所有真實的影片都需要這樣的(運鏡水平)。哪怕是一個簡單的宣傳片,它也要過渡自然,裡面有一些運鏡手法。再延伸一下,運鏡手法其實是可控性的一種,生成內容要遵從給定的運鏡指令,不然的話這個工具就沒法用了。」在提及這一方向的最佳化動機時,姚霆解釋說。使用者真實的開放場景是最考驗模型泛化性和垂域特色的,智象未來利用多場景學習放大多模態生成大模型的產品能力特色,實現不同特色場景下的生成效果提升,完成了使用者「最後一公里」的需求。以營銷場景下的 IP 遷移功能舉例(如商品 logo 等),雖然場景很簡單,但要想達到讓使用者付費的水平,必須做到端到端的 95 分以上,在技術上就需要更多地去考慮如何兼顧使用者側生成內容的真實性以及最大化 IP 保持的程度。如下圖所示,在將 logo 遷移到商品上之後,智象多模態生成大模型能夠做到毫不突兀地將其與商品融為一體,而且在需要適當變形的情況下(比如右下角的咖啡杯),模型也能「隨機應變」,同時保持 IP 與原圖完全一致,做到了拿來即用。在影片生成中,智象多模態生成大模型也能把IP(例如上述生成的帶logo的咖啡杯)自然地嵌入廣告場景。在多模態大模型中,理解與生成是相輔相成的。因此,智象未來在生成大模型 3.0 的訓練中加入了理解增強。同時,他們還專門推出了一個新的理解大模型 —— 智象多模態理解大模型 1.0。這個模型透過對物體級別的畫面建模以及事件級別的時空建模,實現了更精細、準確的影像與影片內容理解。此外,這一理解大模型還可以進一步服務於理解增強的多模態生成技術,搭配多模態生成大模型實現多模態檢索 + 多模態內容編輯與生成的創作平臺。這個平臺的執行效果如下:你只需輸入文字描述,即可在系統中搜尋到可用的影片片段,並透過文字互動的形式進行編輯。在現實中,基於真實影片進行二次創作的操作需求可能比從頭開始製作影片更為常見,尤其是在一些以 IP 為核心的二次創作場景中。因此,基於智象多模態理解大模型 1.0 和多模態生成大模型 3.0 打造的這個系統有望大幅降低創作門檻,提高創作效率。對於做生成式模型的公司來說,最近發生了一些值得關注的趨勢。一方面,所有人都在討論「scaling law 是否到頭,預訓練是否即將終結」。另一方面,多模態大模型正在被寄予更高的期望,有人認為這類模型有望展現出新的 scaling law,並最終通往 AGI。當談到多模態大模型技術未來是否就是 AGI,他有著更接地氣的觀點,「我們傾向於在基礎模型的通用性和對垂直應用的泛化性之間找一個平衡。AGI 不是我們的目標,應用才是。」這樣的理念幫助他們在商業化方面取得了亮眼的成績。據悉,該公司目前已累計服務了全球一百多個國家和地區的一千多萬個人使用者和四萬多家企業客戶,其中包括中國移動、中國聯通、人民網、央視網、聯想、科大訊飛、商湯、微軟、上影、華策、彩訊、捷成世紀等頭部企業。鑑於多模態大模型的應用尚處於起步階段,這樣的成績並不多見。姚霆表示,未來,他們會繼續堅持這一路線,以更接地氣方式致力於使用者最後「一公里」的問題,讓 AIGC「飛入尋常百姓家」。智象未來科技有限公司是全球領先的多模態生成式人工智慧初創企業。公司自主研發的智象多模態大模型是超百億級別的大模型,擁有目前行業中最豐富的多模態版權語料庫,具備強大的視覺內容生成與理解能力,同時是首批完成模型和演算法雙備案的多模態大模型。近日,智象未來獲得數億元人民幣 Pre-A 和 A 輪融資。已完成的 Pre-A 輪融資,領投方是在文化科技領域內知名的投資機構敦鴻資本。正在進行的 A 輪融資,領投金額過億元人民幣,領投方系以合肥產投為主的國資基金,跟投方有安徽省人工智慧母基金,湖北省長江電影集團有限公司等,目前還有知名戰略資本正在持續推進當中。