更美影像生成、直出分鐘級影片,國產自研DiT架構的越級之旅
机器之心發表於2024-07-08
一轉眼,2024 年已經過半。我們不難發現,AI 尤其是 AIGC 領域出現一個越來越明顯的趨勢:文生圖賽道進入到了穩步推進、加速商業落地的階段,但同時僅生成靜態影像已經無法滿足人們對生成式 AI 能力的期待,對動態影片的創作需求前所未有的高漲。因此,文生影片賽道持續高熱,尤其是自年初 OpenAI 釋出 Sora 以來,以 Diffusion Transformer(DiT)為底層架構的影片生成模型迎來了井噴期。在這一賽道,國內外影片生成模型廠商們正默默展開著一場技術競速。在國內,一家成立於去年 3 月、專注於構建視覺多模態基礎模型及應用的生成式 AI 初創公司不斷出現在人們的視野中。它就是智象未來(HiDream.ai),其自主研發的視覺多模態基礎模型實現了不同模態之間的生成轉換,支援文生圖、文生影片、圖生影片和文生 3D,並推出了一站式 AI 影像和影片生成平臺「Pixeling 千象」供社會大眾上手使用。自智象大模型 2023 年 8 月上線以來,期間歷經數次迭代與打磨,透過最佳化基礎模型來深挖、擴充文生圖和文生影片等 AIGC 能力。尤其是在影片生成領域,支援的生成時長從最開始的 4 秒增加到了 15 秒,成像效果也肉眼可見地更優。如今,智象大模型再次迎來升級,基於中文原生的獨有 DiT 架構釋放出更強大、更穩定、對使用者更友好的影像和影片生成能力,包括更具美感和藝術性的影像生成、影像中文字嵌入、分鐘級影片生成等。所有這些影像和影片生成新技能的展示,離不開智象未來在多模態視覺生成領域的技術積累和持續創新。智象大模型從一開始便瞄準了文字、影像、影片、3D 的聯合建模,透過互動式生成技術實現精準可控的多模態內容生成,構築強大的基模能力,讓使用者在其文生圖、文生影片 AIGC 平臺中有更好的創作體驗。此次智象大模型 2.0 的整體升級,相較於 1.0 版本在底層架構、訓練資料和訓練策略上均有質的變化,由此帶來了文字、影像、影片和 3D 多模能力的又一次飛躍和互動體驗上的切實提升。可以說,升級後的智象大模型在影像、影片生成領域迎來了全方位加強,併為多模態大模型創作一站式 AIGC 生成平臺注入了更加強勁的驅動力。作為 AIGC 的一站式生成平臺,文生圖是文生影片的前提和重要的技術壁壘。因此智象未來在文生圖方向上寄予了很高的預期,以自己的節奏推進更多樣性功能、更逼真視覺效果以及更友好使用者體驗。經過了一系列針對性調整和最佳化,智象大模型 2.0 文生圖能力相較以往版本顯著改進,並從多個外在呈現效果上很容易看出來。首先,智象大模型 2.0 生成的影像更有美感、更具藝術性。當前的文生圖大模型在語義理解、生成影像結構和畫面細節等較為直觀的方面可以做得很好,但在質感、美感、藝術性等偏感官方面可能無法讓人滿意。因此,追求美感成為了此次文生圖升級的重點。究竟效果如何呢?我們可以來看下面兩個示例。第一個示例輸入的 Prompt 為「一個戴著巨大帽子的小女孩,帽子上有很多城堡,花草樹木,鳥類,五顏六色,特寫,細節,插畫風格」。第二個示例輸入的 Prompt 為「綠色植物葉子特寫照片,深色主題,水滴細節,移動桌布」。生成的兩張影像,無論是構圖色調,還是細節豐富度,看上去都有一種讓人眼前一亮的感覺,這些都極大地拉昇了整體畫面美感。除了讓生成的影像看上去更美之外,生成影像的相關性也更強。這也是影像生成發展到一定階段後,大家非常關注的一個方面。為了提升生成影像的相關性,智象大模型重點強化了對一些複雜邏輯的理解,比如不同的空間佈局、位置關係、不同型別的物體、生成物體的數量等,這些都是實現更高相關性的重要因素。一番調教下來,智象大模型可以輕鬆搞定包含多物體、多位置分佈、複雜空間邏輯的影像生成任務,更好地滿足現實生活中使用者的實際需求。我們來看下面三個需要對不同物體、空間位置關係進行深刻理解的生成示例。結果表明,對於包含複雜邏輯的長短文字 Prompt,文生圖現在都能輕鬆搞定。第一個示例輸入的 Prompt 為「廚房桌子上有三個裝滿水果的籃子。中間的籃子裡裝滿了青蘋果。左邊的籃子裡裝滿了草莓。右邊的籃子裡滿是藍莓。籃子後面是一隻白色狗。背景是一面青綠色的牆壁,上面有彩色的文字 "Pixeling v2"」。第二個示例輸入的 Prompt 為「右邊是一隻貓,左邊是一隻狗,中間是一個綠色的立方體放在一個藍色的球上」。第三個示例輸入的 Prompt 為「在月球上,一名宇航員騎著一頭牛,穿著粉色芭蕾裙,手拿著藍色傘。牛的右邊是一隻戴著高頂帽的企鵝。底部寫著文字 “HiDream.Al”」。同時,影像中嵌入文字的生成更加準確、高效,這一海報或營銷文案中使用比較多的功能得到加強。在技術實現上,生成影像中嵌入文字需要大模型深刻理解輸入的 Prompt 中視覺外觀描述和精準文字內容,從而在保證影像整體美感和藝術性的同時實現對文字內容的精準刻畫。在接受機器之心的專訪時,智象未來 CTO 姚霆博士提到,對於此類任務,以往版本很多時候無法生成,即便能生成也存在問題,在生成的字元或者準確性上都有欠缺。現在這些問題得到了很好地解決,智象大模型實現了影像中長文字的嵌入生成,最多可以做到幾十個單詞。下面從左到右三個生成示例展示出了很好的文字嵌入效果,尤其是圖右準確無誤地嵌入了二十幾個單詞及標點符號。可以說,此次智象大模型的文生圖功能在行業中實現了行業引領的效果,為影片生成打下了關鍵的牟定基礎。如果說升級後的智象大模型 2.0 在文生圖方向做到了穩紮穩打,那麼在文生影片方向則迎來了跨越式突破。去年 12 月,智象大模型的文生影片打破了 4 秒時長限制,做到了支援 15 秒鐘以上的生成時長。半年過去了,文生影片在時長、畫面自然度、內容和角色一致性上均有顯著提升,而這要歸功於其自研了一套成熟的 DiT 架構。相較於 U-Net,DiT 架構靈活度更高,且能增強影像、影片的生成質量。Sora 的出現更直觀地驗證了這一點,採用此類架構的擴散模型表現出了天然生成高質量影像和影片的傾向,並在可定製化、生成內容可控性方面具有相對優勢。對於智象大模型 2.0 而言,其採用的 DiT 架構又有一些獨特的地方。我們知道,DiT 架構的底層實現都是基於 Transformer,智象大模型 2.0 在整個 Transformer 網路結構、訓練資料的構成和訓練策略上採用完全自研的模組,尤其在網路訓練策略上下足了功夫。首先,Transformer 網路結構採用了高效的時空聯合注意力機制,不僅契合了影片兼具空間域和時間域的特徵,而且解決了傳統注意力機制在實際訓練過程中速度跟不上的難題。其次,AI 影片任務中的長鏡頭生成對訓練資料的來源、篩選提出了更高要求。因此,智象大模型最多支援幾分鐘甚至十幾分鍾影片片段的訓練,這樣一來,直接輸出分鐘級時長的影片有了可能。同時,對分鐘級影片內容的描述也是比較困難的事情,智象未來自研了影片描述生成的 Captioning Model,實現了詳細且精準的描述輸出。最後在訓練策略上,由於長鏡頭影片資料有限,因此智象大模型 2.0 使用了不同長度的影片片段,進行影片和圖片資料的聯合訓練,並動態地改變不同長度影片的取樣率,進而完成長鏡頭訓練,同時在訓練時還會根據使用者反饋資料進行強化學習以進一步最佳化模型效能。也因此,更強大自研 DiT 架構為此次文生影片效果的進一步提升提供了技術支撐。現在,智象大模型 2.0 支援生成的影片時長從 15 秒左右提升到了分鐘級,達到了業界較高水平。在影片時長邁入分鐘級之外,可變時長和尺寸也是此次文生影片功能升級的一大看點。當前影片生成模型通常是固定生成時長,使用者無法選擇。智象未來將生成時長的選擇權開放給了使用者,既可以讓他們指定時長,也能夠根據輸入的 Prompt 內容進行動態判斷。如果比較複雜則生成較長影片,比較簡單則生成較短影片,透過這樣一個動態過程來自適應地滿足使用者的創作需求。生成影片的尺寸也可以按需定製,對使用者使用非常友好。此外,整體畫面觀感變得更好,生成影片中物體的動作或運動更加自然流暢,細節渲染更加到位,並支援了 4K 超清畫質。短短半年時間,與以往版本相比,升級後的文生影片功能用「脫胎換骨」來形容也不為過。不過在姚霆博士看來,當前無論是智象未來還是其他同行,影片生成大部分仍處於單鏡頭階段。如果對標自動駕駛領域的 L1 到 L5 階段,文生影片大致處於 L2 階段。此次藉助基模能力的升級,智象未來想要追求更高質量的多鏡頭影片生成,也邁出了探索 L3 階段的關鍵一步。智象未來表示,迭代後的文生影片功能將在 7 月中旬上線使用。大家可以狠狠地期待一波了!成立不到一年半的時間,無論是基礎模型能力的持續迭代,還是文生圖、文生影片實際體驗的提升,智象未來在視覺多模態生成這一方向上走得既穩又快,並收穫了大量 C 端和 B 端使用者。我們瞭解到,智象未來 C 端使用者單月訪問量超過了百萬,生成 AI 影像和影片的總數量也超過千萬。低門檻、好應用構成了智象大模型的特質,並基於它打造了最適合社會大眾使用的首款 AIGC 應用平臺。在 B 端,智象未來積極與中國移動、聯想集團、科大訊飛、上影集團、慈文集團、神州數碼、央視網、印象筆記、天工異彩、杭州靈伴等企業達成戰略合作協議,深化模型應用場景,將模型能力延展到包括運營商、智慧終端、影視製作、電子商務、文旅宣傳和品牌營銷在內的更多行業,最終在商業化落地過程中發揮模型潛能並創造價值。目前,智象大模型擁有大約 100 家頭部企業客戶,併為 30000 + 小微企業客戶提供了 AIGC 服務。在智象大模型 2.0 釋出之前,智象未來已經聯合中國移動咪咕集團推出了國民級 AIGC 應用「AI 一語成片」,不僅為普通使用者提供零基礎 AI 影片彩鈴創作功能,還助力企業客戶生成豐富的品牌及營銷影片內容,讓企業擁有屬於自己的彩鈴品牌,讓我們看到了影片生成融合行業場景的巨大潛力。此外,AI 生態也是大模型廠商發力的重要陣地。在這方面,智象未來持開放的態度,聯合聯想集團、科大訊飛、神州數碼等大客戶、小型開發團隊和獨立開發者共建包括影片生成在內的廣泛 AI 生態,覆蓋使用者的更多元化需求。2024 年被視為大模型應用落地元年,對所有廠商來說都是關鍵的發展節點。智象未來正在圍繞更強大的基模能力做深文章。一方面,在統一的框架中強化影像、影片、3D 多模態的理解與生成能力,比如在影片生成領域繼續最佳化底層架構、演算法、資料以求得時長、質量上的更大突破,成為推動未來通用人工智慧的不可或缺的一部分;另一方面在使用者體驗、創新應用、行業生態等多個方向發力,擴大自身的行業影響力。搶佔影片生成賽道的高地,智象未來已經做好了充足準備。