最近,又一款國產 AI 神器吸引了眾網友和圈內研究人員的關注!它就是全新的影像和影片生成控制工具 —— ControlNeXt,由思謀科技創始人、港科大講座教授賈佳亞團隊開發。從命名來看,ControlNeXt 「致敬」了史丹佛大學研究團隊在 2023 年 2 月提出的 ControlNet,透過引入一些額外的控制訊號,讓預訓練的影像擴散模型(如 Stable Diffusion)根據預設的條件調整和最佳化,實現線稿生成全綵圖,還能做語義分割、邊緣檢測、人體姿勢識別。如果說 ControlNet 開啟了大模型多樣化玩法的先河,那麼 ControlNeXt 在生成速度、精準控制和使用者友好性等方面迎來全方位最佳化。重要的是,ControlNeXt 只用不到 ControlNet 10% 的訓練引數,可以稱得上是下一代「小鋼炮版」ControlNet 了。截至目前,ControlNeXt 相容了多款 Stable Diffusion 家族影像生成模型(包括 SD1.5、SDXL、SD3),以及影片生成模型 SVD。並且,ControlNeXt 對這些模型都做到即插即用,無需額外配置便能輕鬆玩轉各種控制指令,便捷性拉滿。該專案的 GitHub 星標已達 1.1k。專案地址:https://github.com/dvlab-research/ControlNeXt實戰效果究竟如何?下面一波 ControlNeXt 的 Demo 示例會給我們答案。ControlNeXt 支援 Canny(邊緣)條件控制,在 SDXL 中,透過提取下圖(最左)輸入影像的 Canny 邊緣,輸出不同風格的影像。ControlNeXt 還支援掩模(mask)和景深(depth)條件控制,下圖分別為 SD 1.5 中掩模與景深可控生成效果,很有一筆成畫的味道。同樣在 SD 1.5 中,ControlNeXt 支援姿勢(pose)條件控制,並且無需訓練即可無縫整合各種 LoRA 權重。配合使用人體姿勢控制與 LoRA,在保持動作相同的前提下,多樣風格的人物呼之欲出,比如戰士(Warrior)、原神(Genshin)、國畫(Chinese Painting)和動畫(Animation)。使用 ControlNeXt 後,SD3 支援了超解析度(SR),讓模糊影像「變身」超高畫質畫質。在影片生成模型 SVD 中,ControlNeXt 實現了對人體姿勢動作的整體控制,尤其連手指動作的模仿都非常精準。不誇張的說,在視覺條件生成這塊,ControlNeXt 成為了更全能的「選手」。它的亮眼視效折服了網友,甚至有人認為「ControlNeXt 是遊戲改變者,在可控影像和影片生成方面表現出色,可以想象未來社群會拿它做更多二創工作。」而 ControlNeXt 體驗全方位提升的背後,離不開賈佳亞團隊在輕量級條件控制模組設計、控制注入位置和方式的選擇、交叉歸一化技術的使用等多個方面的獨到思路。正是有了這些創新,才帶來了 ControlNeXt 訓練引數、計算開銷和記憶體佔用的全面「瘦身」,以及模型訓練收斂和推理層面的「提速」。在剖析 ControlNeXt 有哪些創新之前,我們先來了解一下當前可控生成方法的不足,這樣更能看到賈佳亞團隊在架構上「有的放矢」的最佳化。以 ControlNet、T2I-Adapter 等典型方法為例,它們透過新增並行分支或介面卡來處理和注入額外條件。接下來與去噪主分支並行處理輔助控制以提取細粒度特徵,利用零卷積和交叉注意力來整合條件控制並指導去噪過程。這些操作往往會帶來計算成本和訓練開銷的顯著增加,甚至導致 GPU 記憶體增加一倍,還需要引入大量新的訓練引數。尤其針對影片生成模型,需要重複處理每個單獨幀,挑戰更大。賈佳亞團隊首先要做的便是架構層面的剪枝。他們認為,預訓練的大型生成模型已經足夠強大,無需引入大量額外引數來實現控制生成能力。ControlNeXt 移除 ControlNet 中龐大的控制分支(control branch),改而使用由多個 ResNet 塊組成的輕量級卷積模組。該模組的規模比預訓練模型小得多,用於從控制條件中提取景深、人體姿勢骨骼、邊緣圖等特徵表示,並與去噪特徵對齊。過程中更多依賴模型本身來處理控制訊號,在訓練期間凍結大部分預訓練模組,並有選擇性地最佳化模型的一小部分可學習引數,最大程度降低訓練過程中可能出現的遺忘風險。從結果來看,在適配 SD、SDXL、SVD 等預訓練模型時,ControlNeXt 的訓練引數量通常不及 ControlNet 的 10%,計算開銷和記憶體佔用大大降低。ControlNeXt 在 SD 1.5、SDXL 和 SVD 中的可學習引數量分別為 3000 萬、1.08 億和 5500 萬,相較於 ControlNet 有了數量級減少(3.61 億、12.51 億和 6.82 億)。同時輕量級模組的引入使得 ControlNeXt 在推理階段不會出現明顯的延遲,因而生成速度會更快。如下圖所示,在 SD 1.5、SDXL 和 SVD 模型中,ControlNeXt 的推理時間更短,相較於 ControlNet 更具效率優勢。另一方面,ControlNeXt 在控制條件的注入層面做了創新。他們觀察到,在大多數可控生成任務中,條件控制的形式往往很簡單或與去噪特徵保持高度一致,因而沒有必要在去噪網路的每一層重複注入控制資訊。賈佳亞團隊選擇在網路中間層聚合並對齊條件控制特徵與去噪特徵,這裡用到了關鍵的交叉歸一化(Cross Normalization)技術。該技術讓 ControlNeXt 不用像傳統方法那樣利用零初始化來引入額外學習引數,還解決了初始化階段的訓練不穩定性和收斂速度慢等問題。得益於交叉歸一化,ControlNeXt 的訓練速度得到提升,並在訓練初期也能確保生成控制的有效性,降低對網路權重初始化的敏感度。從下圖可以看到,ControlNeXt 實現了更快的訓練收斂和資料擬合,只需要 400 步左右便開始收斂。相比之下,ControlNet 則需要走完十倍甚至幾十倍的訓練步數。可以說,ControlNeXt 很好解決了以往可控生成方法存在的較高計算成本、GPU 記憶體佔用和推理時延,用更少引數、更低成本實現了與以往方法相當甚至更好的控制效果和泛化效能。而跳出此次研究本身,ControlNeXt 也是過去兩年賈佳亞團隊努力方向的寫照,他們致力於拿少引數、少算力來深挖大模型潛能。這顯然與當前大模型領域的「摩爾定律」Scaling Law 走的是不同的路,後者通常憑藉大引數、大資料和大算力來提升模型效能。當前,Scaling Law 仍然在發揮著作用,透過「加碼」引數、資料和算力來增效是大多數圈內玩家的主流做法,OpenAI 的 GPT 系列模型是其中的典型代表,對大模型領域產生了深遠的影響。隨之而來的是更高的訓練成本、更多的資料和計算資源,這些不會對財力雄厚的大廠們造成太多壓力。但對那些預算相對不足的科研機構和個人開發者而言,挑戰很大,尤其是當下 GPU 顯示卡還越來越貴。其實,拼 Scaling Law 並不是模型提效的唯一途徑,從長期看也有侷限性。很多業內人士認為,隨著時間推移,當模型引數規模達到一定程度時,效能提升速度可能會放緩。同時高質量訓練資料的持續獲取也是亟需解決的一大難題。今年 6 月,普林斯頓大學電腦科學系教授 Arvind Narayanan 等二人在他們的文章《AI scaling myths》中表示 AI 行業正經歷模型規模下行的壓力,過去一年大部分開發工作落在了小模型上,比如 Anthropic 的 Claude 3.5 Sonnet、谷歌的 Gemini 1.5 Pro,甚至 OpenAI 也推出了 GPT-4o mini,引數規模雖小、效能同樣強大且更便宜。賈佳亞團隊秉持類似理念,沒有選擇無限堆資料、引數和算力的傳統做法。2024 世界機器人大會上,賈佳亞在接受採訪時談到了 Scaling Law,他表示在自己團隊的研究中不會對它進行明確的定義,使用 1 萬張卡訓練出來的模型或系統不一定就比 5000 張卡訓練出的更好。賈佳亞認為應該更多地在模型演算法層面進行創新,在工程層面最大程度地提高 GPU 顯示卡的利用率、降低功耗,力求用更少的計算量達到同樣的效果。同時關注偏垂類的行業和場景,透過持續的技術迭代,把算力等資源投入集中在一點,將某個領域的模型做得更精、更專,而不像其他玩家那樣耗巨資開發超大規模通用大模型。包括 ControlNeXt 在內,不盲從 Scaling Law 的思路已經在賈佳亞團隊過去兩年的系列成果中得到了充分驗證,覆蓋了多模態大模型、超長文字擴充套件技術和視覺語言模型等多個研究方向。2023 年 8 月,賈佳亞團隊提出 LISA,解鎖多模態大模型「推理分割」能力。LISA 只需要在 8 張 24GB 視訊記憶體的 3090 顯示卡上進行 10000 次迭代訓練,即可完成 70 億引數模型的訓練。結果表明,LISA 在訓練中僅使用不包含複雜推理的分割資料,就能在推理分割任務上展現出優異的零樣本泛化能力,並在使用額外的推理分割資料微調後讓分割效果更上一個臺階。LISA 的成功只是少算力探索的牛刀小試,賈佳亞團隊在 2023 年 10 月提出了超長文字擴充套件技術 LongLoRA,在單臺 8x A100 裝置上,LongLoRA 將 LLaMA2 7B 從 4k 上下文擴充套件到 100k, LLaMA2 70B 擴充套件到 32k。LongLoRA 還被接收為 ICLR 2024 Oral。
在餵給 LongLoRA 加持的 Llama2-13B 超長篇幅的科幻鉅著《三體》後,它可以為你詳細總結「史強對整個人類社會的重要性」。
該團隊還於 2023 年 12 月提出 LLaMA-VID,旨在解決視覺語言模型在處理長影片時因視覺 token 過多導致的計算負擔,透過將影片中每一幀影像的 token 數壓縮到了 2 個,實現了單圖之外短影片甚至 3 小時時長電影的輸入處理。
LLaMA-VID 被 ECCV 2024 接收。此外,賈佳亞團隊還提供了 LLaMA-VID 試用版本,由單個 3090 GPU 實現,支援 30 分鐘的影片處理。感興趣的小夥伴可以嘗試一下。
今年 4 月,賈佳亞團隊又提出了 Mini-Gemini,從高畫質影像精確理解、高質量資料集、結合影像推理與生成三個層面挖掘視覺語言模型的潛力。
為了增強視覺 token,Mini-Gemini 利用額外的視覺編碼器來做高解析度最佳化。同時僅使用 2-3M 資料,便實現了對影像理解、推理和生成的統一流程。實驗結果表明,Mini-Gemini 在各種 Zero-shot 的榜單上毫不遜色各大廠用大量資料堆出來的模型。
在延續谷歌 Gemini 識別圖片內容並給出建議的能力基礎上,Mini-Gemini 還能生成一隻對應的毛絨小熊
對於開源社群最大的好訊息是,Mini-Gemini 的程式碼、模型和資料全部開源,讓開發者們體驗「GPT-4 + Dall-E 3」的強大組合。賈佳亞透露,Mini-Gemini 第二個版本即將到來,屆時將接入語音模組。
得益於開源以及算力需求相對低的特性,賈佳亞團隊的專案在 GitHub 上受到了開發者的廣泛喜愛,LISA、LongLoRA 和 Mini-Gemini 的星標數分別達到了 1.7k、2.6k 和 3.1k。
從 LISA 到最新提出的 ControlNeXt,賈佳亞團隊走穩了少引數、小算力突破這條路。由於計算資源投入不大,這些模型也更容易實現商業化應用落地。
可以預見,未來在持續技術創新的驅動下,我們將看到更多「小而彌堅」的大模型成果出現。