2024年6月計算機視覺論文推薦:擴散模型、視覺語言模型、影片生成等

deephub發表於2024-06-23

6月還有一週就要結束了,我們今天來總結2024年6月上半月發表的最重要的論文,重點介紹了計算機視覺領域的最新研究和進展。

Diffusion Models

1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

LlamaGen,是一個新的影像生成模型,它將原始的大型語言模型的“下一個標記預測”正規化應用於視覺生成領域。傳統的自迴歸模型,如Llama,在視覺訊號上沒有歸納偏差,如果適當縮放,可以達到最先進的影像生成效能。論文LLM服務框架在最佳化影像生成模型的推理速度方面的有效性,並實現了326% - 414%的加速。

https://arxiv.org/abs/2406.06525

2、Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

基於人類偏好的現代對齊技術,如RLHF和DPO,通常採用相對於參考模型的散度正則化來確保訓練的穩定性。但這通常限制了模型在對齊過程中的靈活性,特別是當偏好資料和參考模型之間存在明顯的分佈差異時。

論文將重點放在最近的文字到影像擴散模型的對齊上,例如穩定擴散XL (SDXL),並發現由於視覺模式的非結構化性質,這種“參考不匹配”確實是對齊這些模型時的一個重要問題:例如,對特定風格方面的偏好很容易導致這種差異。

基於這一觀察結果,提出了一種新的、記憶友好的擴散模型偏好對齊方法,該方法不依賴於任何參考模型,稱為邊緣感知偏好最佳化(MaPO)。

https://arxiv.org/abs/2406.06424

3、MLCM: Multistep Consistency Distillation of Latent Diffusion Model

將大型潛在擴散模型提煉成快速取樣的模型正引起越來越多的研究興趣。大多數現有的方法都面臨著兩難的境地,它們要麼(i)依賴於不同取樣預算的多個單獨的蒸餾模型,要麼(ii)以有限的(例如,2-4)和/或適度的取樣步驟犧牲生成質量。

為了解決這些問題,論文將最近的多步一致性蒸餾(MCD)策略擴充套件到具有代表性的ldm,建立了用於低成本高質量影像合成的多步潛在一致性模型(MLCMs)方法。由於MCD的前景,MLCM可以作為各種取樣步驟的統一模型。

https://arxiv.org/abs/2406.05768

4、AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

擴散模型因其在各種應用程式中的強大生成能力而引起了社群的極大興趣。但是它們典型的多步順序去噪特性導致了高累積延遲,從而排除了平行計算的可能性。

為了解決這個問題,論文引入了AsyncDiff,這是一個通用的即插即用加速方案,可以跨多個裝置實現模型並行。我們的方法將繁瑣的噪聲預測模型分成多個元件,並將每個元件分配給不同的裝置。

該策略顯著降低了推理延遲,同時對生成質量的影響最小。具體來說,對於SD v2.1, AsyncDiff在四個NVIDIA A5000 gpu上實現了2.7倍的加速,CLIP分數僅略微降低0.38。

https://arxiv.org/abs/2406.06911

5、Simple and Effective Masked Diffusion Language Models

雖然擴散模型在生成高質量影像方面表現出色,但先前的工作報告了語言建模中擴散和自迴歸(AR)方法之間的顯著效能差距。

論文證明了簡單的掩蔽離散擴散比以前認為的更高效。應用了一個有效的訓練配方,提高了掩蔽擴散模型的效能,並推導了一個簡化的、rao - blackwell化的目標,從而帶來了額外的改進。

https://arxiv.org/abs/2406.07524

6、Neural Gaffer: Relighting Any Object via Diffusion

單影像光源重建是一項具有挑戰性的任務,涉及幾何,材料和照明之間複雜的相互作用推理。許多先前的方法要麼只支援特定類別的影像,比如人像,要麼需要特殊的捕捉條件,比如使用手電筒。

論文提出了一種新的端到端2D重光照擴散模型,稱為神經光柵,該模型採用任何物體的單張影像,並可以在任何新的環境光照條件下合成準確、高質量的重光照影像,只需在目標環境地圖上調節影像生成器,而無需明確的場景分解。

我們的方法建立在一個預訓練的擴散模型上,並在一個合成的重照明資料集上對其進行微調,揭示和利用擴散模型中存在的對照明的固有理解。我們在合成和原始的網際網路影像上評估了我們的模型,並證明了它在泛化和準確性方面的優勢。

https://arxiv.org/abs/2406.07520

7、Understanding Hallucinations in Diffusion Models through Mode Interpolation

基於擴散過程的影像生成模型經常被認為表現出“幻覺”,即訓練資料中永遠不會出現的樣本。但是這些幻覺是從哪裡來的呢?本文研究擴散模型中一種特殊的失效模式,稱之為模態插值。

具體來說,論文發現擴散模型在訓練集中的附近資料模式之間平滑地“插值”,可以生成完全不在原始訓練分佈支援範圍內的樣本;這種現象導致擴散模型產生了真實資料中從未存在過的內容(即幻覺)。

透過對各種形狀的人工資料集的實驗,論文展示了幻覺如何導致從未存在過的形狀組合的產生。最後證明了擴散模型實際上知道他們什麼時候產生幻覺。

https://arxiv.org/abs/2406.09358

8、Hierarchical Patch Diffusion Models for High-Resolution Video Generation

擴散模型在影像和影片合成中表現出了顯著的效能。但是將它們擴充套件到高解析度的輸入是具有挑戰性的,並且需要將擴散管道重組為多個獨立的元件,這限制了可擴充套件性,並使下游應用複雜化。

論文以兩種原則方式改進pdm,這使得它在訓練期間非常高效,並解鎖了高解析度影片的端到端最佳化。

1、為了加強補丁之間的一致性,開發了深度上下文融合——一種以分層方式將上下文資訊從低規模補丁傳播到高規模補丁的架構技術。

2、為了加速訓練和推理,提出了自適應計算,它將更多的網路容量和計算分配給粗糙的影像細節。結果模型在UCF-101 256²上的類條件影片生成中設定了新的最先進的FVD得分為66.32,Inception得分為87.68,超過了最近的方法100%以上。

https://arxiv.org/abs/2406.07792

9、Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

本文透過整合一種新的多解析度網路和時變層歸一化,對擴散模型進行了創新的增強。

雖然傳統方法依賴於卷積U-Net架構,但最近基於transformer的設計已經展示了卓越的效能和可擴充套件性。然而,對輸入資料進行標記化(透過“補丁化”)的Transformer體系結構面臨著視覺保真度和計算複雜性之間的權衡,這是由於涉及標記長度的自注意力操作的二次性質。

雖然更大的補丁尺寸可以提高注意力計算效率,但它們難以捕捉細粒度的視覺細節,從而導致影像失真。為了應對這一挑戰,論文提出用多解析度網路(DiMR)來增強擴散模型,這是一個跨多個解析度細化特徵的框架,從低解析度到高解析度逐步增強細節。

還引入了時間相關層歸一化(TD-LN),這是一種引數高效的方法,將時間相關引數納入層歸一化,以注入時間資訊並獲得卓越的效能。

https://arxiv.org/abs/2406.09416

10、DiTFastAttn: Attention Compression for Diffusion Transformer Models

Diffusion transformer, DiT在影像和影片生成方面表現優異,但由於自注意力的二次複雜度而面臨計算挑戰。論文提出了一種新的訓練後壓縮方法DiTFastAttn來緩解DiT的計算瓶頸。

確定了DiT推理過程中注意力計算中的三個關鍵冗餘:

空間冗餘,即許多注意力集中在區域性資訊上。

時間冗餘,相鄰步驟的注意力輸出高度相似。

條件冗餘,其中條件和無條件推理表現出顯著的相似性。

為了解決這些冗餘問題,提出了三種技術:

視窗注意與殘差快取,以減少空間冗餘。

時間相似性減少,利用步驟之間的相似性。

條件冗餘消除,跳過條件生成過程中的冗餘計算。

為了證明DiTFastAttn的有效性,論文將其應用於DiT, PixArt-Sigma用於影像生成任務,以及openora用於影片生成任務。評估結果表明,對於影像生成,減少了高達88%的flop,並在高解析度生成時實現了高達1.6倍的加速。

https://arxiv.org/abs/2406.08552

Vision Language Models (VLMs)

1、An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

這篇文章我們已經介紹過了,就是Pixel Transformer

2、OpenVLA: An Open-Source Vision-Language-Action Model

VLAs在機器人領域的廣泛採用一直具有挑戰性

現有的vla基本上是封閉的,無法向公眾開放,先前的工作未能探索針對新任務有效微調VLAs的方法,這是採用的關鍵組成部分。

為了解決這些挑戰,論文介紹了OpenVLA,這是一個7b引數的開源VLA,在970k個真實世界機器人演示的不同集合上進行了訓練。OpenVLA建立在Llama 2語言模型的基礎上,結合了一個視覺編碼器,該編碼器融合了DINOv2和SigLIP的預訓練特徵。

作為增加資料多樣性和新模型元件的產物,OpenVLA在通才操作方面顯示出強大的結果,在29個任務和多個機器人實施例中的絕對任務成功率優於RT-2-X (55B)等封閉模型16.5%,引數減少了7倍。

https://arxiv.org/abs/2406.09246

3、Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

論文提出了一個新的評估文字到影像(T2I)生成模型生成符合現實生活中常見影像的能力的任務和基準,Commonsense-T2I

給定兩個對抗性的文字提示,包含一組相同的動作詞,但差異很小,比如“一個沒有電的燈泡”和“一個有電的燈泡”,模型是否可以進行視覺常識推理,例如,相應地產生適合“燈泡未亮”和“燈泡亮”的影像。

資料集由專家精心手工管理,並使用細粒度標籤(如常識型別和預期輸出的可能性)進行註釋,以幫助分析模型行為。

論文對各種最先進的(SOTA) T2I模型進行了基準測試,令人驚訝地發現,影像合成與真實照片之間仍然存在很大差距——即使DALL-E 3模型在Commonsense-T2I上也只能達到48.92%,而SDXL模型也只能達到24.92%的精度。

https://arxiv.org/abs/2406.07546

4、MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

MuirBench是一個專注於多模式llm的魯棒多影像理解能力的的基準。MuirBench由12個不同的多影像任務(例如,場景理解,排序)組成,涉及10類多影像關係(例如,多檢視,時間關係)。

MuirBench由11,264張影像和2,600個選擇題組成,以成對的方式建立,其中每個標準例項與具有最小語義差異的無法回答的變體配對,以便進行可靠的評估。

透過對20個最近的多模態llm進行評估,即使是像gpt - 40和Gemini Pro這樣表現最好的模型,也很難解決MuirBench問題,準確率分別達到68.0%和49.3%。

https://arxiv.org/abs/2406.09411

Image Generation & Editing

1、GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement

論文提出了一種基於多檢視影像的三維網格重建方法。這個方法從大型重建模型(如LRM)中獲得靈感,該模型使用基於Transformer的三平面生成器和在多檢視影像上訓練的神經輻射場(NeRF)模型。

https://arxiv.org/abs/2406.05649

2、IllumiNeRF: 3D Relighting without Inverse Rendering

論文提出了一種更簡單光源合成方法:首先使用光照條件下的影像擴散模型重新為每個輸入影像打光,然後用這些重新光照影像重建神經輻射場(NeRF),從這些影像中在目標光照下呈現新的檢視。這個方法再多個基準測試中取得了最先進的結果。

https://arxiv.org/abs/2406.06527

3、Unified Text-to-Image Generation and Retrieval

論文探索了mlm的內在判別能力,並引入了一種生成檢索方法,以不需要訓練的方式進行檢索。隨後,我們以自迴歸生成的方式將生成和檢索統一起來,並提出了一個自主決策模組,在生成的影像和檢索到的影像之間選擇最匹配的影像作為文字查詢的響應。

https://arxiv.org/abs/2406.05814

4、An Image is Worth 32 Tokens for Reconstruction and Generation

生成模型的最新進展突出了影像標記化在高效合成高解析度影像中的關鍵作用。與直接處理畫素相比,將影像轉換為潛在表示的標記減少了計算量,提高了生成過程的有效性和效率。

先前的方法,如VQGAN,通常使用具有固定下采樣因子的二維潛在網格。但是這些二維標記化在管理影像中存在的固有冗餘方面面臨挑戰,其中相鄰區域經常顯示相似性。

為了克服這個問題,論文引入了一種基於transformer的一維標記器(TiTok),這是一種將影像標記為一維潛在序列的創新方法。TikTok提供了更緊湊的潛在表示,產生比傳統技術更高效和有效的表示。

例如,一個256 x 256 x 3的影像可以減少到32個離散的標記,與之前的方法獲得的256或1024個標記相比,這是一個顯著的減少。儘管它的性質緊湊,但TiTok以最先進的方法實現了競爭效能。使用相同的生成器框架,TiTok獲得了1.97 gFID,在ImageNet 256 x 256基準測試中顯著優於MaskGIT基線4.21。

當涉及到更高的解析度時,TiTok的優勢變得更加明顯。在ImageNet 512 x 512基準測試中,TiTok不僅優於最先進的擴散模型DiT-XL/2 (gFID 2.74 vs. 3.04),而且還將影像標記減少了64倍,從而使生成過程加快了410倍。

https://arxiv.org/abs/2406.07550

5、Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

論文提出了一種有效的方法來構建資料集,用於主題驅動的編輯和生成的方法Toffee。

資料集構建不需要任何主題級別的微調。在預訓練兩個生成模型後,能夠生成無限數量的高質量樣本。並構建了第一個用於主題驅動的影像編輯和生成的大規模資料集,其中包含500萬影像對,文字提示和掩碼。

這個資料集是之前最大資料集的5倍,但成本卻降低了數萬個GPU小時。為了測試所提出的資料集,論文還提出了一個能夠進行主題驅動的影像編輯和生成的模型。透過簡單地在資料集上訓練模型,它得到了有競爭力的結果,說明了資料集構建框架的有效性。

https://arxiv.org/abs/2406.09305

Video Understanding Generation

1、Vript: A Video Is Worth Thousands of Words

多模態學習的進步,需要高質量的影片文字資料集來提高模型效能。Vript透過精心註釋的12K高解析度影片語料庫解決了這個問題,為超過420K的片段提供了詳細、密集和類似指令碼的字幕。

每個片段都有一個約145字的標題,比大多數影片文字資料集長10倍以上。與之前資料集中只記錄靜態內容的字幕不同,不僅記錄了內容,還記錄了攝像機操作,包括鏡頭型別(中景、特寫等)和攝像機運動(平移、傾斜等),從而將影片字幕增強為影片指令碼。

https://arxiv.org/abs/2406.06040

2、MotionClone: Training-Free Motion Cloning for Controllable Video Generation

基於運動的可控文字到影片生成涉及到控制影片生成的運動。以前的方法通常需要訓練模型來編碼運動線索或微調影片擴散模型。

當這些方法應用於訓練域之外時,往往會導致次優運動生成。論文提出了MotionClone,這是一個無需訓練的框架,可以從參考影片克隆運動來控制文字到影片的生成。

大量的實驗表明,MotionClone在全域性攝像機運動和區域性物體運動中都表現得很熟練,在運動保真度、文字對齊和時間一致性方面具有顯著的優勢。

https://arxiv.org/abs/2406.05338

3、MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

多模態語言語言模型(mllm)展示了“世界模型”的新興能力——解釋和推理複雜的現實世界動態。為了評估這些能力,論文假設影片是理想的媒介,因為它們包含了現實世界動態和因果關係的豐富表示。然後推出MMWorld,這是一個多學科、多面、多模態影片理解的新標杆。

MMWorld由一個人工註釋的資料集和一個合成資料集組成,前者用於評估帶有整個影片問題的mllm,後者用於分析單一感知模態下的mllm。MMWorld總共包含1,910個影片,跨越7個大學科和69個子學科,完成6,627對問答和相關字幕。

https://arxiv.org/abs/2406.08407

4、NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior to Video Editing

論文提出了一個影片編輯框架NaRCan,它整合了混合變形場和擴散,然後生成高質量的自然規範影像來表示輸入影片。

利用單應性來建模全域性運動,並使用多層感知器(mlp)來捕獲區域性殘餘變形,增強模型處理複雜影片動態的能力。

透過在訓練的早期階段之前引入擴散,模型可以確保生成的影像保持高質量的自然外觀,使生成的規範影像適合影片編輯中的各種下游任務,這是當前基於規範的方法無法實現的功能。

另外還結合了低秩自適應(LoRA)微調,並引入了噪聲和擴散先驗更新排程技術,將訓練過程加快了14倍。大量的實驗結果表明,在各種影片編輯任務中優於現有的方法,併產生連貫和高質量的編輯影片序列。

https://arxiv.org/abs/2406.06523

5、TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation

論文提出了TC-Bench,這是一個精心製作的文字提示、相應的真實影片和穩健評估指標的基準。

提示明確了場景的初始和最終狀態,有效地減少了框架開發的模糊性,並簡化了轉換完成的評估。

透過收集與提示相對應的對齊的真實世界影片,將TC-Bench的適用性從文字條件模型擴充套件到可以執行生成幀插值的影像條件模型。論文還開發了新的指標來衡量生成影片中元件轉換的完整性,與現有指標相比,這些指標與人類判斷的相關性明顯更高。

https://arxiv.org/abs/2406.08656

https://avoid.overfit.cn/post/d279d7b4b6c14bbb91de0d8fd786ecd8

作者:Youssef Hosni

相關文章