CVPR 2024 | 位元組提出視覺基礎模型:ViTamin,實現多項SOTA!

CV技术指南(公众号)發表於2024-05-07
前言 視覺語言模型屢屢出現新突破,但ViT仍是影像編碼器的首選網路結構。位元組提出新基礎模型——ViTamin,專為視覺語言時代設計。

本文轉載自量子位(QbitAI)

僅用於學術分享,若侵權請聯絡刪除

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

CV方向的準研究生們,未來三年如何度過?

招聘高光譜影像、語義分割、diffusion等方向論文指導老師

CVPR 2024 | 位元組提出視覺基礎模型:ViTamin,實現多項SOTA!

在使用相同的資料集和訓練方案時,ViTamin在ImageNet零樣本準確率上比ViT提高了2.0%。

此外在分類、檢索、開放詞彙檢測和分割、多模態大語言模型等60個不同基準上都表現出了良好的結果。

當進一步擴充套件引數規模時,ViTamin-XL僅有436M引數,卻達到了82.9%的ImageNet零樣本準確率,超過了擁有十倍引數(4.4B)的EVA-E。

最終這一成果,入選計算機視覺頂會CVPR2024。

視覺語言時代新基準

在視覺語言時代下,如何設計一個更好可擴充套件的視覺模型?

在ImageNet時代,新的視覺模型在ImageNet資料集得以驗證,也造就了不斷有新的視覺模型湧現。但在視覺語言時代,新的視覺模型鮮為人見。

此外,基於現有常見視覺模型,在面對比ImageNet資料規模還大的情況下表現又是如何?研究團隊們測試了幾種常見模型,包括純Transformer的ViT,純卷積網路的ConvNeXt,以及混合卷積和Transformer的CoAtNet。

最終在一個公開的資料集上進行了系統性的訓練和比較,得出了一些關鍵發現:

  • 第一,模型的擴充套件性:由於可擴充套件的自注意力機制,ViT能最好地適應不同規模的任務。
  • 第二,資料的擴充套件性:隨著訓練資料的增加,所有模型的效能都有所提升。
  • 第三,特徵的解析度:在訓練過程中,模型需要理解更廣泛的資訊,而不僅僅是簡單的類別標籤。因此,提取的特徵的解析度對模型的預測能力有很大影響。
  • 第四,混合架構:在一般情況下,CoAtNet表現優於其他模型,但將其擴充套件到處理數十億資料可能會有一些挑戰。

基於這些發現,研究人員設計了ViTamin模型。

它採用了三個階段的混合架構。前兩個階段使用了輕量級的MBConv Blocks,第三個階段包含了可擴充套件的Transformer Blocks。

CVPR 2024 | 位元組提出視覺基礎模型:ViTamin,實現多項SOTA!

具體來說,一張圖片首先經過卷積stem處理,得到2倍降取樣的特徵圖。

然後,這個特徵圖經過第一階段,由兩個MBConv-LN Blocks組成,接著經過第二階段,由四個MBConv-LN Blocks組成,然後降取樣得到16倍降取樣的二維特徵。

接下來,這些特徵被展平成一維,並輸入到第三階段,該階段由N_B個TFB-GeGLU Block組成。最後,透過對比影像特徵和語言特徵,來學習對比損失函式。

作者們致力於簡單有效的scaling law,只考慮模型的寬度C和模型第三階段的深度N_B,因此在scaling到更大的模型中,透過模型的引數規模可以直接反推需要多大的寬度和深度,進而實現模型的scaling。

多項SOTA

在零樣本效能上面,研究結果顯示,ViTamin-L的零樣本ImageNet準確率比ViT-L/14高出了2.0%。

CVPR 2024 | 位元組提出視覺基礎模型:ViTamin,實現多項SOTA!

當將特徵解析度增加到576個patch時,ViTamin-L的準確率進一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38個資料集的平均效能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且引數數量只有ViT-H/14的一半。

此外,當進一步擴大模型規模時,引數量為436M的ViTamin-XL達到了82.9%的ImageNet零樣本準確率,超過了4.4B引數量的EVA-E取得的82.0%。

作者們進一步驗證了ViTamin模型對下游任務而言是個強大的視覺編碼器。

作者們引入了一系列下游任務,包括開放詞彙檢測和分割,以及多模態大模型(LMMs)。

ViTamin在開放詞彙檢測任務OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8個開放詞彙分割任務中,相比ViT-L平均提升了2.6%。

ViTamin能直接遷移到多模態大模型諸如LLaVA上,並在12個多模態問答等基準上表現出色。值得注意的是,ViTamin在7個開放詞彙分割基準上創造了新SOTA。

在這項工作中,作者們建立了主流視覺模型在視覺語言情境下的評估基準,並對它們進行了重新基準測試。作者們從資料可擴充套件性、模型可擴充套件性、特徵解析度和混合架構四個方面考察了主流的視覺模型。

CVPR 2024 | 位元組提出視覺基礎模型:ViTamin,實現多項SOTA!

這四個方面的關鍵發現為ViTamin的設計提供指導,ViTamin模型不僅在零樣本ImageNet準確率和平均38個資料集準確率方面全面超越ViT,而且在包括開放詞彙檢測和分割以及大型多模態模型在內的22個下游任務上達到了最新的技術水平。

論文連結:

專案主頁:

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

計算機視覺入門1v3輔導班

【技術文件】《從零搭建pytorch模型教程》122頁PDF下載

QQ交流群:470899183。群內有大佬負責解答大家的日常學習、科研、程式碼問題。

其它文章

分享一個CV知識庫,上千篇文章、專欄,CV所有資料都在這了

明年畢業,還不知道怎麼做畢設的請抓緊機會了

LSKA注意力 | 重新思考和設計大卷積核注意力,效能優於ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微軟亞洲研究院用知識蒸餾改進小型ViT

ICCV2023|漲點神器!目標檢測蒸餾學習新方法,浙大、海康威視等提出

ICCV 2023 Oral | 突破性影像融合與分割研究:全時多模態基準與多互動特徵學習

聽我說,Transformer它就是個支援向量機

HDRUNet | 深圳先進院董超團隊提出帶降噪與反量化功能的單幀HDR重建演算法

南科大提出ORCTrack | 解決DeepSORT等跟蹤方法的遮擋問題,即插即用真的很香

1800億引數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,效能直逼GPT-4

SAM-Med2D:打破自然影像與醫學影像的領域鴻溝,醫療版 SAM 開源了!

GhostSR|針對影像超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR

Meta推出畫素級動作追蹤模型,簡易版線上可玩 | GitHub 1.4K星

CSUNet | 完美縫合Transformer和CNN,效能達到UNet家族的巔峰!

AI最全資料彙總 | 基礎入門、技術前沿、工業應用、部署框架、實戰教程學習

計算機視覺入門1v3輔導班

計算機視覺交流群

相關文章