Meta AI推出“雜食者”:一個模型搞定影像、視訊和3D資料三大分類任務,效能還不輸獨立模型
豐色 發自 凹非寺
量子位 | 公眾號 QbitAI
最近,Meta AI推出了這樣一個“雜食者” (Omnivore)模型,可以對不同視覺模態的資料進行分類,包括影像、視訊和3D資料。
比如面對最左邊的影像,它可以從深度圖、單視覺3D圖和視訊資料集中搜集出與之最匹配的結果。
這在之前,都要分用不同的模型來實現;現在一個模型就搞定了。
而且Omnivore易於訓練,使用現成的標準資料集,就能讓其效能達到與對應單模型相當甚至更高的水平。
實驗結果顯示,Omnivore在影像分類資料集ImageNet上能達到86.0%的精度,在用於動作識別的Kinetics資料集上能達84.1%,在用於單檢視3D場景分類的SUN RGB-D也獲得了67.1%。
另外,Omnivore在實現一切跨模態識別時,都無需訪問模態之間的對應關係。
不同視覺模態都能通吃的“雜食者”
Omnivore基於Transformer體系結構,具備該架構特有的靈活性,並針對不同模態的分類任務進行聯合訓練。
模型架構如下:
Omnivore會將輸入的影像、視訊和單檢視3D影像轉換為embedding,並饋送到Transformer中。
雖然它可以使用任何vision transformer架構來處理patch embedding,但鑑於Swin transformer在影像和視訊任務上的強大效能,這裡就使用該架構作為基礎模型。
具體來說,Omnivore將影像轉為patch,視訊轉為時空tube(spatio-temporal tube),單檢視3D影像轉為RGB patch和深度patch。
然後使用線性層將patches對映到到embedding中。其中對RGB patch使用同一線性層,對深度patch使用單獨的。
總的來說,就是通過embedding將所有視覺模式轉換為通用格式,然後使用一系列時空注意力(attention)操作來構建不同視覺模式的統一表示。
研究人員在ImageNet-1K資料集、Kinetics-400資料集和SUN RGB-D資料集上聯合訓練出各種Omnivore模型。
這種方法類似於多工學習和跨模態對齊,但有2點重要區別:
1、不假設輸入觀測值對齊(即不假設影像、視訊和3D資料之間的對應關係);
2、也不假設這些資料集共享相同的標籤空間(label space)。
效能超SOTA
實驗方面,首先將Omnivore與各視覺模態對應的特定模型(下表中指Specific)進行比較。
一共有三種不同的模型尺寸:T、S和B。
預訓練模型在七個下游任務上都進行了微調。
影像特定模型在IN1K上預訓練。視訊特定模型和單檢視3D特定模型均使用預訓練影像特定模型的inflation進行初始化,並分別在K400和SUN RGB-D上進行微調。
結果發現,Omnivore在幾乎所有的下游任務上的效能都相當於或優於各特定模型。
其中尺寸最大的Swin-B實現了全部任務上的SOTA。
將Omnivore與具有相同模型架構和引數數量的特定模型比較也是相同的結果。
其中Omnivore在IN1K、K400和SUN資料集上從頭開始聯合訓練,而特定模態的模型針對每個資料集專門訓練:
ImageSwin模型從零開始訓練,VideoSwin和DepthSwin模型則從ImageSwin模型上進行微調。
接下來將Omnivore與影像、視訊和3D資料分類任務上的SOTA模型進行比較。
結果仍然不錯,Omnivore在所有預訓練任務中都表現出了優於SOTA模型的效能(下圖從上至下分別為影像、視訊和3D資料)。
此外,在ImageNet-1K資料集上檢索給定RGB影像的深度圖也發現,儘管Omnivore沒有接受過關於1K深度圖的訓練,但它也能夠給出語義相似的正確答案。
最後,作者表示,儘管這個“雜食者”比傳統的特定模式模型有了很多進步,但它有一些侷限性。
比如目前它僅適用於單檢視3D影像,不適用於其他3D表示,如體素圖(voxels)、點雲圖等。
論文地址:
程式碼已開源:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69971123/viewspace-2853875/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 獨立模型 和分類模型
- 求一個獨立模型的開發示例模型
- 線上等 如何關聯獨立模型 研究了三天還是沒搞定 等大神指教 感謝模型
- [提問交流]獨立模型設定好後,資料怎麼不顯示模型
- Llama 3:Meta新AI模型AI模型
- [提問交流]分類如何繫結獨立模型??模型
- 22個任務超越SOTA,43個任務媲美SOTA,Google推出醫學治療通用大模型Go大模型
- 獨立模型的相關需求模型
- CNN也能用於NLP任務,一文簡述文字分類任務的7個模型CNN文字分類模型
- AI的未來是一個巨大的模型,還是多個specialized小模型AI模型Zed
- 獨立任務最優排程
- 建立獨立模型之後,如何在分類選擇他呢?模型
- 基於Tensorflow影像分類模型的微服務模型微服務
- Ai影像分割模型PaddleSeg——自定義資料集處理AI模型
- Meta AI 開源萬物可分割 AI 模型(SAM)AI模型
- MNN模型輸出與ONNX模型輸出對不上模型
- [提問交流]請問一下,新建的分類如何繫結獨立模型。模型
- [提問交流]獨立模型和文件模型有什麼分別?模型
- 模型越大,表現越差?谷歌收集了讓大模型折戟的任務,還打造了一個新基準谷歌大模型
- 視訊投影(二維視訊投影到三維模型上)模型
- 獨立模型怎麼應用到我新增文章模型
- [BUG反饋]獨立模型-刪除錯誤模型除錯
- 高通釋出獨立AI晶片,搶食推理加速器市場AI晶片
- swift 資料模型Modle類Swift模型
- 如何實現超大場景三維模型資料立體裁剪模型
- OpenAI推出ChatGPT對話式AI模型OpenAIChatGPT模型
- 如何基於模型資料繪製一個3D機器人模型3D機器人
- 短視訊營銷原始碼獨立部署,一站式服務原始碼
- [BUG反饋]升級後獨立模型出錯模型
- [需求建議]跨模型呼叫?分類能呼叫單獨模型?模型
- 立個flag,部落格任務
- 從0開始弄一個面向OC資料庫(四)–複雜資料模型儲存資料庫模型
- 從0開始弄一個面向OC資料庫(四)--複雜資料模型儲存資料庫模型
- 影像轉換3D模型只需5行程式碼,英偉達推出3D深度學習工具Kaolin3D模型行程深度學習
- [提問交流]對onethink 中 獨立模型的改造模型
- 思否獨立開發者丨@盧燦偉:做死三個專案,累到生了一場大病,為何還要做獨立開發者
- AI之父:大模型不僅僅是預測下一個符號AI大模型符號
- VO(檢視模型) 與 DTO(資料傳輸物件)的區別模型物件