人工智慧領域又一突破!京東探索研究院推出超級深度學習模型ViTAEv2 準確度高達91.2%

京東科技開發者發表於2022-03-29

日前,京東探索研究院聯合悉尼大學提出了更大規模、更優效果、對各類視覺任務具有更好適應性的超級深度學習模型ViTAEv2。值得提及的是,具有6億引數的ViTAEv2模型在不依賴任何外源資料的情況下,斬獲了ImageNet Real資料集分類準確度“世界排名第一”的突出成績,精準高達91.2%,成功重新整理圖片分類技術領域的世界級紀錄。

圖片

一直以來,ImageNet資料集作為目前最大的"影像分類"公開資料集,其識別準確率榜單吸引了包括谷歌、微軟、Facebook等國際頂尖科技公司以及史丹佛大學、麻省理工大學、新加坡國立大學等知名高校在內的關注並參與,其資料指標一度被廣泛應用於衡量計算機視覺技術水平高下的重要標準,影響深遠。

計算機視覺技術作為人工智慧核心科技之一,目的是賦予機器以觀察、感知和理解的能力,而影像分類作為計算機視覺的基礎任務更是被廣泛認知。本次“榜上有名”的ViTAEv2模型採用了“預訓練-微調”正規化,從模型架構和訓練正規化進行突破,充分利用了歸納偏置在大規模模型的有效性,以及與模型結構相適應的預訓練演算法與遷移學習演算法來達成目標效果。

“另外我們還探索了大規模ViTAEv2模型的少樣本學習能力,也就是分別使用1%、10%以及100%的資料對大規模ViTAEv2模型進行微調,結果表明僅使用少量資料,即10%的資料進行微調時,大規模模型效能已顯著優於使用全部資料的規模較小的模型,進一步證實了大規模模型具有很強的少樣本學習能力,這說明超級深度模型具有強大的表徵能力、學習能力和樣本效率。”京東探索研究院方面表示。

此舉充分驗證了ViTAEv2模型有能力幫助解決低資源甚至是零資源下的挑戰性任務,以及降低資料標註成本、加速演算法開發週期、簡化模型部署、賦能和促進新一代自動化學習技術的研發和落地的傑出能力。

值得肯定的是,ViTAEv2模型的優異表現助力京東探索研究院計算機視覺模型水平再上新臺階,後續有望繼續推動一系列視覺任務的發展,例如語義分割、物體檢測、姿態估計、視訊物體分割等。未來,如何從訓練方法、模型架構設計等方向進一步提升ViTAEv2模型的效能並同時降低訓練和推理的成本,是值得進一步探索的研究方向。

相關文章