CVPR 2022|達摩院開源低成本大規模分類框架FFC

机器之心發表於2022-12-09

CVPR 2022|達摩院開源低成本大規模分類框架FFC


論文連結:https://arxiv.org/pdf/2105.10375.pdf


應用 & 程式碼:


  • https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
  • https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary


背景


影像分類是當前 AI 最為成功的實際應用技術之一,已經融入了人們的日常生活。被廣泛應用於計算機視覺的大部分任務中,比如影像分類、影像搜尋、OCR、內容稽核、識別認證等領域。目前已形成一個普遍共識:“當資料集越大 ID 越多時,只要訓練得當,相應分類任務的效果就會越好”。但是當面對千萬 ID 甚至上億 ID 時,當下流行的 DL 框架,很難低成本的直接進行如此超大規模的分類訓練。


解決該問題最直觀的方式是透過叢集的方式消耗更多的顯示卡資源,但即便如此,海量 ID 下的分類問題,依然會有如下幾個問題:


1.)成本問題:分散式訓練框架 + 海量資料情況下,記憶體開銷、多機通訊、資料儲存與載入都會消耗更多的資源。

2.)長尾問題:實際場景中,當資料集達到上億 ID 時,往往其絕大部分 ID 內的圖片樣本數量會很少,資料長尾分佈非常明顯,直接訓練難以獲得較好效果。


本文餘下章節將重點介紹超大規模分類框架現有解決方案,以及低成本分類框架 FFC 的相應原理及 trick 介紹。


方法


在介紹方法之前,本文首先回顧了當前超大規模分類存在的主要挑戰點:


挑戰點 1:成本居高不下


ID 數目越大分類器視訊記憶體需求越大,如下示意圖所示:


CVPR 2022|達摩院開源低成本大規模分類框架FFC


視訊記憶體越大所需機器卡數越多,成本也就越高,相應多機協同的硬體基礎設施成本也越高。與此同時,當分類 ID 數目達到極超大規模的時候,主要計算量將浪費在最後一層分類器上,骨架網路消耗的時間可忽略不計。


挑戰點 2:長尾學習困難


在實際場景下,上億 ID 中的絕大部分 ID 內的圖片樣本數量會很少,長尾資料分佈非常明顯,直接訓練難以收斂。如果按照同等權重訓練,則長尾樣本會被淹沒學習不充分。此時,一般採用 imbalanced sample,在這個研究課題上,有非常多的方法可以借鑑,採取怎樣的方式融入到簡易超大規模分類框架上較為合適呢?


帶著上述兩個挑戰點,首先來看下現有可行的方案有哪些,是否能很好的解決上述兩個挑戰。


可行方法 1:度量學習


CVPR 2022|達摩院開源低成本大規模分類框架FFC


可行方法 2:PFC 框架


CVPR 2022|達摩院開源低成本大規模分類框架FFC


可行方法 3:VFC 框架


CVPR 2022|達摩院開源低成本大規模分類框架FFC


本論文方法:FFC 框架


大規模分類採用 FC 訓練時損失函式如下:


CVPR 2022|達摩院開源低成本大規模分類框架FFC


在每一次反傳過程中,所有的類中心都會更新:


CVPR 2022|達摩院開源低成本大規模分類框架FFC

但 FC 太大了,直觀的思路是合理地選擇一定比例的類中心,即如下 Vj 為 1 部分:


CVPR 2022|達摩院開源低成本大規模分類框架FFC


由上述動機,引出瞭如下初步的方案:


CVPR 2022|達摩院開源低成本大規模分類框架FFC


首先,為了解決長尾帶來的影響,本文引入兩個 loaders,分別是基於 id 取樣的 id_loader 和基於樣本取樣的 instance_loader,有了這兩個 loader。在每個 epoch 當中,樣本多的類和樣本少的(few-shot)類能夠有機會被訓練到。


其次,在訓練開始之前,先將一部分樣本送入 id group,這裡假設放入 10% id 的樣本進入 group。這時候 gallery 用的是隨機引數。


然後,訓練開始時,batch 樣本挨個進入 probe net。然後對於每個 batch 裡面的樣本就有兩種情況:1.)group 中存在此樣本同樣 id 的特徵,2.)group 中不存在同類樣本的特徵。對於這兩種情況,分別稱之為 existing id 和 fresh id。對於 existing 的樣本,用特徵和 group 裡面的特徵做內積,計算與標籤的交叉熵損失函式,後回傳。對於 fresh 的樣本,與 group 裡面的樣本進行最小化餘弦相似度。


最後,對 group 裡面特徵更新,採取新類中心替換,依據現有類中心加權的原則。對於 gallery net,採用 moving average 策略把 probe 裡面的引數漸漸更新進去。


本論文方法:trick 介紹


1.)引入的 ID Group,其 size 是個可調引數,一般預設為 3 萬。

2.)為達到穩定訓練,參考 moco 類方法,引入 moving average,相應收斂情況分別為:

CVPR 2022|達摩院開源低成本大規模分類框架FFC


實驗結果


1. 雙 Loader 消融實驗


CVPR 2022|達摩院開源低成本大規模分類框架FFC


2. SOTA 方法效果對比


CVPR 2022|達摩院開源低成本大規模分類框架FFC


3. 視訊記憶體與樣本吞吐對比


CVPR 2022|達摩院開源低成本大規模分類框架FFC

相關文章