論文連結:https://arxiv.org/pdf/2105.10375.pdf
應用 & 程式碼:
https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
背景
影像分類是當前 AI 最為成功的實際應用技術之一,已經融入了人們的日常生活。被廣泛應用於計算機視覺的大部分任務中,比如影像分類、影像搜尋、OCR、內容稽核、識別認證等領域。目前已形成一個普遍共識:“當資料集越大 ID 越多時,只要訓練得當,相應分類任務的效果就會越好”。但是當面對千萬 ID 甚至上億 ID 時,當下流行的 DL 框架,很難低成本的直接進行如此超大規模的分類訓練。
解決該問題最直觀的方式是透過叢集的方式消耗更多的顯示卡資源,但即便如此,海量 ID 下的分類問題,依然會有如下幾個問題:
1.)成本問題:分散式訓練框架 + 海量資料情況下,記憶體開銷、多機通訊、資料儲存與載入都會消耗更多的資源。
2.)長尾問題:實際場景中,當資料集達到上億 ID 時,往往其絕大部分 ID 內的圖片樣本數量會很少,資料長尾分佈非常明顯,直接訓練難以獲得較好效果。
本文餘下章節將重點介紹超大規模分類框架現有解決方案,以及低成本分類框架 FFC 的相應原理及 trick 介紹。
方法
在介紹方法之前,本文首先回顧了當前超大規模分類存在的主要挑戰點:
挑戰點 1:成本居高不下
ID 數目越大分類器視訊記憶體需求越大,如下示意圖所示:
視訊記憶體越大所需機器卡數越多,成本也就越高,相應多機協同的硬體基礎設施成本也越高。與此同時,當分類 ID 數目達到極超大規模的時候,主要計算量將浪費在最後一層分類器上,骨架網路消耗的時間可忽略不計。
挑戰點 2:長尾學習困難
在實際場景下,上億 ID 中的絕大部分 ID 內的圖片樣本數量會很少,長尾資料分佈非常明顯,直接訓練難以收斂。如果按照同等權重訓練,則長尾樣本會被淹沒學習不充分。此時,一般採用 imbalanced sample,在這個研究課題上,有非常多的方法可以借鑑,採取怎樣的方式融入到簡易超大規模分類框架上較為合適呢?
帶著上述兩個挑戰點,首先來看下現有可行的方案有哪些,是否能很好的解決上述兩個挑戰。
可行方法 1:度量學習
可行方法 2:PFC 框架
可行方法 3:VFC 框架
本論文方法:FFC 框架
大規模分類採用 FC 訓練時損失函式如下:
在每一次反傳過程中,所有的類中心都會更新:
但 FC 太大了,直觀的思路是合理地選擇一定比例的類中心,即如下 Vj 為 1 部分:
由上述動機,引出瞭如下初步的方案:
首先,為了解決長尾帶來的影響,本文引入兩個 loaders,分別是基於 id 取樣的 id_loader 和基於樣本取樣的 instance_loader,有了這兩個 loader。在每個 epoch 當中,樣本多的類和樣本少的(few-shot)類能夠有機會被訓練到。
其次,在訓練開始之前,先將一部分樣本送入 id group,這裡假設放入 10% id 的樣本進入 group。這時候 gallery 用的是隨機引數。
然後,訓練開始時,batch 樣本挨個進入 probe net。然後對於每個 batch 裡面的樣本就有兩種情況:1.)group 中存在此樣本同樣 id 的特徵,2.)group 中不存在同類樣本的特徵。對於這兩種情況,分別稱之為 existing id 和 fresh id。對於 existing 的樣本,用特徵和 group 裡面的特徵做內積,計算與標籤的交叉熵損失函式,後回傳。對於 fresh 的樣本,與 group 裡面的樣本進行最小化餘弦相似度。
最後,對 group 裡面特徵更新,採取新類中心替換,依據現有類中心加權的原則。對於 gallery net,採用 moving average 策略把 probe 裡面的引數漸漸更新進去。
本論文方法:trick 介紹
1.)引入的 ID Group,其 size 是個可調引數,一般預設為 3 萬。
2.)為達到穩定訓練,參考 moco 類方法,引入 moving average,相應收斂情況分別為:
實驗結果
1. 雙 Loader 消融實驗
2. SOTA 方法效果對比
3. 視訊記憶體與樣本吞吐對比