CVPR 2022｜達摩院開源低成本大規模分類框架FFC

机器之心發表於2022-12-09

原文網址 : https://www.jiqizhixin.com/articles/2022-12-09-2

論文連結：https://arxiv.org/pdf/2105.10375.pdf

應用 & 程式碼：

https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

背景

影像分類是當前 AI 最為成功的實際應用技術之一，已經融入了人們的日常生活。被廣泛應用於計算機視覺的大部分任務中，比如影像分類、影像搜尋、OCR、內容稽核、識別認證等領域。目前已形成一個普遍共識：“當資料集越大 ID 越多時，只要訓練得當，相應分類任務的效果就會越好”。但是當面對千萬 ID 甚至上億 ID 時，當下流行的 DL 框架，很難低成本的直接進行如此超大規模的分類訓練。

解決該問題最直觀的方式是透過叢集的方式消耗更多的顯示卡資源，但即便如此，海量 ID 下的分類問題，依然會有如下幾個問題：

1.）成本問題：分散式訓練框架 + 海量資料情況下，記憶體開銷、多機通訊、資料儲存與載入都會消耗更多的資源。

2.）長尾問題：實際場景中，當資料集達到上億 ID 時，往往其絕大部分 ID 內的圖片樣本數量會很少，資料長尾分佈非常明顯，直接訓練難以獲得較好效果。

本文餘下章節將重點介紹超大規模分類框架現有解決方案，以及低成本分類框架 FFC 的相應原理及 trick 介紹。

方法

在介紹方法之前，本文首先回顧了當前超大規模分類存在的主要挑戰點：

挑戰點 1：成本居高不下

ID 數目越大分類器視訊記憶體需求越大，如下示意圖所示：

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

視訊記憶體越大所需機器卡數越多，成本也就越高，相應多機協同的硬體基礎設施成本也越高。與此同時，當分類 ID 數目達到極超大規模的時候，主要計算量將浪費在最後一層分類器上，骨架網路消耗的時間可忽略不計。

挑戰點 2：長尾學習困難

在實際場景下，上億 ID 中的絕大部分 ID 內的圖片樣本數量會很少，長尾資料分佈非常明顯，直接訓練難以收斂。如果按照同等權重訓練，則長尾樣本會被淹沒學習不充分。此時，一般採用 imbalanced sample，在這個研究課題上，有非常多的方法可以借鑑，採取怎樣的方式融入到簡易超大規模分類框架上較為合適呢？

帶著上述兩個挑戰點，首先來看下現有可行的方案有哪些，是否能很好的解決上述兩個挑戰。

可行方法 1：度量學習

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

可行方法 2：PFC 框架

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

可行方法 3：VFC 框架

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

本論文方法：FFC 框架

大規模分類採用 FC 訓練時損失函式如下：

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

在每一次反傳過程中，所有的類中心都會更新：

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

但 FC 太大了，直觀的思路是合理地選擇一定比例的類中心，即如下 Vj 為 1 部分：

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

由上述動機，引出瞭如下初步的方案：

CVPR 2022｜達摩院開源低成本大規模分類框架FFC

首先，為了解決長尾帶來的影響，本文引入兩個 loaders，分別是基於 id 取樣的 id_loader 和基於樣本取樣的 instance_loader，有了這兩個 loader。在每個 epoch 當中，樣本多的類和樣本少的（few-shot）類能夠有機會被訓練到。

其次，在訓練開始之前，先將一部分樣本送入 id group，這裡假設放入 10% id 的樣本進入 group。這時候 gallery 用的是隨機引數。

然後，訓練開始時，batch 樣本挨個進入 probe net。然後對於每個 batch 裡面的樣本就有兩種情況：1.）group 中存在此樣本同樣 id 的特徵，2.）group 中不存在同類樣本的特徵。對於這兩種情況，分別稱之為 existing id 和 fresh id。對於 existing 的樣本，用特徵和 group 裡面的特徵做內積，計算與標籤的交叉熵損失函式，後回傳。對於 fresh 的樣本，與 group 裡面的樣本進行最小化餘弦相似度。

最後，對 group 裡面特徵更新，採取新類中心替換，依據現有類中心加權的原則。對於 gallery net，採用 moving average 策略把 probe 裡面的引數漸漸更新進去。

本論文方法：trick 介紹

1.）引入的 ID Group，其 size 是個可調引數，一般預設為 3 萬。

2.）為達到穩定訓練，參考 moco 類方法，引入 moving average，相應收斂情況分別為：

CVPR 2022｜達摩院開源低成本大規模分類框架FFC