論文連結:https://arxiv.org/pdf/2012.03544.pdf
專案程式碼:https://github.com/Megvii-BaseDetection/DeFCN (內部程式碼遷移 + 審查中,後續放出)
one-to-one 需要網路輸出的 feature 非常 sharp,這對 CNN 提出了較嚴苛的要求(這也是 Transformer 的優勢);
one-to-many 帶來了更強的監督和更快的收斂速度。
α越低,分類權重越大,有無 NMS 的差距越小,但絕對效能也會降低 [4];α太高也不好,後續所有實驗用α=0.8;
在α合理的情況下,空間先驗不是必須的,但空間先驗能夠在匹配過程中幫助排除不好的區域,提升絕對效能;研究者在 COCO 實驗中採用 center sampling radius=1.5,在 CrowdHuman 實驗中採用 inside gt box[5];
加權幾何平均數(Mul)[6]比加權算術平均數(Add)[7]更好。
如果有人感興趣的話,可以在 YOLO 上去掉 NMS 嘗試一下,可以接近 30mAP。
注意這裡沒有使用 DETR 的 CE+GIoU+L1 組合,而是直接採用 loss 本身(Focal+GIoU)。研究者認為這樣更符合 DETR 用 loss 做 cost 的原意。
其實這裡可以有一個腦洞留給大家,因為 cost 是不需要求導的,所以甚至是可以直接算 AP 當 cost 的。
側面印證了分類和迴歸的衝突在檢測任務上是顯著的。
理由很簡單,CrowdHuman 的遮擋問題太嚴重,center 區域經常完全被遮擋。
事實上加權幾何平均數的負對數就是 CE+IoU Loss,加權算術平均數則沒有明顯的物理含義。
NoisyAnchor 在 assign 中採用了類似的公式,只不過採用的是 anchor IoU。
更具體來講,top1(即 argmin)是 Hugarian Algorithm 只做第一次迭代的結果;由於在 dense prediction 下衝突會很少,一次迭代就已經逼近了最優匹配,這也是為什麼 Hungarian Algorithm 這裡實際執行很快。