計算機視覺與模式識別會議 CVPR 2020 將於 6 月 14-19 日在美國西雅圖舉行。近日,大會官方論文結果公佈,曠視研究院 16 篇論文被收錄,研究領域涵蓋人臉識別、實時影片感知與推理、小樣本學習、遷移學習,3D 感知、細粒度影像等眾多領域。本文是其中一篇 Oral 論文的解讀。
最佳化缺乏靈活性
s_n 和 s_p 上的懲罰力度是嚴格相等的。換而言之,給定指定的損失函式,在 s_n 和 s_p 上的梯度的幅度總是一樣的。例如圖 1(a)中所示的 A 點,它的 s_n 已經很小了,可是,s_n 會不斷受到較大梯度。這樣現象低效且不合理。
收斂狀態不明確
最佳化 (s_n - s_p) 得到的決策邊界為 s_p - s_n = m(m 是餘量)。這個決策邊界平行於 s_n = s_p, 維持邊界上任意兩個點(比如 T=(0.4, 0.7) 和 T'=(0.2, 0.5))的對應難度相等,這種決策邊界允許模稜兩可的收斂狀態。比如,T 和 T' 都滿足了 s_p - s_n = 0.3 的目標,可是比較二者時,會發現二者之間的分離量只有 0.1,從而降低了特徵空間的可分性。
統一的(廣義)損失函式。從統一的相似度配對最佳化角度出發,它為兩種基本學習正規化(即使用類別標籤和使用樣本對標籤的學習)提出了一種統一的損失函式;
靈活的最佳化方式。在訓練期間,向 s_n 或 s_p 的梯度反向傳播會根據權重 α_n 或 α_p 來調整幅度大小。那些最佳化狀態不佳的相似度分數,會被分配更大的權重因子,並因此獲得更大的更新梯度。如圖 1(b) 所示,在 Circle Loss 中,A、B、C 三個狀態對應的最佳化各有不同。
明確的收斂狀態。在這個圓形的決策邊界上,Circle Loss 更偏愛特定的收斂狀態(圖 1 (b) 中的 T)。這種明確的最佳化目標有利於提高特徵鑑別力。
首先,是綠色散佈點代表的收斂後狀態;
其次,是藍色累積點反映的透過決策面時瞬間的分佈密度。
E. Hoffer and N. Ailon. Deep metric learning using triplet network. In International Workshop on Similarity-Based Pattern Recognition, pages 84–92. Springer, 2015.
W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-margin softmax loss for convolutional neural networks. In ICML, 2016.
F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. InProceedings of the IEEE conference on computer vision and pattern recognition, pages 815–823, 2015.
Y. Sun, X. Wang, and X. Tang. Deep learning face repre- sentation from predicting 10,000 classes. In Proceedings of the IEEE conference on computer vision and pattern recog- nition, pages 1891–1898, 2014.
F. Wang, J. Cheng, W. Liu, and H. Liu. Additive margin softmax for face verification. IEEE Signal Processing Let- ters, 25(7):926–930, 2018.
H. Wang, Y. Wang, Z. Zhou, X. Ji, D. Gong, J. Zhou, Z. Li, and W. Liu. Cosface: Large margin cosine loss for deep face recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
Y. Wen, K. Zhang, Z. Li, and Y. Qiao. A discrimina- tive feature learning approach for deep face recognition. InEuropean conference on computer vision, pages 499–515. Springer, 2016.