人類感知到的資訊中,有83%來自視覺,機器人的感知和互動也同樣非常依賴機器視覺。因此,視覺感測是機器人理解外界資訊的重要手段,隨之而來的影像分析,則消耗了機器人等終端裝置的大部分算力。如何在出色完成影像分析任務的前提下,儘可能降低終端算力的消耗,是人工智慧和機器人產業在降低成本、提升效能時的重要考量。
目前,優必選科技在這一方向上取得了進展,相關研究成果已應用於公司研發的機器人,同時研究團隊基於這一研發成果創作的論文《Triplet Ratio Loss for Robust Person Re-identification》(用於魯棒行人重識別的三元組比例損失函式),被第五屆中國模式識別與計算機視覺大會(The 5th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2022)收錄。PRCV 2022由中國人工智慧學會、中國計算機學會、中國自動化學會和中國圖象圖形學學會聯合主辦,是國內頂級的模式識別和計算機視覺領域學術盛會。
優必選科技鼓勵和支援研究人員進行原創性、引領性的關鍵核心技術攻堅,在產業研究中不斷發現問題、解決問題,堅持產學研用融合發展,針對產業需求和痛點,做真正有行業價值的學術研究。對算力的高效利用,是人工智慧和機器人產業發展的關鍵問題。如果能以較少的終端算力,出色地完成影像分析任務,不僅能夠降低成本,還能騰出算力讓機器人完成更多複雜任務,向更加智慧化邁進。
論文原標題:Triplet Ratio Loss for Robust Person Re-identification
下載連結:https://link.springer.com/chapter/10.1007/978-3-031-18907-4_4(本論文見論文集P42)
該篇論文提出了三元組比例損失函式(Triplet Ratio Loss),並以行人重識別任務為例,展示了新演算法的優越性。過去,行人重識別演算法通常透過聯合最佳化交叉熵損失函式(Cross-Entropy Loss,以下簡稱CE Loss)和2015年穀歌提出的三元組損失函式(Triplet Loss)來訓練模型,這種最佳化方式有兩大問題:
1)容易受到訓練過程中三元組取樣的對間差異性(intra-pair variation)的影響;
2)訓練過程中的不合理的最佳化梯度可能會導致模型坍縮。
針對上述問題,近年來的主要改進方法依然侷限於基於間隔超參(margin)的三元組損失模式,例如改進取樣方式、引入自適應的間隔超參等等。儘管提升了模型的效能 ,這些改進方法仍然沒有顯式地解決最佳化梯度不合理的問題。為了解決上述問題,本文提出了三元組比例損失(Triplet Ratio Loss),該損失函式提出了一種全新的基於比例的最佳化機制,直接最佳化類內距離與類間距離之間的比值,並約束其小於提前設定的超參。三元組比例損失的主要優點包括:
- 緩解了由於三元組取樣過程中對間不一致性問題帶來的模型效能損失;
- 改善了模型訓練過程中的最佳化梯度和模型的收斂狀態。
實驗證明,本文提出的三元組比例損失可以有效地提升行人重識別模型在目前已有的三個公開資料集上的效能,能夠在受限的算力下使用更小的模型實現同等的準確率效果。
(一)方法對比
- 三元組損失
經典的行人重識別模型一般使用聯合最佳化交叉熵損失函式和三元組損失來訓練模型。顧名思義,三元組損失的輸入為一個特徵三元組{fa,fp,fn},其中fa、fp、fn分別為基準影像特徵、正樣本影像特徵和負樣本影像特徵。三元組損失約束基準影像特徵和正樣本影像特徵之間的距離D{fa,fp}與約束基準影像特徵和正樣本影像特徵之間的距離D{fa,fn}的差值大於一個閾值α,從而達到增大類內相似度、減小類間相似度的最佳化目標。具體而言,三元組損失的公式如下:
公式(2-1)
其中[*]+=max{*,0}。最佳化過程中,針對三個影像特徵的最佳化梯度為:
公式(2-2)
然而,由於不同行人可能穿著相似,即類間差異D(fa,fn)很小(如圖1-b所示);或者穿著差別很大,即類間差異D(fa,fn)很大(如圖1-c所示),導致訓練過程中三元組取樣存在對間差異性(intra-pair variation),此時採用與圖1-a所示的三元組一樣的間隔來進行模型訓練是不合理的:這將會導致三元組損失中的約束過緊或過鬆。同時,由於圖1-b中負樣本對的距離很小,根據公式(2-2)可知,此時三元組損失對該負樣本的最佳化梯度反而很小,同時對正樣本的最佳化梯度不變,若此時正樣本對的距離也很大,這會導致使用三元組損失訓練的行人重識別模型所提取的特徵坍縮至一個點。
圖 1 intra-pair variation的由來。綠框表示該影像為基準影像或正樣本影像,
紅框表示該影像為負樣本影像。
2. 三元組比例損失
為了應對前文所述的使用聯合最佳化交叉熵損失函式和三元組損失進行模型訓練時所存在的問題,我們提出了一種全新的基於比例的損失函式,直接最佳化類內距離與類間距離之間的比值,並約束其小於提前設定的超參β∈(0,1)。具體而言,三元組比例損失的公式如下所示:
公式(2-3)
最佳化過程中,針對三個影像特徵的最佳化梯度為:
公式(2-4)
處理對間差異性:與三元組損失相比,三元組比例損失針對不同的三元組給出不同的約束。如圖-2所示,當類間差異很小時,三元組比例損失可以放鬆對正樣本對的約束;當類間差異很大時,三元組比例損失可以收緊對正樣本對的約束。例如,將超參α和β的值設定為0.4(0.4為經驗值,此處僅用於示例,不同資料集下該超參的值可能不一致),三元組損失對正樣本對的約束是固定的,但三元組比例損失對正樣本對的約束是自適應可調的。具體而言,對於圖1-b的三元組影像,由於負樣本影像和基準影像很相似,導致D(fai,fni)值為0.5,此時,三元組比例損失要求D(fai,fpi)≤0.2,而三元組損失則要求D(fa,fp)≤0.1,因此,在負樣本是困難樣本的情況下(負樣本影像與基準影像相似),三元組比例損失放鬆了對正樣本對的約束,使得模型訓練更加容易;而對於圖1-c的三元組影像,由於負樣本影像和基準影像差別很大,導致的D(fai,fni)值為1,此時,三元組比例損失要求D(fai,fpi)≤0.4,而三元組損失要求D(fai,fpi)≤0.6,在負樣本是容易樣本的情況下(負樣本影像與基準影像不相似),收緊了對正樣本對的約束,使得訓練出來的模型所提取的特徵類內更加緊緻。
圖2 (a)使用三元組損失最佳化時,{A0,P0,N0}需要進行最佳化,而{A0,P2,N2}不需要,(b)使用三元組比例損失最佳化時,{A0,P0,N0}不需要進行最佳化,{A0,P2,N2}需要,圖中的紅/藍/綠矩形框表示在不同的負樣本下正樣本所需要最佳化的區域。
更合理的最佳化梯度:與三元組損失相比,三元組比例損失可給fni提供更合理的最佳化梯度。如公式(2-4),三元組比例損失在最佳化過程中給fni的梯度幅值與D(fai,fni)負相關。因此,如圖-3所示,當D(fai,fni)很小時,會更加大幅度地最佳化fni;而當D(fai,fni)很大時,此時已經基本達到最佳化的要求,會相對更小幅度地最佳化fni,這與我們的直覺是相符的。與之相比,三元組損失在最佳化過程中給fni的梯度幅值與D(fai,fni)正相關,D(fai,fni)越大則越大幅度最佳化fni,越小則越小幅度最佳化fni,這與直覺相悖,且容易導致模型收斂到一個點上。
更進一步地,三元組比例損失在最佳化過程中給fni的梯度的幅值與D(fai,fpi)正相關。因此,當正樣本對的兩張影像已經很相似時,三元組比例損失不會顯著地對fni進行最佳化。類似地,三元組比例損失在最佳化過程中給fpi的梯度的幅值與D(fai,fpi)負相關,因此當負樣本對影像之間已經相差較大時,三元組比例損失不會顯著地對fpi進行最佳化。
圖3 (a)使用三元組損失或(b)使用三元組比例損失時,對fai, fpi和fni的最佳化梯度,圖中的綠/紅色點表示正/負樣本,紅/藍/綠虛線表示不同負樣本N0/N1/N2下正樣本的決策邊界,紅/藍/綠箭頭表示不同負樣本N0/N1/N2下fai, fpi和fni的最佳化梯度。
最終,模型訓練時,使用聯合最佳化交叉熵損失函式 + 三元組比例損失來對模型進行訓練:
公式(2-5)
其中,LCE表示CE Loss,λ表示三元組比例損失的權重且λ=1。
(二)實驗結果
本文在已有的三個公開資料集(即Market-1501 ,CUHK03 和 MSMT17 )上對提出的損失函式進行驗證,遵循論文中的實驗設定,從定量和定性兩方面對所提出的損失函式進行驗證。
1. 定量分析——數值結果
表1總結了使用本文提出的Loss訓練得到的行人重識別模型和其他論文中的模型的效能對比。由於不同的方法採用不同的策略來提取行人影像的特徵,因此,為了更為公平地比較,我們將這些方法分為基於全域性特徵的方法和基於元件特徵的方法,這兩類方法在表格中分別記為HF-based Methods和PF-based Methods。
- 使用本文提出的損失函式訓練的ResNet-50模型可達到與基於元件特徵的行人重識別模型相當的效能,其中ResNet-50模型屬於基於全域性特徵的方法,而基於元件特徵的方法需要額外消耗算力去提取細粒度的元件特徵。
第二,使用本文提出的損失函式訓練的ResNet-50模型可達到與基於全域性特徵的行人重識別模型相當的效能。例如,與3DSL(該論文中使用了額外的3D資訊)相比,本文模型在Market-1501資料集上的Rank-1準確率與之相等,而平均均值精度(mean Average Precision,簡稱mAP)只比其低0.6%。第三,與其他行人重識別領域提出的Loss函式相比,本文提出的Loss所訓練的模型在三個資料集上均達到世界領先水平。例如,與Circle loss相比,本文模型在MSMT17資料集上的Rank-1準確率和mAP分別比其高3.0%和5.0%。最後,使用Re-Ranking可以將本文模型在各個資料集上的Rank-1準確率和mAP進一步分別提升至95.8%和93.6%,83.7%和83.9%,85.8%和85.6%,83.5%和71.3%。
表1 行人重識別模型的效能比較
注:IDE表示ResNet-50,“-”表示無資料,RR表示使用Re-Ranking。
2. 定性分析——視覺化結果
除了定量分析,圖4和圖5中的視覺化結果進一步地驗證了三元組比例損失的優越性。
首先,如圖4所示,使用三元組比例損失訓練的行人重識別模型所提取的特徵明顯更加緊緻,即類內距離更小、類間距離更大,這表明三元組比例損失可以有效地緩解由於三元組取樣過程中對間差異性問題帶來的模型效能損失;
然後,如圖5所示,在使用三元組比例損失訓練過程中,聯合最佳化交叉熵損失函式的下降速度明顯比使用三元組損失訓練時快,這表明三元組比例損失可以改善模型訓練過程中的最佳化梯度和模型的收斂狀態。
圖 4 使用(a)三元組損失和(b)三元組比例損失訓練的模型所提取的特徵分佈。
圖 5 針對Market-1501資料集進行訓練時分類損失的變化過程。
(三)結論
針對三元組損失容易受到訓練過程中三元組取樣的對間差異性的影響和最佳化梯度不合理的問題,本文提出了一種全新的基於比例的最佳化機制——三元組比例損失。首先,三元組比例損失直接最佳化類內距離與類間距離之間的比值,因而可以針對不同的三元組給出不同的約束,緩解對間差異性;其次,三元組比例損失同時考慮正樣本對距離和負樣本對距離來調整對模型所提取的特徵的梯度,使得最佳化梯度更合理。最後,本文在三個大型公開資料集上的做了大量的實驗,結果驗證了三元組比例損失的有效性和優越性。
論文以行人重識別任務為例,但在實際應用中,該項技術在行人重識別、跌倒檢測、手勢識別中都有巨大的應用潛力,目前優必選科技已將該技術有效地應用於智慧商業、智慧康養和人工智慧教育等領域,其成效也獲得了使用者的普遍認可。在使用三元組比例損失訓練模型的過程中,由於跌倒資料幾無清晰可用的公開資料集,優必選科技計算機視覺團隊為求獲得真實可信的影像分析效果,歷經數月的演算法研討和效果測試,動員近百名成員及同事,在不同區域進行正摔、側摔,從各個角度進行托馬斯全摔,最終驗證了損失函式的訓練效果。
該項技術的提出,使得演算法團隊能夠在受限的算力下使用更小的模型實現同等的準確率效果,有效地節約了寶貴的算力,從而在現有終端算力水平下,機器能夠更快、更節約地完成影像分析任務,在更多創新功能上“算有餘力”。在勞動力緊缺、老齡化加劇的大背景下,機器人尤其是人形機器人的發展主要受限於成本高昂,優必選科技將繼續著眼於人工智慧和機器人產業的實際需要,在成本優先的算力環境中提供更多高效能的演算法解決方案,為“讓智慧機器人走進千家萬戶,讓人類的生活方式變得更加便捷化、智慧化、人性化”的使命貢獻AI科技力量。