近日,ICCV DeepFashion2 Challenge2019公佈了比賽結果,美圖影像實驗室MTlab憑藉其在綜合檢測精度上的優勢,以明顯差距斬獲服飾關鍵點估計(Landmark Estimation)賽道的冠軍。DeepFashion2 Challenge此次共吸引18支國內外頂級技術團隊參與,包括清華大學、阿里巴巴等知名企業及學術機構。MTlab首次參與DeepFashion系列比賽,旨在透過比賽與同行、學者進行深層次的交流,學習並最佳化目標檢測、關鍵點估計等相關演算法,以提升服飾相關技術的效能水平。
圖1 ICCV DeepFashion2 Challenge 2019
據介紹,DeepFashion2 Challenge是基於DeepFashion1和DeepFashion2 公開資料集基礎上的計算機視覺領域技術競賽。今年的比賽分為兩個賽道,服飾關鍵點估計及服飾檢索(Clothes Retrieval)。此次美圖參與的是服飾關鍵點估計賽道,服飾關鍵點估計比賽包含193,000個影像訓練資料,32,000個驗證集影像資料,63,000個測試集影像資料。比賽任務中包含13個不同的服飾類別,每個類別都有獨立的8到37個關鍵點,共計294個關鍵點。如何實現同時檢測多個類別共294個關鍵點是此次比賽的難點之一。此外,如圖2所示,DeepFashion2資料集包含了多種尺度、遮擋、視角等複雜情況下的服飾影像資料,因此提升模型對服飾在不同情況下的魯棒性也是比賽的一大挑戰,需要投入大量的研發精力。
圖2DeepFashion2資料型別分佈
在本次比賽中,MTlab團隊所建立的模型在綜合檢測精度表現出明顯優勢,該模型可以同時對13個類別的服飾進行關鍵點估計,相較於多個模型而言,大大降低了演算法複雜度以及使用成本。其次,該模型還具備良好的擴充套件性,透過類別資訊的使用,可以一次應對多類別的資料。
目前基於多目標的關鍵點估計方法大致可以分為自下而上(Bottom-up)和自上而下(Top-down)兩類。自上而下的方法主要包含兩個步驟,首先透過目標檢測演算法將影像中的每一件服飾檢測出來,隨後針對每一個檢測出來的服飾區域影像估計其關鍵點位置。自下而上的方法也包含兩個步驟,首先將圖片中所有的服飾關鍵點檢測出來,然後透過一定計算方式將關鍵點聚類到不同的服飾上。為了提高模型的擴充套件性與應用性,並且緩解單圖多目標交叉重疊導致的關鍵點錯位等問題,MTlab採用了基於自上而下方法的關鍵點檢測方案,即將該任務分解成多目標框檢測及單目標關鍵點估計,並將這兩步操作進行單獨最佳化。
基於自上而下的方法,第一步是進行服飾檢測。目標檢測是計算機視覺中的核心任務之一。目標檢測即自動找到影像中所有目標物體,包含物體的定位和物體分類兩個子任務,同時確定物體的類別與位置。當前對目標檢測的研究是學術界的一個熱點,R-CNN、Fast R-CNN、Faster R-CNN、YOLO及SSD等一系列模型的提出大大加速了該領域的發展,比如人臉檢測、行人檢測及車輛檢測等在工業界也得到了很好的應用。但是針對服飾資料的目標檢測任務當前少有研究也應用不足,一個主要的原因是服飾資料標註難度較大,且公開的高質量標註資料集少。
此次比賽的資料集除了服飾關鍵點標籤外還提供了包含服飾檢測框外的多種標註標籤,據此,MTlab團隊可以進行服飾檢測的模型訓練學習。此外,基於自上而下的方案,由於最終關鍵點是基於目標檢測的結果來做估計的,所以服飾檢測的好壞對最後成績的影響至關重要。第二步進行單服飾的關鍵點估計。目前對關鍵點的估計應用最多的是人體骨骼點估計, 已有的方法在模型上可分為單階段的(One-stage)以及多階段的(Multi-stage),在輸出上可分為基於座標迴歸(Coordinate)、熱力圖(Heatmap)以及熱力圖結合偏移資訊(Heatmap + Offsets)。相對於人體骨骼資料,服飾關鍵點資料在遮擋、角度、尺度以及非剛性變形尤為嚴重,這也使得服飾關鍵點估計異常困難。
在最終的實施方案中,MTlab首先在圖上做目標框檢測,找出可能為服飾的目標框,由此可以獲得較多粗略的服飾框。再基於這些框的檢測結果去做單服飾目標框的關鍵點估計,並同時對框進行額外的打分,給出最終有效的關鍵點。透過這種方案,可以分開最佳化多目標框檢測模型和單目標關鍵點估計模型,降低模型最佳化複雜度,從而可以更充分地利用計算資源以提高該模型的準確度。而在應用層面上,服飾檢測與服飾關鍵點識別有不同的應用領域,兩個模型均可獨立使用,後續模型仍可以有效地透過不同資料持續最佳化提高。
圖 3服飾關鍵點預測流程圖
在比賽的多目標框檢測階段,MTlab採用了Hybrid Task Cascade model (如圖3上圖所示)作為基礎模型。而在單目標關鍵點估計階段,則以Multi-stage Pose Estimation Network (圖3下圖所示)的肢體關鍵點估計模型作為基礎模型。在兩個基礎模型上,MTlab基於服飾關鍵點檢測任務的特點以及評價指標,針對模型的不同方面進行了深入的最佳化及改進:
1、由於服飾檢測任務較為複雜,各種尺度及遮蓋等情況往往會造成誤檢、漏檢等問題,所以MTlab使用多尺度訓練及多尺度測試的檢測方案對模型進一步最佳化。同時利用該方案two stage的特性,在目標框檢測過程中最佳化了模型的召回率,在關鍵點估計模型中除了給出關鍵點,還會對目標檢測階段給出的框基於置信度打分,這樣有助於提高演算法的精確度,從而達到在mAP指標上的的整體最佳化。
2、該任務中需要檢測的關鍵點一共包含13個不同服飾類別的294個關鍵點,每個類別都有自己獨立的一組關鍵點。為了實現一個模型可以同時檢測所有類別的關鍵點,MTlab將第一步目標框檢測中給出的類別資訊作為先驗知識,透過與輸入資料在通道維度上的concatenate,加入到關鍵點估計模型中,給予一個強的先驗知識,可以幫助關鍵點估計模型降低學習難度,並且提高了置信度打分的精度。
3、在關鍵點估計模型中,各個類別中的關鍵點間存在著一定的結構關係,為了更好地挖掘這種空間相關資訊,MTlab在模型中引入non-local 的結構進行特徵資訊融合計算,替代了部分原始模型的resblock,從而提高整體關鍵點的準確性。
4、在關鍵點模型中,為了讓模型能一步步地定位到更為精細的關鍵點位置,在計算各個scale和stage的損失函式時,MTlab針對不同scale和不同stage採用不同的損失權重。除此之外,為了提高較難檢測關鍵點的預測精確度,MTlab透過對不同scale的輸出採用不同的OHKM的策略來計算損失權重。雖然最終以最後一個stage的最大scale輸出作為模型,但它依賴於前面所有尺度的計算結果,因此對不同尺度的輸出進行最佳化則相當於最佳化了最終的輸出結果。
5、透過圖4不難發現,DeepFashion2官方給出的資料集中有較為嚴重的資料不均衡情況,資料量最多的類別的數目是最少的約180倍之多,該情況對模型的訓練帶來了較大的影響。為了解決這個問題,MTlab的模型在目標框檢測階段與關鍵點估計階段的loss計算中,引入了針對不同類別的attention,以減少訓練中不同類別資料不均衡的情況對關鍵點模型的影響。
圖4 DeepFashion2 衣服類別數量分佈
透過對基礎模型進行多維度的強化,MTlab團隊最終在測試集上獲得了0.5775 mAP的分數,意味著在結合召回率與精確度的綜合指標上超過了其他參賽團隊。
圖5 預測結果圖
MTlab作為美圖公司的核心演算法研發部門,在計算機視覺、深度學習、擴增實境等領域深耕多年,具備強大的研發實力。其中,基於服飾的計算機視覺技術也是MTlab重點研究方向之一。據悉,服飾資訊識別技術目前已成功應用在美圖秀秀動漫化身功能中,系統可以識別使用者上傳人像的服裝風格,並匹配生成穿著同款服飾的卡通形象。談及該技術未來的應用前景,MTlab負責人說道:“服飾作為衣食住行的一個重要方面,是一項剛需。因此,與服飾相關的視覺識別技術,有著廣泛的應用場景,比如時尚趨勢分析、營銷資料分析等,對商品精準推薦、服飾潮流捕捉等方面都有著重要意義。”
據MTlab介紹,服飾資訊識別技術是人工智慧演算法在服飾電商、內容媒體和線下服裝零售等行業實現應用落地的基礎。對於商家而言,該技術有利於在實現資料智慧化管理,平臺智慧化運營,降低人力成本的同時提高運營效率。而對於使用者來說,該技術可以為使用者提供個性化推薦、智慧搭配、虛擬試穿和一鍵購物等服務,有效提升了使用者的購物體驗。
具體來看,在服飾電商領域,該技術可以融入到電商平臺的一些智慧化業務之中,包括拍照購物、搭配推薦和使用者個性化等。一方面有助於電商平臺為使用者提供更優質的使用者購衣體驗,從而提高店鋪轉化率和客單價;另一方面電商平臺可以實現智慧化運營,降低人力成本的同時提高運營效率。在內容媒體方面,該技術可以輔助內容媒體更高效地產出時尚圖片、短影片等優質內容,也可以讓時尚媒體的優秀內容產品被輕鬆檢索、關聯和推薦。而線上下服裝零售中,該技術在未來可以結合到智慧硬體及其他技術一體化解決方案中,從而為門店客戶提供一鍵購衣試衣、智慧搭配和推薦等服務。透過智慧化服務,為消費者帶來全新購衣體驗。
從服裝電商、資訊檢索、個性化推薦到智慧試衣,服飾相關技術日趨成熟,為科技賦能商業增添了更多的可能性。MTlab負責人對此表示:“未來我們會加速服飾相關技術演算法的應用落地,將演算法與更多的業務結合,對模型進行最佳化以適配不同的使用場景。同時也將充分利用該模型結構的可擴充性,服務於服飾以外的更多領域。”值得一提的是,美圖公司於今年4月正式上線美圖AI開放平臺,並且已成功服務於諸多業務場景,包括醫療美容、美妝門店、智慧硬體、移動網際網路等領域。
References:
[1] Kai Chen et al. Hybrid task cascade for instance segmentation. In: IEEE Conference on Computer Vision and Pattern Recognition. 2019.
[2] Wenbo Li et al. Rethinking on Multi-Stage Networks for Human Pose Estimation. 2019. arXiv:1901.00148