愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享:明確目標,奮力前行

愛奇藝技術產品團隊發表於2019-07-22

一、團隊介紹

 “一個名字”團隊由來自南京大學R&L實驗室的四位成員——董傳奇、顧崢、黃中豪以及季雯組成,指導老師為霍靜。在比賽過程中,成員間互相交流,在github上共同協作,最終取得0.8986的成果,排名第三。其程式碼現已在github上進行開源,開源地址為https://github.com/LegenDong/IQIYIVIDFACE_2019。

二、團隊方案

iQIYI多模態挑戰賽是一個針對視訊中人物所展開的檢索任務,需從視訊資料集中檢索到和每一個類別相對應的視訊片段,為了評估檢索的效能,iQIYI官方使用了平均精度(MAP)作為評估方式,如下所示。

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享:明確目標,奮力前行

iQIYI多模態資料集中總共有將近20W視訊片段,由10034位人物組成,在每一段視訊中只有一個主要人物,同時官方提供了人臉特徵、頭部特徵、身體特徵以及語音特徵,但是官方提取的特徵並沒有進行對齊以及fine-tune等操作。

我們最開始希望可以重新提取在挑戰賽中最重要的人臉特徵,但是由於這次比賽的測試過程需要在官方提供的docker環境中完成,如果重新進行人臉的對齊與特徵提取,時間成本過高,因此在最終的方案中我們使用了官方提供的人臉特徵,同時在時間成本可以接受的前提下提取了場景特徵作為輔助。

該團隊的方案主要可以分為三部分,包括視訊特徵融合模組、多模態特徵融合模組以及最終的模型整合模組,下面對這三部分分別進行詳細的介紹。

1、視訊特徵融合

由於視訊中存在一定的噪音,該團隊參考了DANet中的Channel Attention設計其模組的第一部分,這個模組通過度量不同幀特徵之間的相似性,達到增強相似特徵、抑制離群特徵的作用,其網路結構如下:

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享:明確目標,奮力前行

在等到了新的特徵後,如何從多幀中得到有效的表示的問題亟待解決,於是參考了NAN網路中的設計,使用CNN提取視訊中多幀人像的特徵,之後使用聚合模組對所有幀的特徵向量進行學習累積,其結構如下圖所示。實驗結果表明,這種方法優於質量分數加權平均等手工設計的方法。

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享:明確目標,奮力前行

在損失方面,該團隊將Additive Angular Margin Loss和Focal Loss結合起來作為損失計算方式,但由於Additive Angular Margin Loss的過程中會將特徵進行歸一化,特徵會失去自己的模長資訊,而模長資訊又與質量分數緊密相關。因此,該團隊採取將分數資訊與歸一化後的特徵進行再拼接,從而再次引入這一部分資訊的方案。 

2、多模態特徵融合

人臉、頭部等特徵在低質量視訊中的效果都比較差,因此該團隊提取了場景特徵進行輔助判斷。其基本模型是SE-ResNeXt,在ResNet的基礎上增大了基數,並引入了注意力機制。在訓練過程中,每一段視訊取樣一幀,使用餘弦退火演算法訓練20個epoch。在測試過程中,也同樣對每一段視訊取樣一幀,以此作為視訊特徵。

得到了上述的場景特徵後,將這個特徵降維至128維,然後和視訊人臉特徵拼接起來,通過三層感知機得到最終的結果,如下圖所示:

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享:明確目標,奮力前行

3、模型整合

模型整合是競賽中常見的方法之一。由於在資料集中,許多視訊僅僅只有一兩段視訊,使用Bagging會造成大量的ID缺失,平均90%取樣會造成160個ID的缺失。

在協同訓練中,如果不同的特徵可以對同一事物進行多角度的描述,那麼就有可能整合針對不同特徵的弱分類器而得到一個更強的分類器。而由於深度特徵往往都是冗餘的,這就意味著即使丟棄特徵中的某些維度的數值,特徵仍有一定的判別性。因此,可以在特徵的層面上對資料集進行分割。比如下圖中白色的部分就是捨棄的特徵,綠色的部分則是選擇的特徵子集,然後使用得到的特徵子集分別訓練一個子模型,整合得到最終的模型。

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享:明確目標,奮力前行

對於沒有人臉的視訊,使用場景的預測結果作為最終的預測結果;而對於質量分數最低的1%的視訊,則將多模態預測結果和場景預測結果進行加權,得到最終結果。

三、經驗總結

對於參賽者而言,首要工作是明確任務,才能更好地開展後續工作;其次,對於資料的分析亦非常重要,沒有對資料的充分分析,就無從知曉應該引入什麼樣的方法;快速並且高質量地實現想法在競賽中更是不可或缺的。

在比賽的前期,團隊應該更加註意資料集的理解和新方法的探索,而不要過早沉溺於調參和尋找trick,否則到了比賽後期,時間緊張,一個好的想法往往來不及實現或進行更多的除錯。

四、參考文獻

[1] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009. 

[2] J. Deng, J. Guo, N. Xue, and S. Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018. 

[3] J. Fu, J. Liu, H. Tian, Z. Fang, and H. Lu. Dual attention network for scene segmentation. arXiv preprint arXiv:1809.02983, 2018. 

[4] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 

[5] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018. 

[6] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017. 

[7] I. Loshchilov and F. Hutter. Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016. 

[8] J. Yang, P. Ren, D. Zhang, D. Chen, F. Wen, H. Li, and G. Hua. Neural aggregation network for video face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4362–4371, 2017.

相關文章