愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享：明確目標，奮力前行

爱奇艺技术产品团队發表於2019-07-22

原文網址 : https://www.jiqizhixin.com/articles/2019-07-18-8

一、團隊介紹

“一個名字”團隊由來自南京大學R&L實驗室的四位成員——董傳奇、顧崢、黃中豪以及季雯組成，指導老師為霍靜。在比賽過程中，成員間互相交流，在github上共同協作，最終取得0.8986的成果，排名第三。其程式碼現已在github上進行開源，開源地址為https://github.com/LegenDong/IQIYIVIDFACE_2019。

二、團隊方案

iQIYI多模態挑戰賽是一個針對視訊中人物所展開的檢索任務，需從視訊資料集中檢索到和每一個類別相對應的視訊片段，為了評估檢索的效能，iQIYI官方使用了平均精度（MAP）作為評估方式，如下所示。

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享：明確目標，奮力前行

iQIYI多模態資料集中總共有將近20W視訊片段，由10034位人物組成，在每一段視訊中只有一個主要人物，同時官方提供了人臉特徵、頭部特徵、身體特徵以及語音特徵，但是官方提取的特徵並沒有進行對齊以及fine-tune等操作。

我們最開始希望可以重新提取在挑戰賽中最重要的人臉特徵，但是由於這次比賽的測試過程需要在官方提供的docker環境中完成，如果重新進行人臉的對齊與特徵提取，時間成本過高，因此在最終的方案中我們使用了官方提供的人臉特徵，同時在時間成本可以接受的前提下提取了場景特徵作為輔助。

該團隊的方案主要可以分為三部分，包括視訊特徵融合模組、多模態特徵融合模組以及最終的模型整合模組，下面對這三部分分別進行詳細的介紹。

1、視訊特徵融合

由於視訊中存在一定的噪音，該團隊參考了DANet中的Channel Attention設計其模組的第一部分，這個模組通過度量不同幀特徵之間的相似性，達到增強相似特徵、抑制離群特徵的作用，其網路結構如下：

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享：明確目標，奮力前行

在等到了新的特徵後，如何從多幀中得到有效的表示的問題亟待解決，於是參考了NAN網路中的設計，使用CNN提取視訊中多幀人像的特徵，之後使用聚合模組對所有幀的特徵向量進行學習累積，其結構如下圖所示。實驗結果表明，這種方法優於質量分數加權平均等手工設計的方法。

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享：明確目標，奮力前行

在損失方面，該團隊將Additive Angular Margin Loss和Focal Loss結合起來作為損失計算方式，但由於Additive Angular Margin Loss的過程中會將特徵進行歸一化，特徵會失去自己的模長資訊，而模長資訊又與質量分數緊密相關。因此，該團隊採取將分數資訊與歸一化後的特徵進行再拼接，從而再次引入這一部分資訊的方案。

2、多模態特徵融合

人臉、頭部等特徵在低質量視訊中的效果都比較差，因此該團隊提取了場景特徵進行輔助判斷。其基本模型是SE-ResNeXt，在ResNet的基礎上增大了基數，並引入了注意力機制。在訓練過程中，每一段視訊取樣一幀，使用餘弦退火演算法訓練20個epoch。在測試過程中，也同樣對每一段視訊取樣一幀，以此作為視訊特徵。

得到了上述的場景特徵後，將這個特徵降維至128維，然後和視訊人臉特徵拼接起來，通過三層感知機得到最終的結果，如下圖所示：

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享：明確目標，奮力前行

3、模型整合

模型整合是競賽中常見的方法之一。由於在資料集中，許多視訊僅僅只有一兩段視訊，使用Bagging會造成大量的ID缺失，平均90%取樣會造成160個ID的缺失。

在協同訓練中，如果不同的特徵可以對同一事物進行多角度的描述，那麼就有可能整合針對不同特徵的弱分類器而得到一個更強的分類器。而由於深度特徵往往都是冗餘的，這就意味著即使丟棄特徵中的某些維度的數值，特徵仍有一定的判別性。因此，可以在特徵的層面上對資料集進行分割。比如下圖中白色的部分就是捨棄的特徵，綠色的部分則是選擇的特徵子集，然後使用得到的特徵子集分別訓練一個子模型，整合得到最終的模型。

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享：明確目標，奮力前行

對於沒有人臉的視訊，使用場景的預測結果作為最終的預測結果；而對於質量分數最低的1%的視訊，則將多模態預測結果和場景預測結果進行加權，得到最終結果。

三、經驗總結

對於參賽者而言，首要工作是明確任務，才能更好地開展後續工作；其次，對於資料的分析亦非常重要，沒有對資料的充分分析，就無從知曉應該引入什麼樣的方法；快速並且高質量地實現想法在競賽中更是不可或缺的。

在比賽的前期，團隊應該更加註意資料集的理解和新方法的探索，而不要過早沉溺於調參和尋找trick，否則到了比賽後期，時間緊張，一個好的想法往往來不及實現或進行更多的除錯。

四、參考文獻

[1] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.

[2] J. Deng, J. Guo, N. Xue, and S. Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018.

[3] J. Fu, J. Liu, H. Tian, Z. Fang, and H. Lu. Dual attention network for scene segmentation. arXiv preprint arXiv:1809.02983, 2018.

[4] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[5] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018.

[6] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017.

[7] I. Loshchilov and F. Hutter. Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016.

[8] J. Yang, P. Ren, D. Zhang, D. Chen, F. Wen, H. Li, and G. Hua. Neural aggregation network for video face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4362–4371, 2017.

愛奇藝多模態人物識別挑戰賽報名啟動！
2019-03-21
愛奇藝“多模態人物識別競賽”收官，多模態影片人物識別精準度提升至91.14%
2019-07-04
愛奇藝“多模態人物識別競賽”收官，多模態視訊人物識別精準度提升至91.14%
2019-07-04
多模態人物識別技術及其在愛奇藝視訊場景中的應用
2019-12-11
ICCV 2021 口罩人物身份鑑別全球挑戰賽冠軍方案分享
2022-01-11
2018影片人物識別挑戰賽冠軍是如何養成的？
2019-03-28
ECCV 2020 GigaVision挑戰賽雙賽道冠軍DeepBlueAI團隊技術分享
2020-09-01
AI
首屆AIOps挑戰賽——冠軍LogicMonitor-AI團隊方案分享
2018-12-13
AI
2018視訊人物識別挑戰賽冠軍是如何養成的？
2019-03-28
ICCV 2021口罩人物身份鑑別全球挑戰賽冠軍方案分享
2021-11-22
語音識別技術發展漸入佳境 AI企業奮力前行
2019-03-21
AI
愛奇藝短影片軟色情識別技術解析
2019-02-22
機器學習識別植物疾病，這是CVPR挑戰賽冠軍團隊的解決方案
2019-06-24
機器學習
愛奇藝短視訊軟色情識別技術解析
2019-02-22
愛奇藝 Android PLT hook 技術分享
2018-05-03
AndroidHook
Kaggle座頭鯨識別賽，TOP10團隊的解決方案分享
2019-03-14
模擬經營類遊戲：目標感與挑戰曲線的設計
2024-10-17
遊戲
百度視覺團隊獲世界最大規模目標檢測競賽冠軍
2018-09-13
視覺
愛奇藝編碼團隊：我們讓AV1編碼速度提升5倍
2020-07-01
[原創]乾貨 | 雲安全挑戰賽線上熱身賽冠軍戰隊解題分享
2019-06-12
NeurIPS 2018 AutoML挑戰賽落幕：印度團隊第一，清華第二
2018-12-04
TOML
【題目全解】ACGO挑戰賽#8
2024-09-04
Go
異地技術團隊高效協作的經驗分享
2018-12-07
愛奇藝短視訊打標籤技術解析
2018-12-29
愛奇藝短視訊智慧標籤生成實踐
2022-06-02
人物模型和目標
2019-01-12
模型
「 C++挑戰賽」下週開始，最特別的程式設計題目等你挑戰！
2018-05-04
C++程式設計
《索尼克團隊賽車》IGN 8.5 分：別出心裁的團隊競速體驗
2019-05-24
記憶體洩漏治理實戰：TDengine 研發團隊使用 Windbg 的經驗分享
2024-02-29
記憶體
國外前端開發大神經驗：目標越明確，計劃就越專業，切記，不要撒網！
2020-04-20
前端
百分點大資料技術團隊：Elasticsearch多資料中心大規模叢集的實戰經驗
2022-01-11
大資料Elasticsearch
中小遊戲開發團隊如何保持創作力？<經驗篇>
2021-02-20
遊戲開發
愛奇藝ZoomAI技術，助力經典國劇修復
2019-08-14
OOMAI
車澈的愛奇藝往事
2022-03-18
愛奇藝財報：2024年愛奇藝總收入292.3億元同比下降 8%
2025-02-18
200萬獎金全球招募參賽團隊，第二屆京東X機器人挑戰賽再燃戰火
2018-06-26
機器人
Android篇 | 愛奇藝App啟動最佳化實踐分享
2022-12-05
AndroidAPP
【AI競賽】TinyMind漢字書法識別挑戰賽開始報名啦！！
2018-04-10
AI

愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享：明確目標，奮力前行

一、團隊介紹

二、團隊方案

1、視訊特徵融合

2、多模態特徵融合

3、模型整合

三、經驗總結

四、參考文獻

相關文章