多模態人物識別技術及其在愛奇藝視訊場景中的應用
嘉賓 | 愛奇藝
編輯 | Jane
出品 | AI科技大本營(ID:rgznai100)
在本期 CSDN 技術公開課Plus:《多模態人物識別技術及其在視訊場景中的應用》中,愛奇藝科學家路香菊博士將為大家介紹了多模態人物識別技術及在視訊場景中的應用。大家可以學習到愛奇藝在多模態技術領域的三項主要研究工作,並且在愛奇藝視訊中是如何應用這些技術的。
講師介紹:路香菊,愛奇藝科學家,身份識別(PersonAI)團隊負責人,專注於人物識別、AI等技術,負責愛奇藝多模態人物識別、智慧創作等相關業務。組織創辦“愛奇藝多模態視訊人物識別賽”,開放全球首個影視視訊人物數庫iQIYI-VID,建立百萬人物庫及四萬卡通角色庫,相關技術應用到愛奇藝APP“掃一掃”及AI雷達等產品中。
一、多模態技術基礎介紹
首先,請大家思考一個問題: 人物識別只是等同於人臉識別嗎?其實,人物識別我們現在的工作中不僅僅是人臉識別,為什麼是這樣呢?因為在視訊中,特別是在一些綜藝節目、或者動作片中,完全通過個人的人臉是無法滿足所有情況的,知道一個人的身份還需要其他屬性,像下圖中右邊這個圖人物,大家一看就知道他是郭德綱,但是如我我們用人臉識別絕對是沒有辦法識別出來的,因為他的人臉沒有露出來,只有一個後腦勺,所以,我們現在基於人物識別的技術還涉及人體的識別,也就是我們監控上的 RE-ID。除此之外,在視訊中,還需要識別服飾、髮型、聲紋和指紋、虹膜等生物特徵。所以,現在基於視訊場景中的人物識別已經成為一個綜合需求的識別。
第二,如何識別虛擬人物?我們之所以叫虛擬人物,是因為它不是真實的一個人物,它包括卡通人物、二次元、動漫以及與遊戲人物等形象,現在這部分角色也越來越多,已經成為娛樂行業一個非常重要的需求。在這些現實需求下,我們的研究工作也基本上在實際中落地應用。基於這些實際應用,接下來就與大家分享我們在人物識別與虛擬人物識別工作中的主要演算法。
二、多模態技術解讀(一):人物識別(IQFace)
這部分內容將主要為大家介紹真人人物識別的多模態基礎技術。基於愛奇藝視訊內容的需求,我們不僅要做人臉識別,在人臉資訊不足或不清晰的情況下,還需要其他資訊來輔助進行人物定位,在所有的資訊中,我們首先想到的是聲音資訊;其次,在無聲情境中,我們需要結合場景(如打鬥、行走中、監控)利用人物的一些動作資訊、背影等姿態資訊以及服飾等資訊來進行人物身份判斷。如下圖所示,是我們在業務中需要處理的主要資訊類別。
通過人臉檢測與五官定位進行人臉識別及年齡、性別、表情姿態等屬性分析,得到更好的認識;此外,根據實際業務需求,如視訊中一些藝人本身獨有的氣質,得到一些特殊的屬性,這部分的處理方法是我們根據實際業務場景進行“量身訂作”的。除了人臉資訊外,還會用到人體資訊,如人體姿態的估計(體型、服飾)、行為資料(手勢、動作)、人體RE-ID特徵提取、從人物的聲音提取聲紋特徵,這這些都有助於我們對人物進行屬性分析與人物身份判斷,我們也在實際工程中用到人臉,人體,聲紋這三種資訊組成多模態資訊識別。
有了多模態識別的基礎資料資訊,接下來就是多模態技術的演算法,如圖所呈現的是我們整體演算法框架及工程邏輯。
目前,我們人臉別相關演算法使用的人臉資料庫 ID數達到了550萬,可直接識別名字的名人數量達到30萬左右,為了支援這麼大規模的人物資料訓練,我們自研一個定製化分散式框架,雖然也有一些開源的框架,不過更多情況下適合一些簡單任務,針對有定製化需求的任務難以滿足,所以我們自研的框架無論是整體訓練的精度還是訓練速度,都可以取得非常大的提升。
我們可以針對模型定型、資料定型,包括GPO、程式的通訊,都進做了優化處理;在識別的精度方面,我們在自己的資料集上進行了評測:第一個資料集是中學生庫,資料分佈主要集中在證件照或證件照相匹配的實際應用場景;二是愛奇藝員工資料庫,是我們內部員工的資料庫,裡面包含了大量的人臉、姿態、表情等變化;三是愛奇藝在多模態人物識別競賽中釋出的資料集,裡面主要是針對明星的視訊資料進行身份識別。
實際業務場景中面臨非常多人臉屬性的相關需求,現在人臉屬性已支援到27個,包含常見屬性(表情、男女、年齡)和獨有的人臉屬性,比如說氣質、微表情屬性。(微表情指的是人臉基本活動單元的一個啟用狀態,也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理)微表情指的是人臉基本活動單元的一個啟用狀態,也叫做一個A,目前微表情除了十一個常見的AU基本能源外,我們根據實際業務中有著強需求的類別,比如吐舌頭,翻白眼,嘟嘴,眉毛上升進行處理;在這方面,我們提出了一個創新性工作:利用微表情和資料庫中的表情包來自動生成視訊中的微表情包資料,具體做法是將庫中微表情的一個表情包資料來分別提取人臉的微表情特徵與表情包文案同時與長視訊中取到的人物微表情素材進行匹配,最後再進行文案遷移,來實現表情包的自動生成,這個方法不僅可用於人臉微表情生成,也已經實際用於卡通人物的微表情生成。
面對這麼多人臉資料,如何處理噪聲是一項非常艱鉅的一個任務。圖中是我們有一系列噪聲的處理流程,以演算法為主,人工為輔,將人臉資料集的噪聲比例降到了非常低,使模型精度有較大提升。通過模型量化、剪枝、蒸餾等處理優化模型速度,同時對CPU版本進行定製優化,節省了大量資源。
另外,除了已知ID資訊,還要充分利用愛奇藝站內視訊資來源獲取無標籤資料輔助人臉模型訓練,下面主要講一下我們如何利用這些無標籤資料進行訓練,這個相關工作的論文《利用無標籤資料優化人臉識別模型》今年發表於被 ICCV 2019 Workshop大會收錄。
如果想要所有資料都是已知ID是比較困難的,需要大量人工標註工作,但是獲取無標籤資料是非常容易的,我們可以獲取海量的無標籤資料來輔助人臉識別模型訓練,主要的一個思路是利用無標籤資料填充有標籤資料分佈的未知區域,使有標籤資料分佈變得更緊,即有標籤資料的分類間隔更大,分類內間隔變緊緻,最終獲得更好的分類效果,具體做法如下圖,令無標籤資料得到一個額外的Loss,疊加到之前訓練的Loss 中,輔助最終的模型訓練。
-
具體模型與演算法解讀:Unknown Identity Rejection(UIR)Loss
為了利用無標籤資料,我們設計了半監督損失函式,Unknown Identity Rejection(UIR)Loss。人臉識別是open-set問題,將開放環境中的人物類別分為兩類:有標籤類 和無標籤類 , 。訓練過程中,對於有標籤類,每個樣本特徵需要逼近分類層對應類別的類心向量;對於無標籤類,它不屬於分類層的任何一個類,模型需要“拒絕”它們,即特徵與每個分類層類心距離都足夠遠。如下圖(a), 表示兩個分類層類心向量,圓點表示樣本特徵。圖(b)中,加入無標籤類 後,為了 距離 足夠遠,會使得有標籤類別在特徵空間上更稀疏,類間距離更大。
對於 CNN 分類模型,全連線分類層的輸出經過 softmax 後得到
,表示屬於各個類別的概率值。然而無標籤類別並不屬於任何一類,理想情況下應該都足夠小,可以通過設定閾值將其過濾,提升庫外拒絕率。基於這個想法,問題可以轉化成:
上式是多目標最小化問題,可以轉化成:
因此得到UIR loss,即:
模型總的loss是有標籤類別的loss加上無標籤類別的UIR loss:
模型框圖如下,無標籤資料和有標籤資料一起作為輸入,經過骨幹網路得到特徵,全連線層得到輸出概率值,根據概率值分別計算
。
實驗結果
我們採用MS-Celeb-1M清洗過後的MS1MV2資料集作為有標籤資料,包括9萬人物類別的5百萬圖片資料。從網上爬取資料,經過清洗,基本保證與有標籤資料較低的重合率,得到約4.9百萬張無標籤資料。
分別在iQIYI-VID和Trillion-Pairs和IJB-C三個測試集上驗證了方法的有效性。測試了四種骨幹網路,實驗結果說明,加入無標籤資料的UIR loss後,模型效能有所提升。由於篇幅原因,IJB-C測試結果只貼了ResNet100部分,其他結果可參照論文。
二、多模態技術解讀(二):虛擬人物識別(iCartoonFace)
基於對真實人物識別的多模態技術的初步認識,接下來介紹在虛擬人物識別的技術與經驗。虛擬人物識別包含什麼?概括來說虛擬人物識別包含卡通、動漫、遊戲人物等所有創作出來的虛擬形象。
虛擬人物識別技術遇到的第一個挑戰就是資料來源問題,無論是圖片數量還是人物身份資訊數量,對應用到實際業務中來說都是遠遠不夠的,同時這些資料的標註資訊質量也不高,需要我們在前期工作中花費大量的時間進行資料清洗與標註工作。目前我們已經積累了大約四萬多個角色,近50萬張訓練圖片,標註精度打98%,標註資訊包括位置檢測框、姿態、性別、顏色等。
資料整理後進行模型訓練,訓練過程中有一類資料需要特別關注,如下圖所示,模型很難識別差異很小的不同人物與差異很大的同一人物,這種現象在實際的視訊中是很常見的一種情況,如何解決這一難點?在實際工程中,我們可以有針對性在模型本身或測試標準上進行特殊處理。
這裡借鑑了上述真人識別方法中的一些損失函式,如 Softmax、SphereFace、CasFace、ARCFace等,不斷使類內分佈更緊密,類間分佈差異更大,提高實踐應用中判別的準確性。
此外,利用真人資料與卡通資料進行融合來彌補虛擬人物資料不足的現狀。如下圖中A表示融合之前,B表示與真人人臉融合之後使卡通人物的分佈更緊密,同時拉開類間距離,實驗資料上也證明了方法的有效性。
相關論文暫未發表,請大家後續繼續關注我們的訊息。
三、多模態資料庫與多模態演算法
通過兩年的積累,目前愛奇藝基於真實場景中視訊任務的多模態資料庫已經成為業內首個多模態資料,並且標籤清晰,規模最大,致力於給大家的研究工作提供更多的幫助。
基於多模態資料庫,利用人臉、人頭、人體與聲紋四中特徵,我們設計了一種多模態識別演算法架構,在模型中提出多模型注意力模型,將這四種特種進行融合。
http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7.
文章中主要是描述了資料集的收集與標註過程,暫時未涉及到具體的多模態演算法,愛奇藝多模態演算法的更多資訊請持續關注我們的訊息,發表後會為大家做詳細解讀。
有很多研究團隊基於此在資料增強、交叉驗證和使用無噪聲樣本進行訓練等方面進行了工作的改進。也有工作針對模型架構進行了改進,提出了開放性網路架構,如下圖所示,模型主體為全連線層網路,能接收深層次與淺層次間的資訊,在兩個 dense 層之間加入跳躍連線,將不同層資訊進行融合,同時根據 residual block 思路進行改進,加入dropout和batch norm防止過擬合。
四、多模態技術在視訊場景中的應用與實踐案例:只看TA與AI 雷達
大家在使用愛奇藝APP過程中可能已經體驗過「只看TA」功能了,其次還有 TV端的 AI 雷達功能等,這些大家日常使用的應用背後都離不開多模態資料庫與多模態技術演算法的支撐。針對大家都很關注的多模態演算法問題上, 主要和大家分享以下幾點:
1、大家都很關注演算法中多模態是如何加權、聯合與統一的,而多模態演算法是一個非常複雜的問題,而且資料噪聲很大,某一機器學習模型可能無法識別所有特徵,也不是多有特徵都能起到正面作用,因此我們不能只依靠調整權重解決,要從模型學習過程入手,用演算法提煉在什麼情況什麼特徵起到關鍵作用。
2、微表情特徵的匹配一個環節是根據人臉的相似度和每個AU的相似度進行匹配;文案匹配是通過網上下載了很多帶有文案的表情包,再與視訊中提取的表情包進行匹配,如果匹配效果較好,再將文案遷移。
對於上面提到的多項研究論文與資料庫感興趣,大家可以查閱:
論文與論文地址:
-
《Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition》
https://arxiv.org/pdf/1910.10896v1.pdf
-
《iCartoonFace: A Benchmark of Cartoon Person Recognition》
https://arxiv.org/pdf/1907.13394v1.pdf
-
《iQIYI-VID: A Large Dataset for Multi-modal Person Identification》
https://arxiv.org/abs/1811.07548
https://www.toutiao.com/i6767291369154150920/
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2667437/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 愛奇藝短視訊軟色情識別技術解析
- 淺析人臉識別技術應用場景
- 語音識別技術有哪些應用場景?
- 人臉識別技術的優勢和主要應用場景
- 詳解愛奇藝ZoomAI視訊增強技術的應用OOMAI
- 多模態學習,帶來AI全新應用場景?AI
- 免費報名 | 愛奇藝ZoomAI視訊增強技術的應用OOMAI
- 大規模機器學習在愛奇藝視訊分析理解中的實踐機器學習
- Debias 技術在金融推薦場景下的應用
- React 中的高階元件及其應用場景React元件
- 知識圖譜中的推理技術及其在高考機器人中的應用機器人
- Java身份證識別介面在叫車場景的應用Java
- 淺析WebRTC技術在智慧園區影片管理場景中的應用Web
- AI 在愛奇藝視訊廣告中的探索AI
- 愛奇藝多模態人物識別挑戰賽TOP3團隊經驗分享:明確目標,奮力前行
- 閉包及其應用場景
- 多卡聚合技術在消防應急視覺化指揮視訊傳輸的應用視覺化
- 愛奇藝視訊增強技術——ZoomAIOOMAI
- 拯救老電影——詳解愛奇藝ZoomAI視訊增強技術的應用OOMAI
- BERT在多模態領域中的應用
- 資料湖Iceberg技術在小米的落地與場景應用
- 堆排序原理及其應用場景排序
- 捷訊技術分享雲伺服器ECS常用的應用場景?伺服器
- 愛奇藝短視訊打標籤技術解析
- VMware Bitfusion GPU共享技術的應用場景GPU
- 視覺化技術在 Nebula Graph 中的應用視覺化
- 人臉識別技術在道路交通管理中的應用探究
- 愛奇藝短影片軟色情識別技術解析
- 文字識別解決方案-OCR識別應用場景解析
- 圖技術在美團外賣下的場景化應用及探索
- 低延時音影片技術在OPPO雲渲染場景的應用
- tsv檔案在大資料技術棧裡的應用場景大資料
- 人臉識別技術應用
- 從實時音視訊的微場景看混音技術
- 機器學習在客戶管理場景中的應用機器學習
- AI在視訊遊戲中的應用AI遊戲
- 視訊場景下的自然語言處理應用自然語言處理
- 全雙工與半雙工技術解析及其應用場景