2016 年,愛奇藝在世界競賽 emotioW 視訊人臉表情識別國際競賽中,綜合利用人臉和音訊的多模態資訊獲得比賽第一名,在這一契機下,愛奇藝從此開始進行多模態方面更加深入的研究。
釋出全球最大明星資料集 iQIYI-VID
為了促進多模態技術研發,愛奇藝在 2018 年舉辦了愛奇藝多模態視訊人物識別挑戰賽,釋出了當時全球首個最大明星資料集(iQIYI-VID)。目前,2019 年愛奇藝視訊人物識別挑戰賽已經啟動,3 月 18 日愛奇藝開源了最接近實際媒體應用場景的視訊人物資料集(iQIYI-VID-2019)。與 2018 年的資料集相比,這個資料集更具有挑戰性,總共包含 10000 個明星人物、200 個小時、20 萬影視劇與短視訊人物資料集,全部採用人工標註。相對於 iQIYI-VID,iQIYI-VID-2019 增加了 5000 個明星藝人,新增人物主要來自短視訊,包括化妝、特效、不同場景的動作等。
iQIYI-VID-2018 資料集連結:
http://challenge.ai.iqiyi.com/detail?raceId=5b1129e42a360316a898ff4f
iQIYI-VID-2019 資料集下載連結:
http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7
這些資料集,是愛奇藝在業務中落地多媒體技術的基礎,有了這些資料,才讓展開各種實踐成為可能。
愛奇藝多模態實踐及技術詳解
愛奇藝已經將視訊識別技術應用於實際業務中,上線了一系列基於 AI 技術的產品,如只看 TA、電視端 AI 雷達、Starworks 智慧生產、愛創媒資系統、藝匯選角、廣告創可貼點位、智慧稽核系統等。這些基於 AI 的技術可以幫助愛奇藝提升人物識別精準度,優化愛奇藝生態系統,以下為多模態技術在愛奇藝實際業務場景中的一些應用例項及其技術詳解:
只看 TA:人臉識別、人體識別及場景識別
在愛奇藝 APP 中,只看 TA 這個功能可以使得使用者在觀看視訊的時候,可以選擇只看某個演員或只看某對 CP 的功能,這是 AI 人物識別技術在愛奇藝的一個典型應用。目前,只看 TA 已經實現完全自動化的分析,該功能已經在愛奇藝 APP 移動端上線。
TV 端銀河奇異果 -AI 雷達:人臉識別、場景識別、音訊分析技術
愛奇藝 TV 端的銀河奇異果 -AI 雷達這個功能讓使用者在看電視時可以通過按遙控器上健來識別畫面中的人物,背後的身份識別技術也用到了多模態,比如為了保證只看 TA 人物片段的劇情完整性,除了人臉識別技術,還需要結合場景識別、音訊分析技術。
逗芽表情
聊天鬥圖、看劇追星、搞笑沙雕,你的聊天頁面永遠缺一個有趣的表情包!愛奇藝基於日益增長的表情分發需求及場景,結合 AI 技術和愛奇藝 IP 視訊資源,設計了一款通過 AI 生產動圖 + 人工運營 +IP 設計模式的表情分發產品——逗芽表情小程式。逗芽表情不僅可以通過 AI 技術自動識別視訊中的人物表情並擷取生成動圖,還根據識別出的人物情緒自動匹配上相同情感的文字。目前逗芽表情日均可更新 5000 張高質量動圖,並實時追蹤熱點,保證了動圖的新鮮度和豐富度。
明星視訊混剪 Starworks:智慧生成視訊剪輯
在追星族中,盛行著剪輯偶像視訊的風氣,有才華粉絲不但會想方設法把所有關於偶像的鏡頭剪輯到視訊中,甚至會把素材自編自導成有故事有情節的小劇場,被稱為“剪刀手”。但是,剪輯偶像視訊是一個痛並快樂著的過程,在浩如煙海的視訊中找到並剪輯關於偶像的鏡頭非常耗時耗力,煞費心血。現在,愛奇藝基於多媒體技術的明星視訊混剪 Starworks,就可以讓這些“剪刀手下崗”了。
Starworks 可以實現根據劇本自動搜尋素材,智慧生成符合某個話題的視訊集錦,支援不同畫面的不同輸出方式,如橫豎屏效果、自動卡點配樂、臺詞集錦、CP 等。如漫威老爺子,在他的 100 部大片中,他均有幾秒鐘的客串鏡頭,如果有人在他去世的時候想剪輯出只有他出現的鏡頭並拼接成短視訊來紀念他,純人工的工作量有多大可想而知。但是,Starworks 可以在不到 1 分鐘內完成。
以此為例來說明一下,Starworks 是如何做到在一分鐘之內完成只看 TA。
首先,愛奇藝長視訊中所有的人物,都已經用人臉識別技術打上了明星的點位資訊,愛奇藝擁有百萬級的明星人物庫,使得人臉識別可以識別出從一線到十八線的相關明星藝人;然後,人工需要設定視訊時長、人物、剪輯模式、配樂與否等資訊,AI 根據這些設定引數,直接輸出該明星的視訊。也就是說 Starworks 自動生產視訊,其實分為兩步,一是給視訊打點,二是鏡頭合成策略。合成策略裡會分為好多子模組,就像一個剪輯師有自己的素材庫、音樂庫、特效庫、花字型檔一樣,AI 這裡除了有這些庫以外,還有不少演算法來模仿剪輯師的行為,如音樂分類、節拍點檢測等演算法,來完成鏡頭與音樂的匹配合拍等。
Starworks 還可以利用臺詞搜尋,實現相同或相關臺詞的集錦。比如《延禧攻略》這個巨火的宮鬥劇,你知道有多少人罵魏瓔珞“瘋了”嗎?有多少人嫉恨魏瓔珞,歇斯底里地罵她“賤人”嗎?Starworks 根據臺詞索引,可以馬上把相關片段找出來,是不是很瘋狂?
這個功能涉及到的技術主要包括人臉識別、人臉表情等屬性識別、場景識別、服飾和職業識別、臺詞 OCR、NLP、聲音和音樂檢測、音樂節拍點提取、鏡頭切分、專場特效、視訊濾鏡等模態。
Starworks 還可以人臉表情識別,如吳亦凡是不是很酷?很少見他笑?Starworks 可以根據表情搜尋,找到所有吳亦凡的笑的鏡頭。
在人臉識別方面的進步得益於愛奇藝建立的明星人物庫,收錄了 100 萬多知名明星或不太知名的藝人,同時,愛奇藝 AI 技術會監聽熱搜、播放 VV 等多方資料,將大家感興趣的明星人物自動同步到愛奇藝明星人物庫,完成人臉識別模型的快速更新。
此外,愛奇藝的人臉識別技術不僅支援真人識別,還支援卡通角色識別。愛奇藝的卡通角色庫已經支援熱劇中 2 萬多卡通角色,是目前已知的最大規模卡通角色庫,也是愛奇藝 AI 技術獨有的虛擬形象識別。
情緒識別和分析、視覺語義化還不完美
在愛奇藝科學家、PersonAI 團隊負責人路菊香看來,要實現完美的情緒識別和分析、視覺語義化,我們還有很長的一段路要走。人和機器最大的區別在於,人有感情,而機器沒有,這就是機器人在現在和未來永遠都不可能取代人類的原因之一。識別人的情緒,人機互動才能進行得更加順暢,讓人更有代入感,但目前在情緒識別和分析這一方面,AI 技術還任重而道遠。
路菊香表示,所謂的情感識別,在 AI 裡就是轉換成某種行為的標籤,比如對於愛情,AI 可以識別 CP 同框,以及兩人是否擁抱、接吻、牽手、微笑等,但是並不知道兩個人是否真的相愛。所以,AI 識別情感,只能從這些標籤中抽象,但有時候,僅從標籤中無法抽象出來一些感情的。目前,AI 情緒識別主要用於識別表情、聲音、臺詞等標籤,愛奇藝在這些方面均有應用,如 Starworks 生產符合某個主題的視訊,需要綜合利用多種標籤。
另一方面,人類接收資訊的方式多種多樣,包括聽覺、觸覺、嗅覺等,但是最重要的方式還是視覺,因此,視覺語義化對人類來說是一個具有重要意義的應用方向。
路菊香介紹道,從多模態學習到視覺語義,一般有兩種方式:一種是輸入多模態特徵,輸出高層語義,直接訓練,即端到端的黑盒模式;另外一種是輸入單個模態的特徵,提取單模態的標籤,再從這些標籤中抽象出高層語義。現實應用中往往根據具體問題,多種策略並用。
目前,視覺語義化已經可以結合人臉、表情、行為、臺詞等方式進行視訊內容的簡單描述,並進行檢索人物情感分析,而這些從單一模態難以獲得準確的結果。因為人的表達是通過表情、聲調、語言三個方面來綜合進行的,所以多模態資訊的利用是最準確的解決方案,在多個維度上建立視訊的標籤 gragh,節點表示不同模態的標籤輸出,節點的連線表示標籤的關聯,實現語義化的推理,視訊人物表情識別。
但是,利用視覺語義化完成更多日常任務,業界仍在努力。
多模態技術和應用難點
將多模態技術應用於視訊業務場景中不是一件容易的事。路香菊表示,多模態技術應用的主要難點在於,多模態資訊不能生搬硬湊,需要探索高效整合的方式,挖掘各模態之間的資訊關聯性和可遷移性,採用模型學習和人工先驗結合的方式進行多模態資訊整合,其中,文字的抽象內容標籤和圖片、音訊的具體標籤的對應關係是最困難的,簡單來說,就是多模態資訊融合策略、如何加速的問題。
路香菊建議應該具體問題具體分析,主要難點在於各個模態的關聯表達與融合,如在人物識別時,聲紋特徵與身體特徵有時都可以有效地表示人的身份,但是,兩者加起來,並不一定會達到更好的效果,如何將兩者有效地結合在一起,如何把人的身份資訊綜合在一個超維度上表達,是非常有挑戰的。
虛擬主播是多模態里程碑式突破
在國內,多模態研究相對國外來說起步較晚,目前還是集中在諸如情感識別、人物識別、音視訊語音識別、事件檢測等比較傳統的方向。
但是,國內多模態研究的發展速度非常快,目前在一些主流的學術資料庫上已經達到了世界領先的水平,比如愛奇藝在 2016 年的 EmotioW 情感識別競賽上取得了第一名,超過了英特爾和微軟;在在 iQIYI-VID 多模態人物識別資料集上,愛奇藝利用多模態技術也取得了最高的精度。
在應用方面,國內的多模態技術已經基本實現了和國際同步,愛奇藝在視訊智慧生產的多個專案中都採用了多模態技術,如視訊說話人身份識別,愛奇藝使用了人臉、臺詞、聲紋來精確判斷哪句臺詞是誰說的,這是視訊理解當中的一個最核心問題;另外,愛奇藝還實現了視訊和表情包的自動配樂,音樂節拍提取和明星精彩片段切分來實現明星的視訊混剪,都實現了業務落地。
在路菊香看來,愛奇藝的手語主播,以及有些公司推出的虛擬主持人,都是今年來多模態應用的一個里程碑。虛擬人物形象的出現,代表多模態已經可以簡單模仿人的行為,完成特定的使命。
打破單模態限制,更貼近人類習慣
多模態未來的應用前景廣闊,比如表情包自動配文案演算法,採用的就是多模態內容遷移來實現表情包的自動生成。另外,學術上也一直有一些很活躍的方向,如看圖說話、跨模態內容檢索、視覺問答等。
路菊香表示,多模態技術未來發展的方向,會越來越打破單模態輸入輸出限制,從而更貼近人類真實使用習慣,因為在人類的實際生活中,多模態是無處不在的。在人類日常生活當中,綜合利用多模態資訊可以幫助我們更準確的理解人類行為,如學生上課狀態監控、健康監護等。
採訪嘉賓介紹路香菊博士,愛奇藝科學家,PersonAI 團隊負責人,專注人物識別及視訊分析,建立百萬人物庫及兩萬卡通庫。組織創辦“愛奇藝多模態視訊人物識別賽”,開放全球首個影視視訊人物資料庫 iQIYI-VID。