愛奇藝短視訊打標籤技術解析

愛奇藝技術產品團隊發表於2018-12-29

寫在前面

最近幾年出現了很多以短視訊的創作和分發作為主打的手機應用軟體,這極大地豐富了文字和影象之外的資訊創作和分發方式。這些短視訊應用自從問世以後,便迅速地佔領了市場,得到了廣大使用者的青睞。目前,短視訊正逐漸成為網際網路上的一種重要的資訊傳播方式,由此產生了大量的短視訊資料。

為了更好地利用短視訊資料,提升短視訊的創作和分發效果及效率,需要為短視訊打上各種有用的標籤,這些標籤可以作為短視訊所記錄的內容的概括和總結。以此為基礎,推薦系統或搜尋引擎就可以利用短視訊標籤為使用者提供精準的短視訊推薦或搜尋服務了。

為了推動視訊理解的技術進展,2016年穀歌釋出了目前業內最大的視訊資料集YouTube-8M,並基於此在2017年和2018年舉辦了兩屆視訊理解挑戰賽,挑戰賽的目標是在谷歌給定的訓練資料以及預先提好的音視訊特徵上設計並訓練機器學習模型,以求在測試集上達到最佳的效能。以2018年的挑戰賽為例,谷歌釋出的視訊資料共計600多萬條,包含的標籤共計3800多個,吸引了來自全球40多個國家和地區的390多支隊伍參賽。這個比賽具有很大的挑戰性,所有標籤的標註都是視訊級別的,也就是我們只知道這個視訊中有給定的標籤,但是,我們並不知道它在視訊中出現的具體時間段。我們針對愛奇藝短視訊打標籤的解決方案便是源於對這兩次競賽自研的神經網路模型。

技術分析

愛奇藝短視訊打標籤技術解析

在預先提好的音視訊特徵基礎上設計神經網路模型進行打標籤的問題,可以歸結為設計一個有效的音訊和視訊特徵聚合模組的問題,這裡所謂聚合就是將若干個特徵向量組成的矩陣變成一個向量,從而可以輸入任意的分類器進行分類。

我們針對音訊和視訊特徵聚合採用了相似的處理流程,並在最後對音訊和視訊的聚合結果進行融合,然後輸入混合專家神經網路進行分類並輸出標籤。以視訊特徵聚合為例,視訊首先通過取樣變成了若干張影象,然後對每張影象提取一個固定長度的特徵向量。我們分別考察了特徵向量的不同分量的重要性以及不同的特徵向量的重要性,提出了基於門控和注意力機制神經網路聚合模組,簡稱為門控注意力神經網路,該模組的所有引數可以通過反向傳播演算法學習得到。

特徵向量的不同分量的重要性主要是通過將一個視訊的所有特徵向量進行時序平均池化生成一個池化向量,並將其輸入一個兩層的神經網路,第一層的神經元數目小於池化向量的元素數目,這構成了一個瓶頸結構,這個兩層的神經網路的輸出經過Sigmoid函式啟用後逐點地乘以視訊的每個特徵向量的不同分量,這個結構被稱為瓶頸門控,通過學習可以自動地得到特徵向量每個分量的重要性。

不同的特徵向量的重要性是通過注意力機制實現的,通過引入若干個可學習的注意力向量,對於每個注意力向量我們可以得到每個特徵向量的權重,然後將特徵向量進行加權平均得到一個池化向量,最後將這些池化向量拼接起來就可以得到視訊的所有特徵向量的聚合結果。

案例

下面我們給出在薑餅短視訊上採用我們研發的模型打標籤的結果,如下面的圖片所示。這裡的每一張圖片來自一段15秒的短視訊的截圖,我們把打出的標籤以及置信度疊加到了圖片上。我們的打標籤模型可以打出實體類標籤,比如,寵物和美食;可以打出人物類標籤,比如,萌娃;可以打出動作類標籤,比如,舞蹈;可以打出時尚類標籤,比如,美妝;還可以打出技術流特效這種標籤。這裡僅舉了幾個例子,實際上我們的模型可以涵蓋薑餅短視訊的幾十種型別標籤。

愛奇藝短視訊打標籤技術解析

愛奇藝短視訊打標籤技術解析

效果說明

我們研發的單個神經網路模型在2017年YouTube-8M挑戰賽的測試集上領先於最佳單模型NetVLAD達到0.9個百分點GAP(Global Average Precision)。2018年的YouTube-8M挑戰賽增加了模型大小的限制,要求提交的模型解壓縮後小於1GB,並且可以被TensorFlow的API直接讀取。我們擴充套件了針對2017年挑戰賽設計的模型,提出了一種多分支特徵聚合方法,該方法在2018年的YouTube-8M挑戰賽的測試集上領先於兩個並列的最佳單模型NeXtVLAD和谷歌最新版本的DBoF達到0.3個百分點GAP,並且是唯一一個GAP超過88%的單模型。

針對上面介紹的模型,我們進一步加入了文字特徵,文字特徵來自於標題經過神經網路處理後的固定長度的向量。通過融合音視訊和文字特徵我們的打標籤模型的效能可以得到進一步的提升。目前短視訊打標籤模型已經在公司內部的薑餅短視訊、資訊流等業務中落地,覆蓋上萬種高質量內容標籤和幾十種型別標籤,每天持續而穩定地提供短視訊打標籤服務。

總結/延伸

我們針對弱標註下的短視訊打標籤這個問題進行了深入研發,得到了幾種神經網路模型,取得了業內效能領先的短視訊打標籤單模型,申請了若干項中國發明專利,併成功地在公司的幾個業務中落地。但是現在的技術只輸出了視訊級別的標籤,對於更長的視訊可能會有需求希望能夠定位到標籤出現的具體時間段,未來可以擴充套件相關技術不僅實現打標籤,還要實現標籤的時間段定位。

未來規劃

短視訊應用方興未艾,可以預見的是未來將會有大量的短視訊資料被創造出來併發布到網際網路上,將短視訊打上標籤是活用短視訊資料的主要途徑之一。我們針對短視訊打標籤這個問題進行了深入的研發,並取得了一些結果,但是,仍然有很多問題亟待解決。

第一,我們目前的模型只覆蓋了上萬種高頻的標籤詞,但是,這些標籤詞只能代表短視訊內容的一部分,未來還需要對標籤詞的數量進行擴充套件,以覆蓋儘可能多的視訊內容;

第二,我們研發的模型受限於底層提取音視訊和文字特徵的神經網路的效能,未來還需要研發效能更好的提取音視訊和文字特徵的神經網路模型;

第三,我們無法期望僅用一個模型解決所有的短視訊打標籤問題,未來我們會針對現有模型無法很好處理的標籤型別研發更好的短視訊打標籤模型。

相關文章