學術派 | 基於AI的影片精彩度分析技術

愛奇藝技術產品團隊發表於2020-07-15

前 言
隨著影片數量的爆發式增長,特別是近年來短影片領域的迅速崛起,影片已經成為大部分網際網路使用者娛樂的首要選擇,佔據了使用者大部分娛樂時間。面對如此海量的影片,如何幫助愛奇藝使用者從冗長的影片中篩選出更具吸引力的影片片段,提高使用者的觀看體驗,提升使用者粘性,成為我們十分關注的研究課題。為此,我們深入研究了影片精彩度分析技術,成功實現了不同時間粒度下精彩影片片段的自動篩選,並能給出片段包含的看點標籤,在多個業務場景中都得到了較好的應用效果。
愛奇藝擁有十分豐富的PPC(Professional Produced Content)影片資源,影片內容多樣,僅僅是綜藝就可分為搞笑、選秀、訪談、情感、職場、脫口秀等十幾種型別,如果每個型別都建立一個精彩度模型,不僅資源消耗巨大,而且模型的自適應能力也將大大降低。學術界的精彩看點檢測技術大多聚焦於UGC(User Generated Content)影片,且通常是針對特定領域影片的分析,因而並不適合直接應用於愛奇藝的精彩度分析技術中。業界公開的關於影片的精彩度探索比較少,較有影響力的為2017年百度公開的Video Highlight資料集,該資料集包括1500個綜藝長影片,影片總時長約1200小時,只對片段進行了精彩/非精彩標註。如何針對愛奇藝多個業務場景的需求,對內容多樣的影片建立通用精彩度模型,並對影片內容進行更加精細化的精彩度分析,是我們面臨的主要挑戰。
本文將介紹我們探索出的影片精彩度分析技術方案,整體技術框架如下:
學術派 | 基於AI的影片精彩度分析技術
圖1 影片精彩度分析技術方案

該方案融合了監督模型、弱監督模型和明星、使用者片段擷取等其他維度的資訊,能夠綜合給出較為符合人為主觀評價的影片精彩度評分。下面我們將詳細介紹各個模組的具體技術解決方案。

影片精彩度分析技術方案

1

影片精彩度監督模型

我們的目標是對影片的精彩度進行較為準確的評分,而非簡單的精彩/非精彩二分類,因而我們將精彩度建模為一個迴歸任務,而建立監督模型的前提是擁有高質量的標註資料集。我們的資料集來自5000多部愛奇藝影視劇和綜藝長影片,每條資料為10s左右的影片切片,標註人員對切片根據精彩度進行打分0到10打分,並對精彩切片從場景、行為、情感、對話等多個維度上人工打出精彩看點標籤,建立了包含超過36萬切片的影片精彩度分析資料集。該資料集具有以下特點:

(1)資料集大,從頭訓練端到端的模型,訓練成本高;
(2)精彩度評分主觀性較大,標註人員對同型別切片的打分可能有1-3分的差異;
(3)精彩度評分與精彩看點標籤高度相關,精彩切片一定包含看點標籤;
(4)看點標籤為多標籤,標籤內部具有較大的相關性,如搞笑和大笑、鼓掌和歡呼等。
針對資料集的以上特點,我們採用遷移學習,先提取多模態特徵對影片切片進行表徵,再進行後續訓練,提高模型效能的同時大大降低了訓練成本;對於精彩度分數,採用標籤分佈學習演算法去學習分數標籤的分佈,而非傳統的迴歸loss;對於看點標籤,我們採用典型相關自編碼器演算法去學習標籤內部的相關性;最後我們採用了多工學習模型,同時訓練精彩度分數和看點標籤,獲得了比單個任務更佳的效能。下圖是我們的精彩度監督模型技術框架。
學術派 | 基於AI的影片精彩度分析技術
圖 2 精彩度監督模型技術框架

下面我們分別詳細介紹各個技術模組:

特徵提取

我們的資料集包含超過36萬的影片切片,已經超過了行為識別資料集kinetics-400的規模。研究表明,3D CNN是比2D CNN更好的影片表徵模型,我們的實驗也證明了這一點,但同時3D CNN的模型引數也達到上千萬甚至上億。如果用幾十萬影片資料從頭訓練3D CNN模型,每次超引數調優如batch size、學習率、正則係數、最佳化器等的組合變化,都需要幾十萬次的迭代才能看到效果,不僅需要耗費更多的計算資源和訓練時間,也可能會影響模型的最終效果。
因而,我們借鑑2D視覺任務中比較流行的基於預訓練的ImageNet模型進行遷移學習的做法,首先用基於kinetics-400訓練得到的行為識別I3D模型,對我們的資料提取影片特徵,基於影片特徵進行網路訓練。另外,我們還基於精彩度資料集對I3D的高層網路進行了微調,用微調網路提取影片特徵比直接用原始I3D模型特徵效果更好。最後,我們考慮到影片的精彩度不僅與影片的視覺內容有關,還與音訊高度相關,因而我們用基於包含200萬個10秒音訊的AudioSet資料集訓練得到的Vggish模型,對我們的資料集提取音訊特徵,將音影片特徵融合後輸入自己設計的神經網路進行訓練,相比單模態特徵,採用多模態特徵使得模型效能得到了顯著提升。下圖是我們基於百度Video Highlight資料集進行精彩度二分類進行的實驗結果。
學術派 | 基於AI的影片精彩度分析技術
圖 3 不同模型提取特徵效能對比

2018年,在kinetics-600資料集公開後,我們在自己的精彩度資料集上,又進行了基於kinetics-600資料集預訓練模型進行特徵提取的實驗。實驗表明,相比微調後的kinetics-400模型,直接採用kinetics-600預訓練模型使得精彩度評分的mse下降了0.06,而再對kinetics-600預訓練模型進行網路微調,則對精彩度評分的效能無顯著增益,因而,目前我們線上採用的影片視覺特徵提取模型為kinetics-600預訓練模型。

精彩度評分

精彩度評分的主觀性較強,如果想要獲得更加客觀真實的訓練資料分數標籤,需要多人對同一個影片進行標註評分,標註成本巨大。我們的訓練集一條資料只有一個受訓過的專業人員進行標註,這不可避免的會導致標註分數與真實分數之間有一定差異。為了降低人為標註主觀因素對模型的干擾,我們採用深度標籤分佈學習(Deep Label Distribution Learning,DLDL),即將標註分數轉化為一個分佈在0-10區間的一個分佈,而非直接去用模型擬合學習標註分數。具體地,假設對於資料X,標註分數為S,我們用均值為S,方差為1的高斯分佈來擬合其分數分佈y,如下:
學術派 | 基於AI的影片精彩度分析技術
其中
學術派 | 基於AI的影片精彩度分析技術
為歸一化引數。假定我們模型網路的最後一層輸出為x,我們用softmax啟用函式將輸出轉化為機率分佈,如下:
學術派 | 基於AI的影片精彩度分析技術
我們的目標是最佳化網路,使得網路輸出分佈學術派 | 基於AI的影片精彩度分析技術與分數分佈y儘量相似。如果用KL散度衡量這兩個分佈的相似性,則損失目標函式為:
學術派 | 基於AI的影片精彩度分析技術
訓練完成後,我們用模型輸出分佈的期望在作為預測分數,即:
學術派 | 基於AI的影片精彩度分析技術

採用DLDL方法能夠有效建模精彩度分數標籤的不確定性,大大降低了標註噪聲的影響,相比使用常規的MSE迴歸loss,我們的精彩度評分準確性得到比較明顯的提升。

精彩看點標籤分類

由於一個影片可能包含一個或多個彩看點標籤,因而我們的精彩看點標籤分類是一個多標籤分類任務。多標籤分類最簡單常用的方法是假設各個標籤之間無相關性,在輸出層對每一個標籤的輸出層使用sigmoid啟用函式,採用二值交叉熵loss進行獨立的二分類。
上述思路存在的問題之一是沒有考慮標籤間的相關性,而這種相關性可能能夠提高特定問題上模型的效果,例如,在進行看點標籤分類時,搞笑和大笑經常一起出現,而搞笑與悲傷一起出現的機率則很低,如果能充分利用這種標籤間的相關性,則將進一步提升多標籤分類模型的效果。其中,標籤嵌入(Label Embedding)是常用的一種標籤關聯方法,它是將標籤轉換為嵌入式標籤向量,從而來獲取標籤之間的相關性。我們借鑑C2AE (Canonical-Correlated Autoencoder)方法,採用DNN編碼獲得標籤嵌入式表示,並使其與輸入特徵向量在編碼空間產生關聯,分類loss則仍採用二值交叉熵損失函式,模型如下:
學術派 | 基於AI的影片精彩度分析技術
圖 4 精彩看點標籤分類模型技術框架

上圖中,Fx,Fe,Fd是3個DNN,分別代表特徵編碼、標籤嵌入和隱向量解碼,具體地,我們的Loss定義如下
學術派 | 基於AI的影片精彩度分析技術
其中相關性分析Loss為:
學術派 | 基於AI的影片精彩度分析技術
標籤分類Loss為:
學術派 | 基於AI的影片精彩度分析技術
相比常規多標籤分類方法,典型相關分析網路的加入使得我們的精彩看點標籤分類MAP提升了1.1個百分點。

多工學習模型

考慮到影片中的精彩度和存在的看點標籤是息息相關的,因而我們可以透過聯合訓練互相促進,從而提升精彩度評分的準確性。我們採用的多工學習模型如下圖:
學術派 | 基於AI的影片精彩度分析技術
圖 5多工學習模型技術框架
多工學習模型包含基於DLDL的精彩度評分和基於C2AE的精彩看點多標籤分類兩個子網路,在訓練時,我們採用交叉訓練的方式,分別最佳化評分Loss和標籤Loss。其中共享神經網路Fs的加入不僅提高了模型分析效率,使網路減少了近50%的模型引數,且透過特徵共享進一步提高了精彩度評分的準確性,使得均方誤差下降了0.10。

2

影片精彩度弱監督模型

雖然我們的影片精彩度監督模型已經具備了良好的精彩度評分能力,但是該模型是建立在昂貴的標註成本之上,模型的可擴充套件性和更新效率都具有一定的侷限性。目前,一些研究將影片精彩度分析建模為一個弱監督任務,取得了較好的效果。愛奇藝擁有海量的使用者資料,我們可以從這些珍貴的使用者行為資料中,獲得與精彩度相關的弱監督資料。例如,愛奇藝有一個使用者從長影片中擷取片段並進行分享的功能,我們認為,使用者一般更傾向於擷取影片中更精彩的片段進行分享,即一個影片切片被使用者擷取片段包含的次數越多,該影片精彩的機率越大,反之,不精彩的機率越大。我們利用這個使用者擷取片段的行為資料,建立了我們的影片精彩度弱監督資料集,該資料集覆蓋電影、電視劇、綜藝、動漫四大頻道1萬多個長影片,共包含近300萬個影片切片。我們的弱監督模型採用ranking loss,如下:
學術派 | 基於AI的影片精彩度分析技術
其中影片切片對學術派 | 基於AI的影片精彩度分析技術學術派 | 基於AI的影片精彩度分析技術 來自同一個長影片V,分別代表被使用者擷取片段包含次數較多的影片切片和被使用者擷取片段包含次數較少的影片切片,即精彩和非精彩影片切片學術派 | 基於AI的影片精彩度分析技術 ,學術派 | 基於AI的影片精彩度分析技術分別為學術派 | 基於AI的影片精彩度分析技術學術派 | 基於AI的影片精彩度分析技術 的特徵,學術派 | 基於AI的影片精彩度分析技術代表DNN。
上式假設我們的弱監督資料集不包含噪聲,然而事實上,相比監督資料集,弱監督資料集包含了更多的噪聲,例如在綜藝影片唱歌、跳舞的精彩表演片段中,極有可能也包含一些觀眾、評委觀賞等一些不精彩的片段。因此,只有一些樣本對是有效的,我們希望模型僅僅學習有效樣本對,而忽略無效樣本對,為此,我們引入權重變數 學術派 | 基於AI的影片精彩度分析技術學術派 | 基於AI的影片精彩度分析技術 得到損失函式如下:

學術派 | 基於AI的影片精彩度分析技術

其中 學術派 | 基於AI的影片精彩度分析技術學術派 | 基於AI的影片精彩度分析技術 分別表示 學術派 | 基於AI的影片精彩度分析技術學術派 | 基於AI的影片精彩度分析技術 , 屬於精彩樣本的機率,即我們透過 學術派 | 基於AI的影片精彩度分析技術學術派 | 基於AI的影片精彩度分析技術 ,對樣本的label進行重新標定。
這種透過某種技術手段對樣本label進行重標定的方法在弱監督學習中也比較常用,通常我們可以將樣本特徵對映到新的特徵空間,使得擁有相似表觀的影片切片之間的特徵距離最近,然後透過K-近鄰的思想,透過樣本k個最近樣本的label對樣本的label重新標定。近年來,圖卷積網路(Graph Convolutional Networks, GCN)在半監督和弱監督任務中表現出巨大的潛力,取得了較好的效果。在我們的技術解決方案中,也利用了GCN對樣本特徵進行重新編碼,使得相似影片切片的特徵聚合在一起。整體技術架構如下圖:
學術派 | 基於AI的影片精彩度分析技術
圖 6 精彩度弱監督模型技術框架

下面具體介紹我們的技術方案。首先,我們把一個長影片包含的所有影片切片作為一個圖的節點,影片切片的音影片特徵作為節點特徵,圖的鄰接矩陣構造如下:
學術派 | 基於AI的影片精彩度分析技術
其中 學術派 | 基於AI的影片精彩度分析技術 表示 學術派 | 基於AI的影片精彩度分析技術,學術派 | 基於AI的影片精彩度分析技術 之間的相似度,學術派 | 基於AI的影片精彩度分析技術 代表與 學術派 | 基於AI的影片精彩度分析技術 最相似的k個近鄰。

我們採用一個具有低通性質的圖濾波器進行圖卷積操作,它能夠聚合高階鄰接節點的特徵來表示當前節點的特徵,經過G的作用,相似影片切片的特徵更加聚合,相對的,不相似影片切片的特徵更加分散,如下圖所示:

1

學術派 | 基於AI的影片精彩度分析技術

2

學術派 | 基於AI的影片精彩度分析技術
            原始特徵                          圖濾波後的節點特徵

圖 7 原節點特徵與圖濾波後的節點特徵示意圖

由上圖可以看出,經過圖濾波卷積作用後的特徵在一定程度上實現了聚類,我們利用圖濾波後的節點特徵 學術派 | 基於AI的影片精彩度分析技術 ,重新構造圖如下:
學術派 | 基於AI的影片精彩度分析技術
節點 學術派 | 基於AI的影片精彩度分析技術 屬於精彩樣本的機率可定義為,
學術派 | 基於AI的影片精彩度分析技術
其中 學術派 | 基於AI的影片精彩度分析技術 為節點 學術派 | 基於AI的影片精彩度分析技術 對應的弱標籤。上式可以透過節點 學術派 | 基於AI的影片精彩度分析技術 的k個近鄰節點的弱標籤,得出 學術派 | 基於AI的影片精彩度分析技術 屬於精彩樣本的機率。由置信度不高的樣本組成的樣本對,我們認為它們是無效的,進而希望Loss可以忽略這些無效樣本對,因此修正Loss如下:
學術派 | 基於AI的影片精彩度分析技術
其中,
學術派 | 基於AI的影片精彩度分析技術
上式中 學術派 | 基於AI的影片精彩度分析技術 和 學術派 | 基於AI的影片精彩度分析技術 分別是正、負樣本是否可信的機率閾值,可根據資料集的噪聲水平、正負樣本比例等先驗設定。
GCN的引入使得影片切片得到更好的特徵表示,進而可以根據特徵相似性找到近鄰樣本,從而對自身弱標籤進行重新考量,儘量避免噪聲樣本對Loss的影響,使得我們的精彩度弱監督模型對於標籤噪聲更加魯棒。在模型預測時,只需將測試樣本輸入到圖5中的DNN模組,即可得到樣本精彩度預測分數。弱監督模型在效能上略差於監督模型,但是大大降低了獲取資料的成本,可擴充套件性更強。在業務應用中,我們將監督模型和弱監督模型精彩度分數預測結果進行融合,相比單一監督模型,使得優質影片片段的分類準確率提高了約2個百分點。

3

融合更多維度資訊的精彩度

PPC影片中的精彩度不僅僅與影片本身的視覺和音訊內容有關,還與很多其他因素有關,例如是否包含明星以及明星的重要程度、受歡迎程度等,這也是PPC與UGC影片最大的不同。因而,我們在模型精彩度打分的基礎上,還根據影片片段內的人臉識別資訊和人臉時長佔比,得到影片片段內包含的主要明星資訊, 根據主要明星在影片中的重要程度(可根據是否為主演、常駐嘉賓等資訊計算)和受歡迎程度(可根據明星熱度、明星影響力等資訊計算)得到一個明星精彩度得分。
在冷啟動階段,模型精彩度分析對優質內容的篩選尤其重要,但當影片上線一段時間後,我們也可以根據與該影片相關的一些使用者行為對我們的模型精彩度打分進行進一步修正。比如上文提到的使用者截斷片段資訊,我們根據被使用者擷取片段包含次數的多少,經過一定的資料分析和處理,也可以得到一個精彩度分數;基於使用者在觀看影片中時產生的快進、快退等拖拽行為得到的資料,也在一定程度上反映了影片片段在使用者中的受歡迎程度。
在實際的業務場景中,我們將明星精彩度和使用者擷取片段等使用者行為資料資訊與模型分數融合,有助於幫助我們找到模型難以召回的熱點內容,使得影片的精彩度評分的準確性得到進一步提高。

總結和規劃

我們的影片精彩度技術方案已在多個業務場景中實現落地和應用,如生成AI廣告產品前情提要、輔助創作,篩選優質影片進行智慧分發、自動生成精彩集錦等,明顯提升了業務產出質量和效率。

在後續的研究中,我們會從特徵提取、演算法模型和融合更多維度的資訊等方面繼續進行最佳化,建立更加完備的影片精彩度分析系統,具體包括以下幾方面:
1)特徵提取:目前我們的影片特徵包括視覺和音訊特徵,後續我們將加入文字特徵,也將進一步探索多模態特徵的融合方式。
2)演算法模型最佳化:我們分別利用標註資料集和弱標籤資料集訓練了監督模型和弱監督模型,然後對兩個模型預測的精彩度分數進行後融合。後續我們打算利用半監督的思想,將標註資料集和弱標籤資料集聯合進行訓練,有望獲得更好的模型效能。
3)融合更多維度的資訊:愛奇藝已經擁有多種標籤識別模型,如行為識別、物體檢測、場景分類、音訊分類、臺詞分類等,我們可以融合這些模型對影片片段的分析結果,進一步修正精彩度分數,完善精彩看點標籤。

參考文獻:

[1] 

[2] Gao B B, Xing C, Xie C W, et al. Deep label distribution learning with label ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838.

[3] Yeh C K, Wu W C, Ko W J, et al. Learning deep latent space for multi-label classification[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.

[4] Xiong B, Kalantidis Y, Ghadiyaram D, et al. Less is more: Learning highlight detection from video duration[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1258-1267.

[5] Zhao K, Chu W S, Martinez A M. Learning facial action units from web images with scalable weakly supervised clustering[C]//Proceedings of the IEEE Conference on computer vision and pattern recognition. 2018: 2090-2099.

[6] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.

[7] Li Q, Wu X M, Liu H, et al. Label efficient semi-supervised learning via graph filtering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 9582-9591.

[8] Zhang X, Liu H, Li Q, et al. Attributed graph clustering via adaptive graph convolution[J]. arXiv preprint arXiv:1906.01210, 2019.

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945252/viewspace-2704740/,如需轉載,請註明出處,否則將追究法律責任。

相關文章