愛奇藝短視訊智慧標籤生成實踐

陶然陶然發表於2022-06-02

  隨著網路的發展,每天有海量的UGC視訊被使用者上傳到各大平臺,如何高效的分發與使用這些視訊是平臺一直需要解決的問題。

  視訊的標籤可以高效概括視訊的主體內容,有利於推薦、搜尋廣告等業務對於海量短視訊的精確使用。標籤的生成是視訊理解的產物,按照型別來分,可以分為型別標籤和內容標籤。型別標籤主要是根據各業務的特點定製一套體系框架,將每個短視訊對映到定製的框架中。而內容標籤是用於描述視訊主體內容的開放式詞彙集,很難提前制定完備的體系列舉出每個詞彙,更多的時候它是一個無窮的集合。本文詳細介紹愛奇藝短視訊場景下的內容標籤。

  01

  背景

  標籤依賴多模態元資訊

  標籤的生成依賴視訊的原始資訊。短視訊的元資訊主要包括標題,簡介描述,上傳者資料,視訊影像,音訊等各種模態資訊。我們要求演算法能充分融合利用各類資訊,從多個不同的側面去刻畫短視訊資訊,可以避免單維度缺失導致精度識別的不穩定性的問題。

  多模態元資訊包括音視訊、標題、簡介、上傳者等

  標籤生成的難點

  標籤作為描述內容的詞彙集,並沒有客觀的評定標準。不同業務因為業務關注點差異,有不同的標註規範。即便同一個業務有統一標註體系,但很多case不同的標註人員有不同的理解。

  很多標籤是對內容的抽象概況,需要演算法真正理解視訊的內容並予以總結。比如短視訊【買雞蛋,選大的好還是選小的好?養殖戶說漏了嘴,以後別瞎買了】,其標籤規範為“生活”,“雞蛋”,“小竅門”。其中“小竅門”就是需要結合視訊內容進行提煉的。再比如大部分人物閒聊類屬於生活類目,但如果視訊對於生活的某些方面做了總結,對於其他觀看的人群有一定的借鑑作用,可能就會屬於百科類目。

  對未見過的新內容的理解。比如對於新上線的電視劇片段【贅婿】,希望有自動化打上“贅婿”、“郭麒麟”這樣標籤的能力。

  標註規範的不斷變更。比如某些活動類的標籤,“暑期玩具大放送”、“美食達人成長計劃”都是固定時期開展的短視訊類活動,有一定的時效性。再比如影視劇集類的視訊隨著業務的深入,對於人物角色識別要求逐步增強等。

   02

  模型整體框架

  

  短視訊標籤整體框架

  整體方案上,短視訊標籤模型以短視訊多模態元資訊為輸入,先經過多種預訓練模型的特徵提取,之後融合了多種不同的召回模型:包括基於文字的抽取式模型,基於優質標籤類目的分類模型,融合多模態資訊的生成式模型。此外還使用了相似短視訊檢索、人臉識別等方法,擴充了可利用的標籤詞彙,從不同的視角生成異質的短視訊標籤。最後經過排序模型,對各召回源的標籤進行置信度打分,最終根據業務側的打標傾向和準召要求,為每個業務線裁剪出最終的短視訊標籤集合。

  模態層

  一、文字模型

  近些年基於預訓練的模型對於少樣本、資訊量少的場景有很好的增益作用。愛奇藝作為中國領先的視訊內容平臺,涵蓋非常多的業務場景,我們訓練了更適配具體業務場景的預訓練 ALBERT 模型。具體來說,預訓練模型在站內海量的短視訊上進行預訓練後,再根據特定場景進行 Finetune 。預訓練過程包含兩個不同的預訓練任務,分別是 Masked Language Model 和 Sentence-order prediction 任務。SOP 任務通常是在長篇幅文字中隨機的交換的句子,由於短視訊中存在的標題、描述、評論等文字通常都較短,我們改造 SOP 任務為更短的子句或短語粒度的交換任務。

  二、影像模型

  基於影像表徵的模型,比較常用的有 ResNet50 、 Inception V3 、 Xception 、 EfficientNet 、 BigTransfer 等。

  影像模型,目前通用的幾種方法是放大 CNN 的深度、寬度和解析度,之前都是單獨放大這三個維度中的一個,但是這三個維度如果結合在一起進行縮放,會達到更優化的效能,但是如果放大過多會影響模型的效率。EfficientNet 提出了一個新的複合縮放方法—使用一個複合係數統一縮放網路寬度、深度和解析度,在 base 網路上學習好這三個維度的縮放引數,再同比進行放大學習即可。模型引數的縮放對比如下圖所示:

  

  三、音視訊模型

  融合音訊與視訊的維度特徵,當前使用的是 MixNeXtVLAD 模型,該模型由 NetVLAD 、NeXtVLAD 一步步的演變而來。

  NetVLAD 是 frame-level feature 融合為 video-level feature 的一種方法。從視訊幀聚類的角度學習視訊的 embedding 表示,類似於視覺詞袋模型,但是相比詞袋模型多了與聚類中心的距離和方向資訊,而且聚類中心是自動學習出來的。整體演算法結構如下:

  

  NeXtVLAD 在 NetVLAD 的基礎上引入了分組的概念,降低引數,增強模型的泛化效能。

  

  MixNeXtVLAD 是 NeXtVLAD 的進一步升級,採用了多個 NeXtVLAD 的Student branches ,並且利用了知識蒸餾的思想,將三個 Student 網路的單個輸出加權融合的結果作為 Soft Labels 反過來指導每一個 Student 網路的學習,多個模態的 NeXtVLAD 聚合輸出通過 SE-Context Gating 學習多模態特徵交叉,增強特徵表示能力,Mixture prediction 是每個 Student 輸出的加權和,最後取 Mixture prediction 為網路的最終輸出。整體框架如下:

  模型的輸入包含兩個部分:視訊特徵與音訊特徵。視訊特徵主要對視訊進行多種方式的抽幀,對抽幀結果通過影像模型進行進行解析,得到視訊的特徵。音訊特徵通過 VGGish 抽取得到。

  

  音視訊模型框架

  召回層

  一、多模態融合召回

  為達到標籤生成的目的,可以將標籤融合看做是機器翻譯任務,輸入的源語言為短視訊相關的文字以及對應的影像及音視訊表示。目標語言為最終需要的標籤。這裡用到的主要模組為 Transformer ,其具有很強的語義編碼能力,主要分為編碼和解碼兩個部分。Encode 端將多模態元資訊作為輸入進行編碼。Decode 階段,將編碼後的文字表示,影像表示,音視訊表示和上一時刻的輸入作為輸入進行解碼。最終的結果為多模態融合後生成的標籤。整體框架如下圖:

  

  二、抽取式召回

  有些標籤可以從文字中直接得到,故引入抽取式召回直接從文字中抽取相關標籤。抽取式召回採用 Bert-BiLSTM-CRF 模型,用 Bert 模型學習詞嵌入embedding ,再通過 BiLSTM-CRF 進行實體識別的過程。這是業界較為成熟的框架,不再贅述。

  三、層級召回

  為了保障主標籤和優質標籤的覆蓋,我們也構建了標籤分類體系:包括約 3000 個優質標籤的層次結構,使用 Dense-HMCN(Hierarchical Multi-Label Classification Networks)模型進行層級分類。整體框架主要分為特徵表示、特徵融合和層級分類三個模組,前兩個模組基於多模態特徵建模短視訊的高階表達,後者基於構建的表達完成分類。模型的輸入與多模態融合召回模型類似,包含視訊的各個維度的語義特徵,並增加了一組基於LightGBM構造的稀疏特徵。和多模態融合召回不同,層級召回更側重準確率,保障優質標籤的質量。

  

  四、其他

  為了進一步增強標籤的召回率,我們也引入了人臉識別、相似同類視訊標籤檢索等方法。此外,在召回之後,我們利用知識圖譜的關聯和推理能力,根據業務線的打標需求,對召回的標籤進行進一步的擴充套件和推理:例如召回”贅婿“、”寧毅“後,可進一步召回”郭麒麟“的標籤。由於篇幅關係,不再贅述。

  排序層

  排序引入 bert 模型框架做基於多模態的融合打分,模型的輸入為各召回源的標籤、權重以及各模態的特徵表示,特徵融合方式同時採用 early fusion 和 late fusion 機制:early fusion 是將不同模態特徵作為不同的 sentence 輸入到 bert 模型中;late fusion 機制則將召回源和權重與【CLS】進行融合。依託框架的特性,不同模態特徵之間可以進行有效的交叉融合,更好適配標籤業務場景。最終模型賦予每個標籤一個排序得分。模型結構如下圖:

  

   03

  標籤的應用價值

  短視訊標籤的智慧化應用對於愛奇藝視訊業務提供了可靠保障。典型的應用場景為視訊生產、個性化推薦、智慧運營等。比如,傳統視訊生產的時候,需要編輯或生產者基於人工理解對視訊打上元資訊。標籤系統可以在人工打標時提供候選,提高人效。又如,個性化推薦就是要將使用者的興趣與內容進行匹配,標籤是對視訊的精細化表達,可以幫助推薦系統更精準地給使用者推送感興趣的內容。另外,專屬的地域標籤等,可以輔助運營對內容進行智慧分發,類似資訊新聞等可以瞄準當地進行傳播。

  隨著越來越多海量娛樂內容的出現和各種多模態技術的發展,智慧化自動化的內容理解能力越來越成為視訊行業的趨勢和標配。我們將繼續探索如何進行更好地落地,並在產品上衍生出更多的技術應用。

來自 “ 愛奇藝技術產品團隊 ”, 原文作者:奇文;原文連結:https://mp.weixin.qq.com/s/P3aJXfAiL_pn9hrr1a7k8Q,如有侵權,請聯絡管理員刪除。

相關文章