愛奇藝短視訊智慧標籤生成實踐
隨著網路的發展,每天有海量的UGC視訊被使用者上傳到各大平臺,如何高效的分發與使用這些視訊是平臺一直需要解決的問題。
視訊的標籤可以高效概括視訊的主體內容,有利於推薦、搜尋廣告等業務對於海量短視訊的精確使用。標籤的生成是視訊理解的產物,按照型別來分,可以分為型別標籤和內容標籤。型別標籤主要是根據各業務的特點定製一套體系框架,將每個短視訊對映到定製的框架中。而內容標籤是用於描述視訊主體內容的開放式詞彙集,很難提前制定完備的體系列舉出每個詞彙,更多的時候它是一個無窮的集合。本文詳細介紹愛奇藝短視訊場景下的內容標籤。
01
背景
標籤依賴多模態元資訊
標籤的生成依賴視訊的原始資訊。短視訊的元資訊主要包括標題,簡介描述,上傳者資料,視訊影像,音訊等各種模態資訊。我們要求演算法能充分融合利用各類資訊,從多個不同的側面去刻畫短視訊資訊,可以避免單維度缺失導致精度識別的不穩定性的問題。
多模態元資訊包括音視訊、標題、簡介、上傳者等
標籤生成的難點
標籤作為描述內容的詞彙集,並沒有客觀的評定標準。不同業務因為業務關注點差異,有不同的標註規範。即便同一個業務有統一標註體系,但很多case不同的標註人員有不同的理解。
很多標籤是對內容的抽象概況,需要演算法真正理解視訊的內容並予以總結。比如短視訊【買雞蛋,選大的好還是選小的好?養殖戶說漏了嘴,以後別瞎買了】,其標籤規範為“生活”,“雞蛋”,“小竅門”。其中“小竅門”就是需要結合視訊內容進行提煉的。再比如大部分人物閒聊類屬於生活類目,但如果視訊對於生活的某些方面做了總結,對於其他觀看的人群有一定的借鑑作用,可能就會屬於百科類目。
對未見過的新內容的理解。比如對於新上線的電視劇片段【贅婿】,希望有自動化打上“贅婿”、“郭麒麟”這樣標籤的能力。
標註規範的不斷變更。比如某些活動類的標籤,“暑期玩具大放送”、“美食達人成長計劃”都是固定時期開展的短視訊類活動,有一定的時效性。再比如影視劇集類的視訊隨著業務的深入,對於人物角色識別要求逐步增強等。
02
模型整體框架
短視訊標籤整體框架
整體方案上,短視訊標籤模型以短視訊多模態元資訊為輸入,先經過多種預訓練模型的特徵提取,之後融合了多種不同的召回模型:包括基於文字的抽取式模型,基於優質標籤類目的分類模型,融合多模態資訊的生成式模型。此外還使用了相似短視訊檢索、人臉識別等方法,擴充了可利用的標籤詞彙,從不同的視角生成異質的短視訊標籤。最後經過排序模型,對各召回源的標籤進行置信度打分,最終根據業務側的打標傾向和準召要求,為每個業務線裁剪出最終的短視訊標籤集合。
模態層
一、文字模型
近些年基於預訓練的模型對於少樣本、資訊量少的場景有很好的增益作用。愛奇藝作為中國領先的視訊內容平臺,涵蓋非常多的業務場景,我們訓練了更適配具體業務場景的預訓練 ALBERT 模型。具體來說,預訓練模型在站內海量的短視訊上進行預訓練後,再根據特定場景進行 Finetune 。預訓練過程包含兩個不同的預訓練任務,分別是 Masked Language Model 和 Sentence-order prediction 任務。SOP 任務通常是在長篇幅文字中隨機的交換的句子,由於短視訊中存在的標題、描述、評論等文字通常都較短,我們改造 SOP 任務為更短的子句或短語粒度的交換任務。
二、影像模型
基於影像表徵的模型,比較常用的有 ResNet50 、 Inception V3 、 Xception 、 EfficientNet 、 BigTransfer 等。
影像模型,目前通用的幾種方法是放大 CNN 的深度、寬度和解析度,之前都是單獨放大這三個維度中的一個,但是這三個維度如果結合在一起進行縮放,會達到更優化的效能,但是如果放大過多會影響模型的效率。EfficientNet 提出了一個新的複合縮放方法—使用一個複合係數統一縮放網路寬度、深度和解析度,在 base 網路上學習好這三個維度的縮放引數,再同比進行放大學習即可。模型引數的縮放對比如下圖所示:
三、音視訊模型
融合音訊與視訊的維度特徵,當前使用的是 MixNeXtVLAD 模型,該模型由 NetVLAD 、NeXtVLAD 一步步的演變而來。
NetVLAD 是 frame-level feature 融合為 video-level feature 的一種方法。從視訊幀聚類的角度學習視訊的 embedding 表示,類似於視覺詞袋模型,但是相比詞袋模型多了與聚類中心的距離和方向資訊,而且聚類中心是自動學習出來的。整體演算法結構如下:
NeXtVLAD 在 NetVLAD 的基礎上引入了分組的概念,降低引數,增強模型的泛化效能。
MixNeXtVLAD 是 NeXtVLAD 的進一步升級,採用了多個 NeXtVLAD 的Student branches ,並且利用了知識蒸餾的思想,將三個 Student 網路的單個輸出加權融合的結果作為 Soft Labels 反過來指導每一個 Student 網路的學習,多個模態的 NeXtVLAD 聚合輸出通過 SE-Context Gating 學習多模態特徵交叉,增強特徵表示能力,Mixture prediction 是每個 Student 輸出的加權和,最後取 Mixture prediction 為網路的最終輸出。整體框架如下:
模型的輸入包含兩個部分:視訊特徵與音訊特徵。視訊特徵主要對視訊進行多種方式的抽幀,對抽幀結果通過影像模型進行進行解析,得到視訊的特徵。音訊特徵通過 VGGish 抽取得到。
音視訊模型框架
召回層
一、多模態融合召回
為達到標籤生成的目的,可以將標籤融合看做是機器翻譯任務,輸入的源語言為短視訊相關的文字以及對應的影像及音視訊表示。目標語言為最終需要的標籤。這裡用到的主要模組為 Transformer ,其具有很強的語義編碼能力,主要分為編碼和解碼兩個部分。Encode 端將多模態元資訊作為輸入進行編碼。Decode 階段,將編碼後的文字表示,影像表示,音視訊表示和上一時刻的輸入作為輸入進行解碼。最終的結果為多模態融合後生成的標籤。整體框架如下圖:
二、抽取式召回
有些標籤可以從文字中直接得到,故引入抽取式召回直接從文字中抽取相關標籤。抽取式召回採用 Bert-BiLSTM-CRF 模型,用 Bert 模型學習詞嵌入embedding ,再通過 BiLSTM-CRF 進行實體識別的過程。這是業界較為成熟的框架,不再贅述。
三、層級召回
為了保障主標籤和優質標籤的覆蓋,我們也構建了標籤分類體系:包括約 3000 個優質標籤的層次結構,使用 Dense-HMCN(Hierarchical Multi-Label Classification Networks)模型進行層級分類。整體框架主要分為特徵表示、特徵融合和層級分類三個模組,前兩個模組基於多模態特徵建模短視訊的高階表達,後者基於構建的表達完成分類。模型的輸入與多模態融合召回模型類似,包含視訊的各個維度的語義特徵,並增加了一組基於LightGBM構造的稀疏特徵。和多模態融合召回不同,層級召回更側重準確率,保障優質標籤的質量。
四、其他
為了進一步增強標籤的召回率,我們也引入了人臉識別、相似同類視訊標籤檢索等方法。此外,在召回之後,我們利用知識圖譜的關聯和推理能力,根據業務線的打標需求,對召回的標籤進行進一步的擴充套件和推理:例如召回”贅婿“、”寧毅“後,可進一步召回”郭麒麟“的標籤。由於篇幅關係,不再贅述。
排序層
排序引入 bert 模型框架做基於多模態的融合打分,模型的輸入為各召回源的標籤、權重以及各模態的特徵表示,特徵融合方式同時採用 early fusion 和 late fusion 機制:early fusion 是將不同模態特徵作為不同的 sentence 輸入到 bert 模型中;late fusion 機制則將召回源和權重與【CLS】進行融合。依託框架的特性,不同模態特徵之間可以進行有效的交叉融合,更好適配標籤業務場景。最終模型賦予每個標籤一個排序得分。模型結構如下圖:
03
標籤的應用價值
短視訊標籤的智慧化應用對於愛奇藝視訊業務提供了可靠保障。典型的應用場景為視訊生產、個性化推薦、智慧運營等。比如,傳統視訊生產的時候,需要編輯或生產者基於人工理解對視訊打上元資訊。標籤系統可以在人工打標時提供候選,提高人效。又如,個性化推薦就是要將使用者的興趣與內容進行匹配,標籤是對視訊的精細化表達,可以幫助推薦系統更精準地給使用者推送感興趣的內容。另外,專屬的地域標籤等,可以輔助運營對內容進行智慧分發,類似資訊新聞等可以瞄準當地進行傳播。
隨著越來越多海量娛樂內容的出現和各種多模態技術的發展,智慧化自動化的內容理解能力越來越成為視訊行業的趨勢和標配。我們將繼續探索如何進行更好地落地,並在產品上衍生出更多的技術應用。
來自 “ 愛奇藝技術產品團隊 ”, 原文作者:奇文;原文連結:https://mp.weixin.qq.com/s/P3aJXfAiL_pn9hrr1a7k8Q,如有侵權,請聯絡管理員刪除。
相關文章
- 愛奇藝短視訊打標籤技術解析
- 愛奇藝短視訊軟色情識別技術解析
- 愛奇藝視訊增強技術——ZoomAIOOMAI
- 愛奇藝混合雲內網DNS實踐內網DNS
- 大規模機器學習在愛奇藝視訊分析理解中的實踐機器學習
- 愛奇藝個性化推薦排序實踐排序
- 愛奇藝的雲上資料治理實踐
- win10系統如何取消愛奇藝視訊更新提醒_win10取消愛奇藝視訊更新提醒的步驟Win10
- AI 在愛奇藝視訊廣告中的探索AI
- python愛奇藝VIP視訊爬蟲爬取下載Python爬蟲
- 愛奇藝視訊生產Kubernetes叢集優化實踐:感知業務優先順序優化
- 愛奇藝逗芽表情搜尋分析與實踐
- 愛奇藝微服務監控的探索與實踐微服務
- win10系統愛奇藝看視訊如何免廣告_win10愛奇藝播放視訊不要廣告的方法Win10
- 愛奇藝iOS深度實踐 | SiriKit詳解應用篇iOS
- 愛奇藝在服務網格方向的落地實踐
- 愛奇藝短影片軟色情識別技術解析
- 愛奇藝內容中臺之Serverless應用與實踐Server
- Android篇 | 愛奇藝App啟動最佳化實踐分享AndroidAPP
- 如何看待愛奇藝限制電視投屏?
- 詳解愛奇藝ZoomAI視訊增強技術的應用OOMAI
- 愛奇藝AI剪輯師到底能剪出怎樣的視訊?AI
- 愛奇藝深度學習雲平臺的實踐及優化深度學習優化
- 愛奇藝在 Dubbo 生態下的微服務架構實踐微服務架構
- 愛奇藝大資料實時分析平臺的建設與實踐大資料
- 短視訊標題自動生成工具,助你打造爆款標題
- 愛奇藝深度學習雲平臺的實踐及最佳化深度學習
- 愛奇藝網路協程編寫高併發應用實踐
- Win10安裝愛奇藝後此電腦中有一個愛奇藝熱播視訊資料夾刪除不掉怎麼辦Win10
- 免費報名 | 愛奇藝ZoomAI視訊增強技術的應用OOMAI
- 短視訊 SDK 架構設計實踐架構
- 學術派 | 愛奇藝深度語義表示學習的探索與實踐
- 標籤的最佳實踐
- 短視訊內容理解與生成技術在美團的創新實踐
- 車澈的愛奇藝往事
- 愛奇藝元件化設計在會員業務的應用和實踐元件化
- 個性化海報在愛奇藝影片推薦場景中的實踐
- 愛奇藝財報:2023年愛奇藝總營收319億元 同比增長10%營收