學術派 | 愛奇藝深度語義表示學習的探索與實踐

愛奇藝技術產品團隊發表於2020-07-15

基於學術界和工業界經驗,愛奇藝設計和探索出了一套適用於多種業務場景的深度語義表示學習框架。在推薦、搜尋、直播等多個業務中的召回、排序、去重、多樣性、語義匹配、聚類等場景上線,提高影片推薦的豐富性和多樣性,改善使用者觀看和搜尋體驗。
本文將介紹愛奇藝深度語義表示框架的核心設計思路和實踐心得。

背景

英國語言學家 J.R.Firth在1957年曾說過:“You shall know a word by the company its keeps.”  Hinton於1986年基於該思想首次提出Distributed representation(分散式表示)的概念,認為具有相似上下文的詞往往具有相似的語義,其中distributed 是指將詞語的語義分佈到詞向量的各個分量上。該方法可以把詞對映到連續實數向量空間,且相似詞在該空間中位置相近,典型的代表作是基於神經網路的語言模型(Neural Network Language Model, NNLM)[1]。2003年Google提出word2vec[2]演算法學習word embedding(詞嵌入或詞向量),使Distributed representation真正受到學術界、工業屆的認可, 從而開啟了NLP embedding發展的新元代。
在萬物皆embedding的資訊流時代,embedding能夠將文字、影像、影片、音訊、使用者等多種實體從一種高維稀疏的離散向量表示(one-hot representation)對映為一種低維稠密的連續語義表示(distributed representation),並使得相似實體的距離更加接近。其可用於衡量不同實體之間的語義相關性,作為深度模型的語義特徵或離散特徵的預訓練embedding, 廣泛應用於推薦和搜尋等各個業務場景,比如推薦中的召回、排序、去重、多樣性控制等, 搜尋中的語義召回、語義相關性匹配、相關搜尋、以圖搜劇等。
相比傳統的embedding模型, 深度語義表示學習將實體豐富的side information(e.g.多模態資訊, 知識圖譜,meta資訊等)和深度模型(e.g. Transformer[3], 圖卷積網路[4]等)進行深度融合,學習同時具有較好泛化性和語義表達性的實體embedding, 為下游各業務模型提供豐富的語義特徵,並在一定程度上解決冷啟動問題, 進而成為提升搜尋和推薦系統效能的利器。
愛奇藝設計和探索出了這套適用於愛奇藝多種業務場景的深度語義表示學習框架,並在推薦的多個業務線以及搜尋中成功上線。在短&小影片、圖文資訊流推薦以及搜尋、直播等15個業務中的召回、排序、去重、多樣性、語義匹配、聚類等7種場景,完成多個AB實驗和全流量上線,短&小影片以及圖文推薦場景上,使用者的人均消費時長共提升5分鐘以上,搜尋語義相關性準確率相比baseline單特徵提升6%以上。


 面臨的挑戰 :

傳統的embedding學習模型主要基於節點序列或基於圖結構隨機遊走生成序列構建訓練集,將序列中的每個節點編碼為一個獨立的ID,然後採用淺層網路(e.g. item2vec[6], node2vec[7])學習節點的embedding。該類模型只能獲取訓練語料中節點的淺層語義表徵,而不能推理新節點的embedding,無法解決冷啟動問題,泛化性差。將傳統的embedding學習模型應用於愛奇藝業務場景中主要面臨以下問題:


1. Embedding實體種類及關係多樣性

傳統的embedding模型往往將序列中的item視為型別相同的節點,節點之間的關係型別較單一。愛奇藝各業務線中的使用者行為資料往往包含多種型別的資料,比如,文字(長短文字,句子&段落&篇章級別)、影像、圖文、影片(比如,長、短、小影片)、使用者(比如up主、演員、導演、角色)、圈子(泡泡、文學等社群)、query等;不同型別節點之間具有不同的關係,比如使用者行為序列中節點之間的關係包括點選、收藏、預約、搜尋、關注等,在影片圖譜中節點之間的關係包括執導、編寫、搭檔、參演等。

2. Side information豐富

傳統的embedding模型往往採用淺層網路(比如3層DNN, LSTM等),特徵抽取能力較弱;此外將item用一個獨立ID來表示,並未考慮item豐富的side information和多模態資訊,往往僅能學到item的淺層語義表徵。而愛奇藝各業務中的item具有豐富的多模態資訊(比如,文字、影像、影片、音訊)和各種meta資訊(比如影片型別、題材、演員屬性等),如何有效和充分的利用這些豐富的side information以及多模態特徵的融合,對於更好的理解item的深層語義至關重要。

3. 業務場景多樣

Embedding可用於推薦中的召回、排序、去重、多樣性以及使用者畫像建模等,搜尋中的語義召回、排序、影片聚類、相關搜尋等,以及作為各種下游任務的語義特徵等多種業務場景。不同的業務場景往往需要不同型別的embedding。

· 推薦召回場景:

1)基於行為的embedding模型召回偏熱門,效果較好;

2)基於內容的embedding模型召回偏相關性,對相關推薦場景和新內容冷啟動更有幫助;

3)基於行為和內容的embedding模型介於前兩者之間,能同時保證相關性和效果。

· 排序場景:
往往使用後兩種embedding模型,可基於訓練好的模型和內容實時獲取未知節點的embedding特徵。
· 多樣性控制:
基於內容原始表示的embedding模型用於去重和多樣性打散效果往往較好。

 深度語義表示學習 :

 深度語義表示學習在傳統的embedding學習模型基礎上,引入節點豐富的side information(多模態資訊和自身meta資訊)以及型別的異構性,並對多模態特徵進行有效融合,將淺層模型替換為特徵抽取能力更強的深度模型,從而能夠學習節點的深度語義表徵。

        針對愛奇藝的業務場景和資料特點,我們設計出了一種滿足現有業務場景的深度語義表示學習框架(如圖 1所示),該框架主要包含四層:資料層、特徵層、策略層和應用層。下面主要從特徵層和策略層中的各種深度語義表示模型兩方面進行詳細介紹。

  • 資料層:主要蒐集使用者的各種行為資料構建節點序列和圖,構建embedding模型訓練資料;

  • 特徵層:主要用於各種模態(文字、影像、音訊、影片等)特徵的抽取和融合,作為深度語義表示模型中輸入的初始語義表徵;

  • 策略層:提供豐富的深度語義表示模型及評估方法,以滿足不同的業務場景;

  • 應用層:主要為下游各業務線的各種場景提供embedding特徵、近鄰以及相關度計算服務。


學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖1深度語義表示學習框架

 特徵抽取及融合 :

 在自然語言處理(NLP)領域,預訓練語言模型(比如BERT[8])能夠充分利用海量無標註語料學習文字潛在的語義資訊,重新整理了NLP領域各個任務的效果。愛奇藝涵蓋影片、圖文的搜尋、推薦、廣告、智慧創作等多種業務場景,除了文字(標題,描述等)外,還需進一步對影像、影片和音訊等多種模態資訊進行深入理解。


1.1. 多模態特徵抽取

借鑑預訓練語言模型的思想,我們嘗試藉助大規模無標註的影片和圖文語料,學習不同粒度文字(query、句子、段落、篇章)、影像、音訊和影片的通用預訓練語義表徵,為後續深度語義表示模型提供初始語義表徵。

  • 文字語義特徵:  根據文字長度,可將文字語義特徵抽取分為四個等級:

  1. 詞級別(Token-level),比如使用者搜尋串,通常為2~6個字;
  2. 句子級別(Sentence-level),比如影片&漫畫標題和描述、人物小傳、藝人簡介等;
  3. 段落級別(Paragraph-level),比如影視劇描述,劇本片段等;
  4. 篇章級別(Document-level),比如劇本、小說等長文字。

受限於現有預訓練語言模型處理長文字的侷限性,對於不同級別的文字需要採用不同的方案。一方面,結合主題模型[10]和ALBert[9]學習Topic粒度的語義特徵;另一方面,基於ALBert,利用 WME[11], CPTW[12]等方法將token-level語義組合為段落和篇章級別的細粒度語義特徵。

  • 影像語義特徵:  對於影片封面圖、影片幀、影視劇照、藝人圖片、漫畫等影像,基於State-of-Art的ImageNet預訓練分類模型(e.g. EfficientNet[13])抽取基礎語義表示,並採用自監督表示學習思想(e.g. Selfish[14])學習更好的影像表示。

  • 音影片語義特徵:對於影片中的音訊資訊,利用基於YouTube-AudioSet資料上預訓練的Vggish[15]模型 從音訊波形中提取具有語義的128維特徵向量作為音訊表示。對於影片內容的語義建模,我們選擇一種簡單而高效的業界常用方法,僅利用影片的關鍵幀序表示影片內容,並透過融合每個關鍵幀的影像級別語義特徵得到影片級別的語義特徵。

1.2. 多模態特徵融合

· 融合時機:主要包含Late fusion,early fusion和hybrid fusion。顧名思義,early fusion是指將多個特徵先進行融合(e.g. 拼接),再透過特徵學習模組進行訓練;late fusion是指每個特徵先透過各自的特徵學習模組變換後再進行融合;hybrid fusion組合兩種fusion時機,可學習豐富的特徵交叉,效果通常最好。

· 融合方式:高效合理的融合各種多種模態資訊,能夠較大程度上提升影片的語義理解。

目前多模態融合方法主要包括三大類方法:

  1. 最為直接的方法:透過element-wise product/sum或拼接,融合多模態特徵,但不能有效的捕捉多模態特徵之間的複雜關聯;
  2. 基於pooling的方法:主要思想是透過bilinear pooling的思想進行多種模態特徵融合,典型代表作包括 MFB[16]和MFH[17]等;
  3. 基於注意力機制的方法:  借鑑Visual Question Answering(VQA)的思想,注意力機制能夠根據文字表示,讓模型重點關注影像或影片中相關的特徵部分,捕捉多種模態之間的關聯性,典型代表作有BAN(Bilinear Attention Network)[18]等。

 深度語義表示模型

 預訓練模型的應用通常分為兩步:1)先使用大量無監督語料進行進行預訓練(pretraining),學習通用的語義表示; 2)再基於該通用語義表示,使用少量標註語料在特定任務上進行微調(finetuning)。類似地,在文字、圖片、音訊、影片的通用預訓練語義表徵基礎上,我們嘗試在特定的任務中(比如召回、語義匹配等)引入影片豐富的side information ,以及節點和邊型別異構等特點, 並藉助抽取能力更強的深度模型進行微調,以學習滿足不同業務場景的語義特徵。

根據建模方式可將深度語義表示模型大致分為以下幾類:

1. 基於內容的深度語義模型

基於內容的深度語義模型,顧名思義,模型以單個節點的內容(後設資料和多模態資訊等)作為輸入,並基於人工標註資料作為監督訊號進行訓練,不依賴任何使用者行為資料。該類模型可直接基於節點內容進行推理獲取節點語義表示,無冷啟動問題;但往往需要大量的人工標註資料進行模型訓練。

1.1. 基於ImageNet分類的影像embedding模型

該類模型主要是基於State-of-Art的ImageNet影像預訓練分類模型的中間層或最後一層,抽取影像或影片的純內容表示,並基於自監督表示學習思想finetuning,作為影像或影片的語義表徵,應用於去重(圖 2)和推薦post-rank階段多樣性控制兩種場景的效果較好。

學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖2基於ImageNet分類模型和自監督學習方法的去重示例

1.2. 基於特定任務的embedding模型

該類模型通常基於海量標註資料進行特定任務有監督訓練,並抽取模型中間層或最後一層作為文字或影片的表徵,比如基於標籤分類任務的embedding模型(如圖 3所示), 該模型基於影片後設資料、文字、影像、音訊和影片特徵,在大規模標註資料上訓練,識別影片的型別標籤和內容標籤。往往抽取模型fusion層的表示作為影片的topic粒度語義表徵,可有效解決冷啟動問題,廣泛應用於推薦的召回、排序、多樣性控制場景中。

 

學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖3基於型別標籤任務的embedding模型

2.基於匹配的深度語義模型

該類模型是一種結合內容和行為的深度語義模型,主要透過融合文字、影像、影片和音訊等多模態資訊,並基於使用者的點選、觀看或搜尋等共現行為作為監督訊號,構建正負樣本對, 訓練模型使得 , 其中e表示樣本的語義表徵, x表示影片或使用者等。該類模型缺乏對節點的長距離依賴關係和結構相似性建模;但建模相對簡單,模型訓練後可以直接用於推理,可有效解決冷啟動問題,用於召回和排序場景效果較好。

基於匹配的深度語義模型主要基於Siamese network(孿生網路或雙塔結構)或多塔結構實現,目前業界較流行的方法包括DSSM(Deep Structured Semantic Model)[5]和CDML[20]。DSSM最初用於搜尋建模文字的語義相關性,而CDML基於音訊和影片幀特徵,用於建模影片的語義相關性,並認為late fusion方式的多模態特徵融合效果較好。對於影片的語義建模,在DSSM文字輸入的基礎上,我們額外引入封面圖和影片兩個模態的預訓練語義表示,改善影片語義表徵效果。類似地,CDML還引入文字、封面圖兩種模態的預訓練語義表示,以豐富節點資訊;同時針對CDML僅採用late fusion的特徵融合時機,特徵互動有限且缺乏多樣性的問題,我們採用hybrid fusion融合多種模態特徵,學習更為豐富的多模態特徵交叉(如圖 4所示)。

 

學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖4基於hybrid fusion的CDML模型結構

3. 基於序列的深度語義模型

該類模型是一種基於行為的深度語義模型,透過將傳統的淺層網路(e.g. skip-gram, LSTM)替換為特徵抽取能力更強的深度網路(e.g  Transformer)學習節點的深度語義表徵。給定使用者的行為序列, 利用sequential neural network建模使用者的行為偏好,基於模型的最後一個隱層的表示預測使用者下一個可能點選的item。該類模型可用於建模節點的長距離依賴關係,用於推薦場景中的召回效果往往較好,但存在冷啟動問題。

  序列建模的方法主要包含三類:

1)基於MDPs (Markov decision Processes):透過狀態轉移機率計算點選下一個item的機率,當前狀態僅依賴前一個狀態,模型較為簡單,適用於短序列和稀疏資料場景建模;

2)基於CNN:利用CNN捕獲序列中item的短距離依賴關係,比如Caser[21],易並行化;

3)基於RNN:可以捕獲長距離依賴關係,適用於長序列和資料豐富的場景,不過模型更復雜,不易並行化,比如GRU4Rec[22]。

 目前較為流行的序列建模方法主要基於RNN,為解決RNN不易並行和效率較低等問題,我們借鑑業界經驗,採用特徵抽取能力更強, 且易並行的Transformer(如圖 5所示)替換RNN進行序列建模,典型的工作包括SASRec[23], Bert4Rec[24]。SASRec使用單向Transformer decoder(右半部分,N=2),基於上文建模下一個item的點選機率;而Bert4Rec採用雙向transformer encoder(左半部分,N=2),借鑑BERT的掩碼思想,基於上下文預測masked items的點選機率。此外,由於BERT假設masked items之間相互獨立,忽略了masked items之間的相關性,我們借鑑XLNet[25]的自迴歸(Auto-regressive)思想和排列組合語言模型(permutation language model)思想,同時建模雙向context和masked item之間的相關性,提高序列建模效果。

 

學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖5Transformer網路結構

4. 基於Graph的深度語義模型

 Graph embedding模型(又稱為圖嵌入或網路嵌入),可將圖中的節點投影到一個低維連續空間,同時保留網路結構和固有屬性。深度圖嵌入模型在節點同構圖或異構圖(節點型別或邊型別不同)的基礎上,引入節點豐富的side information和多模態特徵,並採用特徵抽取能力更強的網路,學習節點的深度語義表徵。該類方法建模相比前幾種深度語義模型更加複雜,但可以充分利用豐富的圖結構資訊建模節點的高階依賴關係。

4.1. 引入豐富的side information和多模態資訊

傳統graph embedding方法主要基於圖結構和某種節點序列取樣策略生成序列資料, 並基於skip-gram方式學習節點embedding, 如圖 6所示。典型工作包括DeepWalk, LINE, Node2vec, 三者主要區別在於序列生成的取樣策略不同。傳統graph embedding模型將所有節點視為ID, 僅能覆蓋訓練集中的高頻節點, 無法獲取新節點的embedding。

 

學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖 6 傳統graph embedding方法基本原理

為解決新節點的冷啟動問題, 一方面, 可以在傳統圖嵌入模型中引入節點的多種模態資訊,另一方面,還可以充分利用節點豐富的meta資訊(比如類別,上傳者等)。屬性網路(Attributed  Network Embedding)在圖結構的基礎上,額外引入節點的屬性資訊,豐富節點的語義表徵,使得具有相似拓撲結構和屬性的節點語義更為接近。對於冷啟動問題,可直接透過節點的屬性embedding可獲取新節點embedding。EGES[26]和ANRL[27]是其中的兩個典型工作。其中,EGES在skip-gram模型的輸入中引入屬性資訊。ANRL將skip-gram和AE相結合,僅使用屬性特徵作為節點表示,並將傳統AE中的decoder替換為neighbor enhancement decoder, 使節點和其上下文節點(而非其自身)更為相似。EGES和ANRL主要用於屬性資訊豐富的電商領域的圖嵌入,但在影片推薦領域,除少量長影片(影視劇)、演員等具有豐富的屬性外,大部分短、小影片屬性較稀缺,無法直接複用。為解決該問題,我們提出多模態ANRL,如圖 7所示,將節點的屬性特徵和多種模態(文字、封面圖、影片)的預訓練語義表示特徵一起用於表徵節點,作為模型輸入。對新節點,可直接基於訓練好的模型和節點自身內容(即屬性和多模態特徵)進行推理獲取, 基於多模態ANRL embedding的近鄰示例如圖 8所示。此外,知識圖譜也可以視為一種豐富的side information,可以嘗試透過引入外部先驗知識進一步學習更好的深度語義表示。

學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖7多模態ANRL模型結構

學術派 | 愛奇藝深度語義表示學習的探索與實踐


圖8多模態ANRL 近鄰結果示例

(左邊第一個為種子影片,其他為近鄰影片)

4.2 更先進的特徵抽取器

傳統的圖嵌入模型通常是基於圖生成序列資料,並採用簡單的skip-gram模型學習節點embedding, 模型過於簡單,特徵抽取能力較弱,僅能建模區域性鄰居資訊(通常為一階或二階)。圖神經網路(GNN, Graph Neural Network)或圖卷積網路(GCN, Graph Convolutional Network)可以直接基於圖結構和節點的多模態特徵,利用特徵抽取能力更強的多層圖卷積迭代的對節點的鄰域子圖進行卷積操作,聚合鄰居特徵(textual、visual特徵等),生成節點的深度語義表示。借鑑業界經驗,我們復現了多種GCN模型,比如PinSAGE[28], ClusterGCN[29]等。此外,我們還使用了一個在大規模圖資料上非常快速和可擴充套件的圖嵌入演算法ProNE[30]。ProNE先將圖嵌入問題轉換為稀疏矩陣分解問題,高效獲得具有一階鄰居資訊的特徵向量,作為節點的初始embedding;然後再透過頻譜傳播,基於頻域上的filter對其進行過濾從而融合高階鄰居資訊作為最終的節點深度語義表示,可同時將低階和高階鄰居資訊融入節點語義表示。更重要的是,可將常見的網路嵌入演算法(比如Node2vec等)生成的embedding作為ProNE中第一步的節點初始embedding,再進行頻譜傳播,效果平均會提升~10%。

4.3. 建模多元異構圖

現有方法主要基於具有單一型別節點&邊的網路圖(同構圖),但現實世界中大部分圖都包含多種型別的節點和邊,不同型別的節點往往具有不同的屬性和多模態特徵。比如,在搜尋場景中,最簡單的異構圖是使用者的搜尋-點選二部圖,具有兩種型別的節點:query和影片,影片具有豐富的屬性和多模態特徵;而在推薦場景也包含大量異構圖,比如使用者-影片、影片-圈子-內容標籤、演員-角色-作品等。

傳統的graph embedding演算法會忽略圖中邊的型別以及節點的特徵,比如node2vec, metapath2vec, 雖然metapath2vec可用於異構節點的表示學習,但仍然將節點視為ID,忽略節點豐富的特徵。異構圖(HINE, Heterogenous Information Network Embedding)深度語義模型同時引入節點的多種模態特徵,和圖中節點和邊型別的多樣性,對不同型別的節點和邊分別建模,其中多元是指圖中具有多種型別的邊。

我們首先在搜尋場景的語義相關性任務中進行了異構圖深度語義表示學習的初步嘗試。語義相關性在搜尋中扮演重要角色,可用於搜尋語義召回和語義相關性匹配。為衡量query和影片標題的語義相關性,學習query和影片在同一個空間的深度語義表徵,我們基於搜尋查詢-點選異構圖,透過組合representation-based和interaction-based兩者思想,學習query和影片標題的語義相關性embedding,模型結構如圖 9所示, 左邊的encoder建模query或影片標題的深度語義表示,用於學習文字的顯示語義相關性;decoder引入行為相關性約束,用於建模隱式的語義相關性,比如<query:李菁菁, title:歡天喜地對親家>,  前者是後者的主要演員之一。右側用於建模query和影片標題之間的多粒度互動語義。相比於baseline,語義相關性準確率提升6%以上, 表 1給出了部分query-title語義相關性例子。除點選型別外,目前還在嘗試引入收藏、評論、點贊等邊型別,和影片型別(比如長、短、小影片, 專輯和播單等),以及在影片側引入封面圖和影片模態特徵,進行更為細緻的建模。

 

學術派 | 愛奇藝深度語義表示學習的探索與實踐

圖 9搜尋query-title語義相關性embedding模型結構


目前也正在將該模型遷移到推薦場景中學習使用者和影片、圈子以及標籤等之間的同空間語義相關性。此外,最近還引入了阿里在異構圖表示學習方面的工作GATNE-I[31],支援多源異構網路的表示學習和以及具有強大特徵抽取器的HGT(Heterogeneous Graph Transformer)[32]網路,並引入節點的多模態特徵,嘗試學習效果更好的節點深度語義表示。

Query

相似影片(僅列舉top 5)

海杆魚輪怎麼用

Score:0.9448, title:醉漢海杆安裝方法

Score:0.9415, title: 海杆和漁輪怎麼安裝

Score:0.9365, title: 海杆使用方法

Score:0.9350, title: 海竿安裝使用教學 海竿安裝影片使用方法 海竿釣法和技巧

Score:0.9345, title: 海杆釣白鰱魚線組安裝方法

委瞧不起選手

Score:0.8894, title:馮小剛現場拆穿選手的身份:別裝了!評委間激烈爭吵

Score:0.8807, title: 某選秀節目,垃圾評委刻薄點評,選手憤然離場

Score:0.8713, title: 民間歌手真情投入演唱卻被評委瞧不起,憤怒的他大膽炮轟評委

Score:0.8632, title: 女選手數次打斷評委講話還翻白眼,惹怒蔡明發飆怒懟

Score:0.8593, title: 男子臺上模仿李玉剛大獲成功,妻子上臺後評委怒罵選手!

王大利
Score:0.7873, title: 王太利
Score:0.7695, title: 這筷子兄弟的王太利是真慘,有這樣的媳婦和岳父岳母,悲劇
Score:0.7625, title: 筷子兄弟反目互懟! 王太利吐槽: 我把你當兄弟, 你把我當筷子
Score:0.7536, title: 大秀上王太利喝醉了,竟然對著譚詠麟這樣,太絕了
Score:0.7469, title: 超級訪問之筷子兄弟北漂往事首曝光
德國好聲音diamonds

Score:0.9235, title: 好漂亮德國好聲音美女,完美溫柔嗓音

Score:0.9198, title: 國外13歲的小孩,翻唱天后蕾哈娜《diamonds》,第一句

Score:0.9118, title: 3個孩子翻唱蕾哈娜金曲《diamonds》小蘿莉一開口被驚豔到了!

Score:0.9100, title: 德國好聲音冠軍13歲少女jouline,驚豔世界的天籟童聲!

Score:0.9053, title: jouline vs besim vs lisa battle - diamonds the voice kids 2018 (germany)

表 1 搜尋query-title embedding語義相關性例子

後續最佳化:

1. 影片通用預訓練語義表示:由於時間效能和影片語義表示預訓練資料缺乏等因素,目前僅簡單的透過融合影片關鍵幀序的影像級別特徵得到影片的語義特徵。後續將基於大量video captioning資料,借鑑BERT思想學習影片預訓練語義模型(e.g.UniViLM[35])抽取影片的深度語義表徵。

2. 融入知識圖譜先驗的深度語義表示學習:影片的文字和描述中往往包含一些實體(比如標題“漫威英雄內戰,鋼鐵俠為隊友量身打造制服,美隊看傻了”中包含實體“漫威、鋼鐵俠”),透過在文字表徵中引入圖譜中的實體,以及實體之間關係等先驗知識(“鋼鐵俠”和“復仇者聯盟”),能夠進一步提升語義表徵的效果。後續將嘗試在NLP預訓練語言模型和推薦場景中引入知識圖譜,分別用於提升文字語義表徵效果(比如KEPLER[33])和發現使用者深層次使用者興趣,提升推薦的準確性,多樣性和可解釋性(e.g. KGCN[34])。

3. 覆蓋更多的業務:深度語義表示通常用於影片智慧分發場景,目前已經覆蓋愛奇藝的長&短&小影片、直播、圖文、漫畫等推薦和搜尋業務;後續將持續增加愛奇藝智慧製作的場景支援,為各種業務場景提供深層次語義特徵。

 

參考文獻

[1] Yoshua Bengio, et al. A Neural Probabilistic Language Model. The Journal of Machine Learning Research, 3:1137–1155, 2003.

[2] Tomas Mikolov, et al. Efficient Estimation of Word Representations in Vector Space. In International Conference on Learning Representations (ICLR), 2013.

[3] Ashish Vaswani, et al. Attention Is All You Need. In International conference on Neural Information Processing Systems (NeurIPS), 2017.

[4] Thomas N. Kipf.  et al. Semi-Supervised Classification with Graph Convolutional Networks. In International Conference on Learning Representations (ICLR), 2017.

[5] Po-Sen Huang, et al. Learning Deep Structured Semantic Models for Web Search using Clickthrough Data. In ACM International Conference on Information and Knowledge Management (CIKM), 2013.

[6] Oren Barkan, et al. Item2Vec: Neural Item Embedding for Collaborative Filtering. arXiv preprint, arXiv: 1603.04259v3, 2017.

[7] Aditya Grover, et al. node2vec: Scalable Feature Learning for Networks. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.

[8] Jacob Devlin, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.  arXiv preprint, arXiv: 1810.04805v2, 2019.

[9] Zhenzhong Lan, et al. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. In International Conference on Learning Representations (ICLR), 2020.

[10] David M. Blei, et al. Latent Dirichlet Allocation. The Journal of Machine learning Research, 3:993-1022, 2003.

[11] Lingfei Wu, et al. Word Mover’s Embedding: From Word2Vec to Document Embedding. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2018.

[12] Casper Hansen, et al. Contextually Propagated Term Weights for Document Representation. In International Interest Group on Information Retrieval (SIGIR), 2019.

[13] Mingxing Tan, et al. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. In Proceedings of the 36th International Conference on Machine Learning (ICML), 2019.

[14] Trieu H. Trinh, et al. Selfie: Self-supervised Pretraining for Image Embedding. arXiv preprint, arXiv 1906.02940, 2019.

[15] Shawn Hershey, et al. CNN Architectures for Large-Scale Audio Classification. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2017.

[16] Zhou Yu, et al. Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering. In International Conference on Computer Vision (ICCV), 2017.

[17] Zhou Yu, et al. Beyond Bilinear: Generalized Multimodal Factorized High-order Pooling for Visual Question Answering. IEEE Transactions On Neural Networks And Learning Systems, 26:2275-2290, 2015.

[18] Jin-Hwa Kim, et al. Bilinear Attention Networks. In International conference on Neural Information Processing Systems (NeurIPS), 2018.

[19] Francois Chollet. Xception: Deep Learning with Depthwise Separable Convolutions. arXiv preprint, arXiv: 1610.02357, 2017.

[20] Joonseok Lee, et al. Collaborative Deep Metric Learning for Video Understanding. In Proceedings of the 24th  ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2018.

[21] Jiaxi Tang, et al. Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding. In ACM International Conference on Web Search and Data Mining (WSDM), 2018.

[22] Balazs Hidasi, et al. Session-based Recommendations with Recurrent Neural Networks. In International Conference on Learning Representations (ICLR), 2016.

[23] Wang-Cheng Kang, et al. Self-Attentive Sequential Recommendation. In IEEE International Conference on Data Mining (ICDM), 2018.

[24] Fei Sun, et al. BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer. In ACM International Conference on Information and Knowledge Management (CIKM), 2019.

[25] Zhilin Yang, et al. XLNet: Generalized Autoregressive Pretraining for Language Understanding. In International conference on Neural Information Processing Systems (NeurIPS), 2019.

[26] Jizhe Wang, et al. Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2018.

[27] Zhen Zhang, et al. ANRL: Attributed Network Representation Learning via Deep Neural Networks. In Proceedings of the 27th International Joint Conference on artificial Intelligence (IJCAI), 2018.

[28] Rex Ying, et al. Graph Convolutional Neural Networks for Web-Scale Recommender Systems. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2018.

[29] Wei-Lin Chiang, et al. Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2019.

[30] Jie Zhang, et al. ProNE: Fast and Scalable Network Representation Learning. In Proceedings of the 28th International Joint Conference on artificial Intelligence (IJCAI), 2019.

[31] Yukuo Cen, et al. Representation Learning for Attributed Multiplex Heterogeneous Network. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2019.

[32] Ziniu Hu, et al. Heterogeneous Graph Transformer. In Proceedings of the World Wide Web Conference (WWW), 2020.

[33] Xiaozhi Wang, et al. KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. arXiv preprint, arXiv: 1911.06136, 2020.

[34] Hongwei Wang, et al. Knowledge Graph Convolutional Networks for Recommender Systems. In Proceedings of the World Wide Web Conference (WWW), 2019.

[35] Huaishao Luo, et al. UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation. arXiv preprint, arXiv: 2002.06353, 2020

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945252/viewspace-2704744/,如需轉載,請註明出處,否則將追究法律責任。

相關文章