作者介紹:Moment, 2016年至今任職於愛奇藝技術產品中心-搜尋廣告部,主要負責自然語言處理(NLP)和商業系統的研發和管理工作。博士畢業於中科院自動化所自然語言處理方向,先後在日本ATR研究所、日本情報通訊研究機構(NICT)、英國愛丁堡大學(短期訪問)和索尼中國研究院擔任自然語言處理、語音識別與機器翻譯等研發工作。曾在EMNLP、COLING、CIKM、INTERSPEECH、ICASSP、Computer Speech & Language等國際會議和期刊發表文章20餘篇。
愛奇藝是一家以科技創新為驅動的娛樂公司,致力於為使用者提供豐富、高清、流暢、和智慧化的專業視訊體驗。
在愛奇藝的視訊場景下,自然語言處理的使命即是讓機器更好地理解娛樂相關的視訊/圖文內容,從而為使用者提供智慧化的服務。
本文簡介愛奇藝自然語言處理團隊專注在哪些nlp課題以及取得的進展,並舉例說明我們的使用場景。
一.引言
NLP涉及的面非常廣,包括語音識別 / 合成、資訊檢索,資訊抽取,問答系統,機器翻譯、對話系統等。
在愛奇藝,自然語言處理團隊專注於以下7個方向:
1.詞法分析和知識圖譜
2.打標籤(Tag Recommendation)
3.查詢理解
4.熱門事件發現和聚合
5.語音助手
6.輿情分析
7.電影票房和電視劇VV(video view)預測
從而實現更好地理解視訊/圖文內容,使用者的搜尋意圖和使用者的評論,為搜尋、推薦、廣告、社交、輿情監控的智慧化提供基礎服務和技術支援,並探索nlp的直接應用業務。
我們的詞法分析作為文字分析的基礎服務,已廣泛引用於多個億級流量的業務線。
圖1:詞法分析平臺
圖1顯示了現階段的詞法分析功能:
分詞、詞性標註、詞權重、新詞發現、實體識別/連結功能等,採用的技術主要包括CRF、L2R、CNN、CNN+CRF、LSTM+CRF。
其中,實體識別是詞法分析中的重點也是難點。除了通用的人名、地名、組織機構名的識別,我們還特別關注娛樂領域的影視劇名、遊戲名、文學作品名、遊戲解說名等的識別。
上述的娛樂領域的實體識別挑戰較大,主要包括:
1. 目前工業界和學術界還鮮有相關工作的介紹。
2. 實體本身的規律性弱。任何一個詞都有可能是實體的一部分,例如“殺破狼”、“西遊記之孫悟空三打白骨精”等;
3. 實體詞與實體詞之間、以及實體詞與普通詞之間的歧義性大,如電影“十二生肖”、“功夫”、“長城”、電視劇“解密”,既是普通名詞也是實體詞,“非誠勿擾”即可能是電影,也可能是綜藝或普通詞。
4. 缺乏訓練語料
我們首先在訓練語料的準備上做了大量的工作,包括:
(1)使用啟發式規則自動構建了100萬句弱標註的視訊語料。
(2)人工方式標註了幾萬句的精準標註的視訊語料。
在實體詞典的構建上,使用資料探勘技術實時地從全網挖掘影視劇名/角色名/藝人名/遊戲名等領域詞典。
演算法上不僅在傳統的CRF模型上做了很多的嘗試,也在深度學習方法進行了一些探索。CRF vs. CNN vs. LSTM等對比實驗表明,如圖2所示的雙層CNN+CRF模型獲得較優的效能。在2個不同的測試集上,我們的模型對劇名識別的f-score分別是82.1%和72.6%。
實體識別/連結服務除了作為底層的nlp基礎服務應用於各業務線,我們也開發了多個直接應用業務。
1.通過實體識別進行泡泡圈子的內容分發:即從圖文/視訊/圖集中的文字中準確地識別明星、劇名;對識別出的明星、劇名按照和內容的匹配度進行重要性打分、並根據重要性將內容自動分發到對應的明星圈子和影視劇圈子。
2.通過實體識別將feed流中的視訊和電影票(圖3左)、遊戲(圖3中)、電商(圖3右)、漫畫和文學等垂線業務進行關聯。可在不損傷使用者體驗的情況下,提高對垂直業務線的導流,進而實現一鍵購買電影票、下載遊戲和下單電商等。
圖3:基於實體識別/連結的feed流視訊與垂線業務的關聯
在視訊領域知識圖譜,我們可以分析出視訊與視訊、視訊與人、人與人,人與視訊的關係。再結合精確的語義分析、實現了使用者查詢的精確回答(圖4)。未來我們還要繼續挖掘遊戲、文學等更多垂直領域的實體屬性和實體關係。
圖4:基於知識圖譜的問答系統
標籤是從對內容(視訊、圖文、或圖集)的描述(標題、摘要、或正文)中提取可表示內容的一種後設資料(關鍵詞或術語)、有助於更好的個性化內容推薦、更高效的內容編輯。
標籤可以是一個封閉的預定義分類體系(我們稱之為型別標籤),也可以是從內容中提取的開放的關鍵詞集合(內容標籤)。
標題 | 範爺辣眼睛新街拍, 難道減肥真的可以無止盡嗎? |
內容標籤 | 範爺 (http://www.iqiyi.com/lib/s_200044305.html)街拍 減肥 |
型別標籤 | 娛樂 明星 內地 |
1.基於啟發式規則的候選標籤生成。
2.基於無監督(TextRank,ExpandRank)或有監督(Maui,CeKE)演算法的候選打分,並輸出概率最大的作為系統標籤。
按我們經驗和對業務的瞭解,我們將基於打分或者分類的內容標籤任務轉化為一個序列標註任務,並採用CRF模型。該演算法具有:
01.可以抽取任意長度的片語作為標籤
02.不再需要單獨的候選抽取模組
03.可以獲得最佳的效能
目前、標籤服務已經應用於視訊推薦、愛奇藝頭條、泡泡、視訊編輯等業務等。
四.查詢理解
查詢理解包括個性化的預設搜尋詞、查詢補全、查詢糾錯和查詢分類等。
其中個性化的預設搜尋詞是在使用者發生搜尋行為前,通過使用者在愛奇藝的歷史行為猜測使用者可能感興趣的query。其本質是一個推薦系統,方法是計算使用者畫像和query的相似度。優秀的個性化預設搜尋詞可以增加使用者黏性,提高使用者體驗,進一步地引導使用者行為。
查詢補全是在使用者發生搜尋行為的過程中,通過使用者不完整的輸入(我們稱之為token)與query的匹配度,query的點選量、專輯與否、freshness等提示使用者一些可能感興趣的query,提高搜尋效率。
五.語音助手
我們的語音助手已落地在愛奇藝VR一體機和愛奇藝APP上。通過VR語音助手,可以實現和VR一體機的虛擬女友Vivi進行40多種互動,包括視訊播放/搜尋、天氣查詢、和Vivi的互動、VR裝置設定(亮度調高、音量調低)等。
在APP裡,語音助手可實現便捷地購買VIP會員(我要買愛奇藝VIP會員),下載遊戲(我想下載愛奇藝鬥地主遊戲)、直接觀看電視劇的某一集或電影等。
圖5:APP上的語音助手
語音助手簡單來說,即是把使用者說的話(utterance),轉換為結構化的語義表示,從而執行相應的動作(action),分為如圖6所示的3個大模組:語音識別、語音識別糾錯、語義解釋。
語義解析模組又進一步分為意圖分類(intent classification)和要素抽取(slot filling)。
需要說明的是,第二節介紹的詞法分析,特別是影視劇名識別,和第四節介紹的基於愛奇藝全網搜尋的查詢糾錯讓我們的語音助手魯棒性,特別是在影視娛樂、遊戲領域得到較大的優化。
圖6:語音助手框架圖
六.輿情分析
輿情分析可直觀反映觀眾對劇和藝人的關注焦點和態度,為版權方和自制劇的內容運營、內容營銷策略制定、營銷趨勢把握提供參考。
我們使用自然語言處理中的句法分析技術,從UGC內容(使用者評論、彈幕、泡泡圈子)中抽取評價物件、評價詞以及情感色彩,從而形成對使用者觀影評論、社互動動的多維度結構化輿情分析。
圖7是對電影“戰狼2”從視覺效果、場面、演員三個維度的輿情分析結果。
圖7:電影“戰狼2”的部分輿情分析結果
帶情感的熱詞分析效果可以訪問愛奇藝指數網站http://index.iqiyi.com/,其中詞的大小反應提及頻度, 詞的顏色反映情感色彩。
七.電影票房和電視劇VV預測
無論是票房還是VV的預測,都面臨很大的挑戰,包括:
01、提前時間長(提前1年 / 半年等), 可獲取的資訊有限
02、上線前影響因素較多 (如同期影片、突發事件)
03、訓練樣本少(少於1000部)
04、站內外多個資料來源的資料融合、清洗等
為獲得較好的效能,我們在資料清洗和特徵工程上做了很多嘗試。最後採用了包括時間類, 題材類, 播放平臺和方式類, 指數類, ip類, 前作類、趨勢類等100多維特徵、並對丟失特徵的補全和部分特徵的變換。
模型上對比了線性模型, SVM, 隨機森林, GBDT, DNN, stacking整合方法等。
在最近的90部版權電視劇上最優的R2準確率為85%。vv超10億的頭部劇預測誤差在30%以內的佔67%,誤差在50%以內是100%。
圖8是部分劇的預測vv與真實vv的比較。
圖8:部分頭部版權劇提前180天、60天
預測值和真實值的對比
八.總結
基於使用者弱標註和人工精準標註資料、使用機器學習和深度學習的自然語言處理技術更好地理解視訊、理解使用者,從而讓搜尋、推薦、資料探勘更智慧,為使用者提供智慧化的專業視訊體驗。
接下來,我們要進一步優化上述功能模組,並擴充在視訊場景下的更多應用。
在演算法上,將進一步探索更有效的深度學習模型、文字和影象的融合、遷移學習等提高系統的效能。