紅豆Live推薦演算法中召回和排序的應用和策略

AI前線發表於2019-03-04

本文由 「AI前線」原創,原文連結:紅豆Live推薦演算法中召回和排序的應用和策略
作者|胡南煒
編輯|Emily

AI 前線導讀:”有人曾說,“語音直播產品紅豆 Live 的突然出現,讓沉寂了一段時間的語音知識付費市場又重新燃起了生機”,讓語音直播這個小眾市場重新吸引了大眾的注意力,讓聲音愛好者找到知音和志同道合之友。但紅豆 Live 也用了 AI 這個事實,你知道嗎?用到了哪些 AI 技術?推薦演算法如何幫助它在眾多語音直播產品中脫穎而出?對有意採用 AI 技術的公司有何啟示?InfoQ 將在這篇文章中揭開這些問題的答案。”

InfoQ 編輯對微博機器學習計算和服務平臺負責人胡南煒進行了採訪,詢問了關於微博旗下的語音直播平臺——紅豆 Live 應用 AI 技術的詳細情況,以及他對 AI 的深入瞭解和趨勢預測。

紅豆 Live 的 AI 佈局

據該產品官網資料顯示,2017 年 1 月,紅豆 Live 面向大眾全面開放,KOL 入駐量達 5000+,主播總數量 4 萬人,開啟了一個全民語音直播的時代。而這款產品的成功,按照該公司的說法,是“AI 發揮的作用不可忽略”。那麼,紅豆 Live 中究竟採用了哪些 AI 技術?這家公司在 AI 技術方面是否有著深遠的佈局呢?

紅豆Live推薦演算法中召回和排序的應用和策略

從技術層面講,紅豆 Live 在 AI 領域使用了語音識別、推薦排序等深度學習技術;其中在推薦排序中紅豆 Live 經歷了三次演算法迭代,從協同過濾到基於內容的推薦,最後到基於音訊譜圖隱藏特徵的深度學習預測模型的演進。“每次的演算法迭代都是為了解決使用者發現更多優質主播以及提高語音直播內容傳播的目標。”胡南煒說道。

眾所周知,企業採用 AI 技術需要高昂的成本,在採用這些技術後究竟能產生多大的效果,這是人們非常關心的問題。胡南煒表示,紅豆 Live 的推薦模型目標是發現更多主播、使用者留存、平均收聽時長 3 項。在應用深度學習預測模型後,從資料表現上,該平臺的主播發現率較人工運營時提高了 135%,使用者留存率提升 20%,平均收聽時長增長 80%。這款產品在應用 AI 後三個重要指標均有較大上漲,因此可以說,深度學習模型對於其業務是有著明顯影響的。

語音直播相對來說受眾數量較小,那這類產品靠什麼來吸引使用者呢?胡南煒認為,雖然語音直播受眾數量較小,但確實有效解決了一部分垂直使用者的痛點需求。在他看來,直播主要可以滿足使用者兩個方面的需求:娛樂需求和價值需求。顧名思義,娛樂需求是指人們對於娛樂的追求以獲得精神滿足,直播等視聽感受結合的形式可以滿足大眾的娛樂需求;而滿足價值需求,是指直播能給使用者帶來專業的知識、實用的技能、思路的啟發等具有實際意義的東西,解決現實問題。在這方面,他認為語音直播更具優勢。另外,音訊直播可以更好的將使用者的注意力聚焦在內容本身上並降低直播成本,AI 可以幫助忠粉和垂直使用者更便利、更有針對性的獲取到自己所喜歡的語音內容,從而解決內容獲取的痛點。

推薦系統的技術支援詳情

推薦系統的成功離不開背後的技術支援,而部署 AI 更需要強大的技術來做支撐。

紅豆 live 推薦系統中使用 CNN+LSTM 用在標籤服務裡面,把直播間中一些隱藏特徵自動化的提取、關聯、抽象出來,準備率比起傳統機器學習演算法大大提高。在 Wide & Deep 排序中,使用寬深度學習網路結合 LR,不僅僅使特徵工程的工作量工程量大為降低,而且排序模型的記憶能力和泛化能力比單獨使用 LR 提高不少。”從中我們可以看到,推薦系統的演算法支援使得紅豆 Live 的業務能力顯著提高。

然而,沒有任何演算法是完美無缺的。“紅豆 Live 推薦系統主要的缺陷是,推薦系統中的冷啟動問題。對於新使用者,我們無法獲取他們的行為日誌和 query 日誌。“而針對這個問題,他們有彌補的方法,”因為紅豆 live 使用者和微博使用者重合度為 90%,可以利用該使用者的微博興趣標籤,解決使用者的冷啟動問題。”胡南煒說道。

關鍵技術召回和排序的作用和策略

紅豆Live推薦演算法中召回和排序的應用和策略

紅豆 Live 推薦系統中的兩個關鍵技術分別是召回和排序,其中在召回層用到的策略,是基於 item 的協同過濾,基於使用者 query 的 CTR 進行召回,和基於用長短期興趣的進行召回。而在排序層,則使用 Wide & Deep 網路,主要基於召回層的 item 進行融合、排序,最終選出 top N 個 item 推薦使用者。

召回層的作用在於根據使用者的不同興趣,從海量 item 中選出數百個使用者感興趣的 item。而排序層的作用則是基於使用者的一些特徵,對召回層的 item 再次進行打分排序,更精準地選出使用者感興趣的 item。

具體工作流程

此外,胡南煒還為我們揭示了紅豆 Live 推薦演算法的具體工作流程:

第一,對使用者的行為日誌進行利用 JStorm 實時收集,並定時更新基於 item 的協同過濾內容。

第二,對直播間內容進行利用 JStorm 實時收集,實時為直播間打上分類標籤、topic、主題詞等標籤,並定時更新使用者畫像內容。

第三,對使用者 query 日誌利用 JStorm 實時收集,定時計算使用者 query 的 CTR。

最後,當使用者進行重新整理時,利用召回策略進行召回,再根據排序策略選擇 top N 呈現給使用者。

AI 識別“少兒不宜”內容準確率提高

“三俗”內容識別一直是正規內容平臺嚴格把關的方面,AI 能夠在這一方面發揮更大的作用。紅豆 Live 由於採用了可以提取更豐富特徵的新演算法,對”三俗”內容進行過濾,因此準確率相較傳統機器學習演算法有了很大提升。為了保障使用者體驗,其針對“三俗”內容分別訓練模型以及使用敏感詞的策略,在對使用者進行推薦前,對推薦內容進行實時過濾。

過擬合問題是最大挑戰

而被問及紅豆 Live 的推薦系統在開發應用過程中遇到的最大困難是什麼時,胡南煒表示,任何 AI 技術應用的過程中,神經網路的過擬合問題都是讓人頭疼的問題,紅豆 Live 也不例外,在開發過程中遇到的最大挑戰就是它。而他們解決這個問題的思路主要有三點:新增 dropout 層、進行正則化,以及當 loss 和 acc 穩定即停止訓練,這或許對我們有所啟發。

對 AI 發展趨勢的預測

最後,InfoQ 請胡南煒對 AI 行業在未來的發展趨勢進行了預測,單就語音直播領域來說,胡南煒認為 AI 技術在語音直播內容分發,以及滿足使用者個性化語音內容需求等方向會帶來深遠的影響。“如果說使用者碎片時間主要被社交、閱讀、音視訊等 APP 佔據,那麼不久的將來也一定會增加語音直播類。”他說道。

而在 2018 年 AI 將有什麼樣的發展趨勢這一問題上,他認為 AI 技術的應用將更加垂直化,AI 技術深入到使用者日常生活的每一個方面,比如語音直播。

胡南煒表示,非監督類學習將是紅豆 Live 下一步的探索,“我們有這方面的摸索計劃,比如在沒有標註資料的前提下,我們通過聚類演算法將語音直播內容形成一個個的簇,從而做一些粗粒度的隨機推薦。”

注:本文觀點僅代表受訪者本人意見,與受訪者所在公司無關。

講師簡介

胡南煒,畢業於北京航空航天大學電腦科學和工程系,在這裡完成博士學業之後多年從事軟體工程研發和網際網路,個人技術專長為大資料、雲端計算技術和機器學習。他於 2014 年加入微博,負責微博機器學習計算和服務平臺開發。在此之前,曾經在 IBM、Yahoo 等公司工作。

更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。

相關文章