從跨模態和上升通道談富媒體內容的冷啟動

雲音樂技術團隊發表於2022-04-21

圖片來源:https://marketing.chron.com/w...

作者:劉森茂

富媒體內容冷啟動的意義

富媒體內容(Rich Media Content,簡稱富內容),是指具有視訊、聲音、文字等多種載體的綜合性資訊形式,主要包括短視訊、直播等等。相比於傳統的文章、圖片、音樂等單一載體的內容,在“注意力經濟”的時代,富內容是能夠最大限度傳遞資訊、吸引消費者注意力的內容形式。並且因其豐富的呈現形式(圖文聲並茂,可搭配各種玩法、特效),成為平臺創作者(達人、藝人等)最佳的表達工具。

相比起音樂、影視等“經典”內容,富內容,尤其是UGC向的富內容,對冷啟動有著極高的要求,主要有以下原因:

  • 生產門檻低、週期短。具體表現為,短視訊生產者或者直播主,基本能夠做到一週一次甚至數次的內容生產。這其中,上一個視訊/直播的播放、點贊、評論等資料,對生產者而言是至關重要的反饋,生產者可以藉此更好的把握內容生產的方向。只有把新內容的分發做好,生產者才願意陪一個平臺去玩,並且堅持下來,生產者自己也會慢慢成長,為平臺粘性更好的做貢獻。
  • 消費新鮮感高。高生產節奏也帶來了內容流行趨勢的快速演進。新的玩法、特效、熱點,幾乎層出不窮,而消費者永遠都是第一時間追求最新鮮事物的。如果一個平臺推薦的內容總是比別的平臺晚幾天,心智也就很難構建起來。
    基於此,分發富內容的推薦系統,對內容冷啟動的考量,達到了前所未有的高度,甚至可以說整個系統都是圍繞著冷啟動和新內容上升進行的構建。

冷啟動問題的檢測

想要針對性的解決問題,首先需要檢查一個推薦系統是否對新內容有系統性的偏差。這裡列舉兩種常用的方法:
(一)時間維度的校準分析
校準(Calibration)是廣告推薦中常用的分析技術,主要用來檢查特定人群/物料下的模型評分與真實轉化效果是否有系統性偏差。在冷啟動問題這裡,也可以用來檢查對新/老內容的模型評分是否有系統性偏差。

上圖為我們對雲音樂短視訊推薦所做的新視訊校準分析,按照新/老內容和新/老使用者進行模型評分與實際轉化率的交叉分析。我們可以看到,在糾偏之前,新內容存在嚴重的系統性偏差,其打分是被系統性低估的。

(二)內容生命週期曲線
冷啟動問題也可通過對特定內容的分發生命週期進行監控發現。具體講,一個內容如果在早期階段維持較高的轉化率,但是分發量卻一直處於較低水平,直到很長時間才實現有效的大量分發,那麼系統很可能存在冷啟動問題。

上圖為某條內容分發量(藍色)與CTR(橙色)隨時間的變動。可以看到,在專門構建冷啟動策略之前,優質內容的自然分發量是緩慢爬升的。

冷啟動的解決方法

網際網路上關於冷啟動方法的介紹已經較為豐富了,許多經典方法(比如Bandit策略、基於標籤的新內容召回等等),在此也不再贅述。本文主要針對富內容特有的兩個冷啟動技術進行介紹:冷啟動與上升通道在富內容上天然的結合;以及基於跨模態技術的內容理解。

上升通道

推薦系統中的內容上升通道是為了最大限度催生出優質內容,而對內容進行的層層選拔、上升,直至推出爆款內容的分發策略。

上圖為某平臺的內容上升通道(圖片來自網路)。我們以此為例進行說明:推薦系統首先從內容池中選取內容進行第一階段的分發測試,提供300左右的曝光量,之後按照資料標準進行篩選,符合標準的會進入第二階段並且獲得更大曝光量,以此類推,直至成為全網爆款。

對富內容的推薦系統而言,如前所述,為了強化平臺推陳出新的效應,一般只會對最新發布的內容進行上升。因此新內容冷啟與上升通道便自然的結合起來。

與抖音類似,網易雲音樂短視訊業務也構建了類似的內容上升通道,並且根據網易雲音樂的特點,還可以根據熱門歌曲進行輔助上升。下面介紹幾點實踐經驗:
(1)從早期的個性化到最後階段的“破圈”。上升通道早期的海選階段,內容數量龐大而質量參差不齊,應當儘量走個性化分發。到了後期,上升出的爆款開始具備“破圈”屬性,對個性化的需求開始降低,必須大膽的把內容推薦給更多的使用者群體。
(2)新內容應當優先分發給高活使用者,避免不確定性的新內容勸退心智本就不強的低活使用者。在流式消費體驗下(不論是單列全屏流還是雙列瀑布流),越往深處的曝光越屬於高活躍度使用者,演算法在分發上按比例擴大流量位置深處的新視訊分發量,便可實現這一點。

上升通道技術,網際網路上最先由抖音等短視訊平臺提出,時至今日,已經成為各大富內容平臺必不可少的技術框架,某種程度上代表了一個平臺對內容的價值觀:推陳出新、鼓勵原創。上升通道的分發效率高低,也成為了冷啟動成敗的關鍵。

跨模態內容理解

如果說上升通道是新內容冷啟動流量的保證,內容理解則是流量利用效率的關鍵,是新內容個性化分發的主要依靠。這其中,富內容因其跨越圖片、視訊、文字等多個型別,對內容理解有著最高的要求,也成為跨模態技術應用的舞臺。

跨模態技術的主要作用是將不同模態的內容進行資訊提取(表徵),並且根據下游推薦系統進行資訊整合。

第一:資訊提取。之前流行的技術是各個模態單獨進行內容向量的表徵(比如圖片模態採用ResNet或者Swin Transformer,文字模態採用Bert),最近的技術提前到資訊壓縮階段,就開始對各個模態的資訊進行整合。比如現在流行的框架CLIP,將圖片與文字構建pairwise sample,並且採用matching loss進行模型的訓練,統一產出圖片和文字的向量表徵。

上圖為CLIP等框架下的matching loss:將互相配對的圖片和文字進行打亂,構建正負樣本

第二:與下游推薦的資訊整合。推薦系統下游的行為資料在跨模態資訊整合中起到了關鍵的監督作用。這裡簡述幾種資訊整合的框架:

  • 基於向量擬合的資訊整合:核心思想是將一條內容的跨模態內容向量表徵去儘可能擬合基於行為資料計算出的向量表徵。這方面有代表性的是CB2CF技術
  • 基於使用者偏好雙塔模型的資訊整合:核心思想是通過構建雙塔模型預測使用者的內容偏好,其中內容塔只使用跨模態的原始向量。這種方法相比CB2CF的優點在於,雙塔模型的結構能夠讓使用者行為資料對內容表徵產生更深刻的影響,避免CF對行為資料表徵過程中的資訊損失。

具體到雲音樂的跨模態進展,我們在多個方面都進行了實踐,並且取得了一定的正向結果:

  • 基於CB2CF的I2I召回,將新內容(短視訊)的分發效率提升了25%左右
  • 基於雙塔模型框架的I2I召回,點選率相比CB2CF又提升了20%+
  • 基於CLIP技術的圖文跨模態表徵,在離線驗證階段,能夠將對應召回源的準確度(按照NDCG衡量)提升15%+
  • 通過跨模態技術結合使用者長期興趣,對視訊上升通道進行優化,部分階段的平均點選率甚至可以有翻倍的提升
  • 通過將跨模態內容理解技術應用於視訊推薦稽核,節省了約40%的稽核人力

雲音樂視訊推薦雙塔模型框架相比於CB2CF的效率提升,藍色為基於雙塔模型框架的I2I召回,綠色為基於CB2CF的I2I召回

最後總結

內容冷啟動對一個推薦系統的意義不僅僅侷限於點選率的優化,更多是與一個平臺對內容分發整體的價值觀相關聯。基於不同內容冷啟動流量分配策略,對平臺最終生態的影響,也是值得深入研究的方向。雲音樂在這方面也取得了一些很有意義的結果。另外,跨模態技術的研究,相比下游的推薦系統,依然處於初級階段。通過技術手段降低內容入庫(稽核+打標+冷啟動)對人工的依賴,還有廣闊的提升空間。

本文釋出自網易雲音樂技術團隊,文章未經授權禁止任何形式的轉載。我們常年招收各類技術崗位,如果你準備換工作,又恰好喜歡雲音樂,那就加入我們 staff.musicrecruit@service.ne...

相關文章