微信嘗試結合時間過程與內容特徵,重新定義“爆款文”?

naojiti發表於2019-02-25

沒有一個時代比今天更重視技術對於內容的價值。

越來越多的人們,尤其是年輕人,更加願意使用和相信演算法生成和推送的內容。演算法之於文章,扮演的就是一個“星探”的角色。它需要在剛剛見面的幾分鐘內,就判斷出哪個具有“明日之星”的潛力,以便分配更多的資源幫助它“走花路”,而不是隻會在對方走紅之後,才說出“我早就知道”的馬後炮。

不幸的是,大部分基於內容特徵和協同過濾演算法的推薦系統,都無法“識英雄於微時”,在文章發出早期就判斷出其受歡迎程度。這就導致一些原本質量很高的文章,很可能因為初始瀏覽量不夠而被埋沒,“標題黨”“咪蒙系”反而有可能得到越來越多的推薦和熱度。

如何在過剩的資訊洪流中將使用者最感興趣、最具潛力的資訊率先甄選出來,是建立一個良性內容生態的關鍵,卻也是困擾各大巨頭、懸而未決的技術難題。

最近,微信的研究人員就提出了一種新的神經網路方法DFTC,用來更好地預測網路文章的熱度。由於該模型表現出了良好的效能,已經被AAAI 2019 大會接收, 並在大會上作了主題報告。

它在哪些領域進行了創新,又能為現有的爆款內容生產機制帶來哪些改變呢?

渠道分發哪家強:熱度預測面臨哪些難題?

在介紹新方法之前,有必要先梳理一下,當前的推薦演算法都是如何進行熱度預測的:

一種是基於聚合瀏覽量的時間演進過程,比如今日頭條的熱門推薦演算法,就是優先推薦熱門的文章。

這種方式的優勢是,已知的歷史熱度會越來越接近整體受歡迎程度,因此模型的表現也會隨著文章釋出的時間而變得越來越好。

但由於很多外部因素帶來的意外增長都是不可預測的,時間熱度模型卻對此卻無能為力。即使引入人工干預,除非像咪蒙系一樣憑藉大量經驗和策劃,否則也很難確定爆款文章可能出現的時間,以及生命力有多強。

二是透過預測內容特徵的受歡迎程度,來推斷整體可能的熱度。Yahoo Today就曾經用新聞的點選率來進行畫像,並用feature-based learning方法來建模使用者對資訊感興趣的程度。

其中包括靜態特徵,比如資訊的類目、主題等;以及動態特徵,如某條資訊、某類資訊分時間段的各種統計值等。透過這種方法,Yahoo發現在推薦新聞時,娛樂類新聞天然比體育類新聞點選率高。

由於內容特徵不會隨著時間而變化,因此很多不那麼刺激眼球的內容也可以獲得公平的曝光機會。使得該模型在早期階段效果更為可靠。但問題也隨之而來。

網路文章通常是長文字,加上越來越複雜的後設資料特徵(如標題、類別、作者資訊等),建模難度也日漸增大,目前還沒有此類模型能夠完全地利用這些資料。

不難發現,不論是基於時間演進,還是基於內容特徵,都不足以支撐內容終極價值的判斷標準。只有雙管齊下,才能發揮出最佳的預測效果。然而,這對於演算法工程師來說是極大的挑戰。

DFTC:改寫熱度預測的叢林法則

為了改變這一現狀,微信的研究人員就此提出了一種將時間過程與內容特徵深度地融合到一起的神經網路方法——Deep Fusion of Temporal process and Content features,簡稱DFTC,來構建更合理的熱度預測系統。

他們收集了2018年5月-7月的6萬篇微信公眾號文章的熱度資料,將文章熱度分為 3 類:爆款(閱讀量>10000),冷門(閱讀量<100)和普通 (其它),最終得到一個類別基本平衡的資料集用作訓練 (training set) 和測試 (balanced test set),並建立了一個2 萬篇文章構成的隨機測試集 (random test set)。

DFTC一共包含三個部分:1.時間過程建模;2.內容特徵建模;3.注意融合。

首先,採用卷積神經網路(Attention CNN)來提取文章增長和下降的短期波動情況,比如一篇文章每小時瀏覽量的變化情況。接著再利用迴圈神經網路(RNN)得出文章受歡迎程度的長期增長趨勢。

然後,利用分層注意網路(HAN)來獲取文字特徵,使用嵌入技術來學習各種後設資料的特徵,並進行建模,得到一個內容特徵模型。

接下來,將建好的時序模型和內容模型利用注意力機制動態地組合到一起,生成一個能夠體現出文章熱度演變過程多樣性的靈活權重(Popularity level)。

DFTC的創新之處是,解決了三個懸而未決的行業難題:

1.如何預測意外情況帶來的短期波動(Attention CNN自動學習短期波動,不做具體假設或人工設計);

2.如何解決後設資料多模態的識別難題(embedding技術可以識別短文字描述、標題和影像等多種表現形式);

3.相同內容特徵與不同生命週期階段的連線(Attention融合機制,生成一個靈活權重而非線性組合)。

至此,一個更優秀的熱度預測模型就誕生了。

實驗資料顯示,“兩手抓兩手都要硬”的DFTC,在文章釋出後的前5個小時,其預測的準確度相比其他單一性解決方案強出了不少。

不難發現,DFTC正是基於對短期瀏覽量、意外因素、內容關鍵詞等可能決定最終受歡迎程度的多重因素進行了全面統籌,才能在初始期就做出更精準的判斷。因此,一些枯燥無趣的內容會被率先過濾掉,有潛力的優質文章也更容易得到推薦,避免了“酒香也怕巷子深”的命運。

或許不久以後,依靠經驗和直覺打造爆款,和依靠大資料與關鍵詞打造爆款,這些技術蠻荒時代的叢林法則慢慢都會被更好的生態機制所取代。

熱度預測照亮的未來,不只屬於文字

個性化推薦系統既不能完全遵循使用者興趣標籤與內容特徵抽取的匹配,那會導致越來越嚴重的資訊繭房(“喜歡你就多看點”)和回聲室效應(“你反對的絕不出現”);也不能單純依靠文章的生命週期來判斷,讓優質創作者在平臺偏向(“這篇會火都給我看”)之下涼了熱血。

因此單純從資料上看,DFTC是成功的。

目前,微信已經將該模型作為系統選擇和推薦文章的重要依據,開始在“看一看”等產品場景中進行實踐。

從更廣泛的實用性來說,DFTC所代表的思路,用深度學習技術和思維解決預測問題,正在成為業界共識。

“在任意時間預測網路內容的最終熱度”,DFTC不僅僅只有資訊平臺的推薦演算法,在廣告、搜尋等業務也能起到很強的推動作用,提高內容的分發效率。

而就在前不久,微軟也提出過一個跨產品的使用者行為模型,將使用者在搜尋、新聞、appstore、xbox等多個產品線上的行為(反饋)統一在一起,這樣訓練出的深度學習網路,就能很好地最佳化和解決單個產品上(使用者)冷啟動、資訊稀疏等問題。

也就是說,可能你搜尋了“房價會不會繼續上漲”,開啟新聞APP就會收到“房價可能回到三年前”的新聞,是不是有點細思極恐呢?

這也反映出深度學習進行熱點預測所呈現的新的問題:平臺對熱點的評估只是一種模仿,好的閱讀體驗究竟應該如何量化?為了更好的閱讀體驗,讀者需要讓渡多少個人隱私?

當然,現在想這些還有點為時過早。無論如何,熱度預測模型能力的升級,正在讓內容產業關於價值的標尺越來越多元,這可能是演算法最具人性的一次。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2636979/,如需轉載,請註明出處,否則將追究法律責任。

相關文章