讀論文-新聞推薦系統:近期進展、挑戰與機遇的評述(News recommender system_ a review of recent progress, challenges, and opportunities)

想你时风起發表於2024-04-11

前言

今天讀的論文為一篇於2022年發表在"人工智慧評論"(Artificial Intelligence Review)的論文,文章主要強調了NRS面臨的主要挑戰,並從現有技術中確定了可能的解決方案。

引用這篇論文:

[1]Raza, Shaina, and Chen Ding. "News recommender system: a review of recent progress, challenges, and opportunities." Artificial Intelligence Review (2022): 1-52.

《人工智慧評論》(Artificial Intelligence Review)是一本專注於人工智慧領域的國際期刊,它以工程技術和電腦科學中的人工智慧綜合研究為特色。該期刊由知名的SPRINGER出版社出版,自1986年起就開始發行,歷史悠久,是人工智慧領域內的重要學術刊物之一。它涵蓋了人工智慧的多個方面,包括但不限於機器學習、自然語言處理、計算機視覺、智慧系統、以及與人工智慧相關的倫理和社會問題等。《人工智慧評論》通常發表高質量的研究論文、綜述文章和技術報告,旨在為學術界、工業界和公共政策制定者提供最新研究成果和趨勢分析。透過這些出版物,期刊不僅推動了人工智慧理論的發展,也促進了其在各個領域的應用。此外,作為一個國際性的學術期刊,它提供了一個多學科交流的平臺,鼓勵來自世界各地的研究者分享他們的創新想法和研究成果,從而推動全球人工智慧技術的發展。

摘要

Nowadays, more and more news readers read news online where they have access to millions of news articles from multiple sources. In order to help users find the right and relevant content, news recommender systems (NRS) are developed to relieve the information overload problem and suggest news items that might be of interest for the news readers. In this paper, we highlight the major challenges faced by the NRS and identify the possible solutions from the state-of-the-art. Our discussion is divided into two parts. In the first part, we present an overview of the recommendation solutions, datasets, evaluation criteria beyond accuracy and recommendation platforms being used in the NRS. We also talk about two popular classes of models that have been successfully used in recent years. In the second part, we focus on the deep neural networks as solutions to build the NRS. Different from previous surveys, we study the effects of news recommendations on user behaviors and try to suggest possible remedies to mitigate those effects. By providing the state-of-the-art knowledge, this survey can help researchers and professional practitioners have a better understanding of the recent developments in news recommendation algorithms. In addition, this survey sheds light on the potential new directions.

如今,越來越多的新聞讀者選擇在網上閱讀新聞,在那裡他們可以從多個來源獲取數百萬篇新聞文章。為了幫助使用者找到正確且相關的內容,新聞推薦系統(NRS)被開發出來,以減輕資訊過載問題,並向新聞讀者推薦可能感興趣的新聞專案。在本文中,我們強調了NRS面臨的主要挑戰,並從現有技術中確定了可能的解決方案。我們的討論分為兩部分。在第一部分,我們介紹了NRS中使用的推薦解決方案、資料集、超越準確性的評估標準和推薦平臺。我們還討論了近年來成功使用的兩類流行模型。在第二部分,我們專注於深度神經網路作為構建NRS的解決方案。與以往的調查不同,我們研究了新聞推薦對使用者行為的影響,並嘗試提出可能的補救措施來減輕這些影響。透過提供最新的知識,這項調查可以幫助研究人員和專業從業者更好地理解新聞推薦演算法的最新發展。此外,這項調查還揭示了潛在的新方向。

摘要要點總結

摘要這段話主要討論了新聞推薦系統(NRS)在解決資訊過載問題上的重要性和作用。隨著越來越多的讀者選擇線上閱讀多來源的新聞文章,NRS被開發用以推薦個性化和相關的新聞內容。文中首先概述了NRS中使用的推薦技術、資料集、評估標準以及平臺,並介紹了近年來成功應用的模型類別。其次,文中特別關注了深度神經網路在構建NRS中的應用,並且探討了新聞推薦對使用者行為可能產生的影響及其潛在補救措施。最後,這項調查旨在幫助研究者和從業者更好地瞭解新聞推薦演算法的最新進展,並指出了未來研究的潛在新方向。

引言

隨著互動式通訊技術的進步,網際網路因其全天候可用性、即時更新和免費分發而成為新聞的主要來源。根據皮尤研究中心2018年的一份報告,大約九成的美國成年人(93%)傾向於透過數字報紙、社交媒體、新聞應用程式等線上閱讀新聞(無論是移動裝置還是桌面裝置)。儘管技術取得了如此進步,研究表明,線上媒體並沒有為新聞價值定義出與印刷媒體顯著不同的標準(Shoemaker 2006)。這可能是因為缺乏規定程式來及時提供多樣化的新聞,以及系統無法更好地模擬使用者行為。因此,有必要轉向使用推薦系統等工具和技術(Adomavicius和Tuzhilin 2005),以提供符合讀者資訊需求的定製新聞更新。

許多新聞來源和機構,如CNN、BBC、《紐約時報》、《華盛頓郵報》等,為新聞讀者提供了隨時隨地的訪問許可權,使他們能夠透過線上入口網站瀏覽最新的新聞。為了吸引更多的流量到他們的網站,這些線上入口網站越來越多地採用推薦系統來改善他們在網站上的使用者體驗。在推薦領域中,“使用者體驗”可能有不同的解釋,如可用性、實用性、有效性或與系統的滿意互動(Konstan和Riedl 2012;Knijnenburg等人。2012年)。向新聞讀者推薦適當和相關的新聞故事是一項具有挑戰性的任務。原因是新聞領域面臨著與其他推薦系統應用領域不同的某些挑戰。

在這些獨特的挑戰中,時效性是最重要的挑戰之一。它考慮了新聞故事的持續時間很短、最近性、流行度、趨勢以及每秒到達的大量新聞故事等因素。新聞領域的另一個重要挑戰是使用者行為的高度動態性。新聞讀者可能具有長期或短期的偏好,這些偏好隨時間逐漸或突然演變。最近,新聞內容受到了大量的操控。例如,以虛假新聞和宣傳的形式向公眾傳播欺騙性資訊(Helberger 2019)。這給新聞內容的質量控制帶來了更大的挑戰。

隨著移動技術和應用程式在人們生活中越來越普及,新聞聚合器(如谷歌、雅虎)和社交媒體(如臉書和推特)的新聞源已經取代了人們發現新聞內容的方式。一旦新聞入口網站的推薦功能被安裝,新聞源就可以根據每個使用者的演算法定製。個性化是新聞推薦系統的一個有用功能,因為它可以根據新聞讀者的偏好和興趣提供新聞。然而,過於個性化的新聞故事限制了讀者對不同型別新聞的接觸。在個人層面,新聞讀者可能會厭倦一直閱讀相同型別的新聞故事。過度個性化也可能影響讀者長期的行為,導致他們避免反態度(與自身信念相矛盾的態度)的資訊(觀點、意見)(Helberger 2019)。在社會層面,這種行為以人們拒絕接受反對觀點的形式對民主構成威脅。

在新聞推薦系統(NRS)中,過度個性化通常是由於推薦方法過分強調預測準確性的結果。這些典型的以準確性為中心的方法可能未能考慮到評估推薦質量時使用者的主觀體驗的其他方面(例如選擇滿意度、感知系統效能、更好的推薦以及接觸不同觀點)。當開發一個好的NRS時,必須考慮超出準確性的方面來評估新聞推薦的質量。

總結來說,這部分主要講了以下內容:

  • 網際網路憑藉其全天候可用性、即時更新和免費分發,成為新聞的主要來源,約93%的美國成年人線上閱讀新聞。
  • 線上媒體並未為新聞價值設定與印刷媒體明顯不同的標準,主要問題在於缺乏程式提供多樣化及時新聞及模擬使用者行為的不足。
  • 推薦系統等工具和技術被廣泛應用以提供個性化、符合讀者資訊需求的新聞更新,如CNN、BBC、《紐約時報》和《華盛頓郵報》等線上門戶採用推薦系統提升使用者體驗。
  • 新聞推薦系統面臨的挑戰包括時效性(新聞故事的短期性質、最新性、流行度和趨勢)和使用者行為的高度動態性(使用者偏好隨時間演變)。
  • 虛假新聞和宣傳對新聞內容的質量控制構成挑戰,影響公眾獲取真實資訊。
  • 新聞聚合器和社交媒體改變了人們發現新聞的方式,推薦功能根據使用者的演算法進行個性化定製。
  • 過度個性化的新聞推薦可能導致使用者接觸面狹窄,厭倦同質化內容,並可能在個人層面限制多元觀點接觸,在社會層面威脅民主原則。
  • 開發新聞推薦系統時,應超越預測準確性,考慮使用者滿意度、感知系統效能、多樣性視角等因素來評估新聞推薦質量。

Characteristics of news domain 新聞領域的特點

在回顧NRS面臨的挑戰之前,首先強調了新聞領域與推薦系統的其他應用領域(如推薦電影、音樂、書籍、餐館等)區別開來的特徵。

平均消費時間通常,消費一個新聞故事的持續時間(使用者閱讀一篇新聞文章所花費的時間)是根據平均不超過200字的文章長度來衡量的。根據皮尤研究中心(PEW research center)的一份報告,單詞數在250個以下的Footnote3故事,讀者的參與時間平均需要43秒,而單詞數超過5000個的故事,至少需要270秒(4.5分鐘)。相比之下,一部電影的時長通常為90 ~ 120分鐘,一個音樂節目的平均時長在3 ~ 5分鐘之間,一本書的時長可能更長。

新聞專案的壽命新聞專案的保質期通常較短,因為它們到期很快(可能是幾分鐘、幾小時或幾天),而音樂、書籍、電影等其他產品可能會持續幾天、幾周、幾個月甚至幾年。此外,與其他產品相比,新聞專案的釋出時間和新聞網站或社交媒體網站上的評論(評論)時間之間的差距最小(秒,分鐘,小時左右)。

新聞條目的目錄大小新聞故事往往在很短的時間內充斥系統,例如,以每小時數千個傳入新聞條目的速度。另一方面,音樂或電影服務的目錄大小通常在數百或數千之間,但這些專案的持續時間更長。

期望請求-響應率新聞內容的及時傳遞至關重要,被認為是新聞領域的一個獨特特徵。新聞聚合網站上對新聞專案的請求有時會大於100秒,為了實時提供新聞,預期的響應最好在100毫秒內傳送(Kille等人2017)。

順序消費新聞專案通常是按順序消費的,讀者可能希望一次更新不同的新聞故事。順序消費音樂專案和新聞專案之間的區別在於,前一種情況下,專案通常在一個序列中重複多次(Schedl等人,2018),而在後一種情況下,讀者希望更新不同的或正在進行的故事,而不是重複的故事(Park等人,2017a)。

多樣性使用者通常一次只消費一種音樂或電影型別,偶爾在不同的情緒或情況下切換到不同的型別。另一方面,新聞領域的多樣性不僅對保持讀者線上閱讀過程中的參與至關重要,而且對讀者暴露於逆態度行為也至關重要(Raza and Ding 2020)。新聞媒體的多樣性是民主社會的一項關鍵原則(Helberger 2019)。

新聞專案通常是匿名消費的,大多數情況下沒有明確的使用者資訊(Doychev et al. 2015;Sottocornola et al. 2018)。雖然這個問題可以透過考慮點選模式、閱讀時間、瀏覽和導航模式等隱性訊號來緩解(Ilievski和Roy, 2013;Trevisiol et al. 2014),這些隱含的訊號有時可能被錯誤地解讀為使用者的欣賞或興趣的指標。例如,較長的閱讀時間可能是因為使用者疲勞或空閒時間,而不是使用者興趣的指標(Ma et al. 2016)。

透過對讀者資料的過度分析,網路媒體消費也導致了對使用者隱私的威脅(Desarkar和Shinde 2014)。

閱讀語境具有高度演化性、時效性和社會性,並且只針對新聞領域(Raza and Ding 2020)。NRS中使用最廣泛的上下文是位置(Asikin and Wörndl 2014)和時間(Park et al. 2017b)。Lommatzsch等人(Lommatzsch et al. 2017)評估了使用者在時間和一週中的日期上下文方面的動態性。根據他們的調查結果,工作日新聞入口網站的訪問量比周末要多。除了時間和地點,讀者的上下文可能與一些最新的事件或趨勢新聞、天氣甚至一些性格特徵(情緒、興趣)有關。例如,在奧運會期間,通常對體育新聞不感興趣的人可能想要獲得一些比賽的最新結果。

社交媒體的影響社交媒體極大地影響了搜尋和收集新聞故事的方式(Cucchiarelli et al. 2018)。讀者喜歡透過跟蹤新聞在社交媒體上的影響來了解更多有關新聞故事的資訊。社交媒體上新聞故事的對話、持續時間、公眾反應和結果也可以幫助記者確定哪些問題需要進一步關注。

情感能夠吸引讀者的注意力,併為事件/角色創造情感。音樂或電影能直觀地喚起使用者的情感,進而影響他們的偏好。情感正在越來越多地推動新聞消費行為,這既是對新聞質量的挑戰,也是NRS進一步重塑自身的機會(Beckett和Deuze, 2016)。

偏見新聞專案最初是為資訊目的而消費的;然而,透過以不同的風格和語調呈現新聞,可以引發偏見(Helberger 2019)。一個好的新聞故事應該向讀者提供細節,以便他們做出自己的判斷,並與人物/事件建立情感聯絡。

多模態新聞資訊在當今資訊時代,網路是傳播資訊和新聞的重要載體。尤其是社交媒體,它可以很容易地通知使用者全球事件,並且已經成為受歡迎的一大新聞來源。這些新聞文章通常使用多種模態,如文字、影片、播客,以更有效地傳達資訊。當它是文字格式時,它可以以不同的語言傳遞。目前,大多數研究工作都集中在一種語言的文字新聞文章上,沒有考慮多模態和多語言帶來的複雜性,因為在當今新聞領域,量化跨模態和跨語言的實體表示具有挑戰性。由於缺乏針對非文字格式和多語言新聞推薦的積極研究,只回顧了針對一種語言推薦基於文字的新聞的論文。然而,我們認識到需要對多模態和多語言的新聞推薦進行更多的研究。

Overview of research in news recommender systems 新聞推薦系統研究概述

General algorithmic solutions 一般演算法解決方案

推薦系統中使用的傳統演算法可以分為:協同過濾(CF)、基於內容的過濾(CBF)和混合方法(Adomavicius和Tuzhilin 2005)。構建任何推薦系統都需要兩個重要的東西,即使用者和物品的內容,以及它們之間的互動。CBF演算法基於共享屬性空間的內容,透過比較使用者概要和專案概要來構建推薦系統。與此相反,CF方法是無內容的,專案的特徵通常事先不知道。CF根據使用者對物品的評分、歷史記錄和互動行為來挖掘使用者行為。

雖然這些傳統的推薦演算法可以應用到新聞領域,但其效能可能並不好。我們需要考慮多種場景,例如新聞環境的動態性、新聞條目的相關性以及高度依賴於上下文的使用者興趣。雖然CF可以用來解決新聞專案的動態內容生成問題,但它需要足夠多的使用者互動(儲存為歷史記錄)來進行推薦。當NRS設法從使用者那裡收集到足夠的消費資料時,新聞內容的價值就被削弱了,從而使推薦變得過時。與此相反,CBF可以透過不斷更新使用者配置檔案以獲取他們閱讀的最新新聞來解決使用者不斷變化的興趣(Wang et al. 2018b)。然而,CBF無法處理NRS中常見的大量臨時和匿名使用者。此外,在CBF中,基於統計的方法計算使用者-專案之間的相似度,可能無法捕捉新聞資料中的語義和上下文資訊。為了彌補CF演算法和CBF演算法在NRS中的缺陷,研究人員和設計人員提出了結合這兩種演算法的混合新聞推薦解決方案。在過去的幾年中,研究者也開始關注上下文(情境,如時間、地點、情緒等)作為額外的資訊來提高新聞推薦的質量。

許多模型過去都被用來構建NRS。隱語義模型,尤其是因子分解模型是NRS中最流行和最成功的一類模型。近年來,基於深度學習的解決方案作為推薦系統的一個新興分支出現。我們認為它們是成功用於NRS的另一類最受歡迎的模型。

因子分解模型

因子分解方法是一類用於推薦系統的演算法,它將使用者-物品互動矩陣分解為低維矩陣的乘積。這裡我們討論在NRS研究中使用的因子分解模型。

矩陣分解(MF)

矩陣分解是最流行的推薦演算法之一,在Netflix競賽中首次得到認可(Koren et al. 2009)。矩陣分解可用於發現兩種不同型別的實體(例如使用者和物品)之間的互動中表現出的潛在特徵。在最近的一項NRS (Raza and Ding 2019)中,MF被擴充套件到包括新聞相關資訊,並對讀者行為的時間動態進行建模。本文提出了一種新的預測器,在MF模型中包含各種時間效應,包括時間偏差、使用者偏差和專案偏差。這些增加的偏差傾向於捕獲許多觀察到的訊號,特別是時間動態。

非負矩陣分解(NMF)

與MF方法一樣,NMF是一種分解技術,它將矩陣R分解為兩個矩陣U和V的乘積。然而,與MF不同的是,NMF具有三個矩陣R、U和V都沒有負元素的特性。通常,NRS中有許多缺失的使用者-物品互動,導致矩陣非常稀疏。在這種情況下,NMF模型通常比原始MF表現得更好。這是由於NMF演算法在處理缺失值假設時的預設功能(Gillis 2020)。然而,如果評分矩陣不是過於稀疏,基於奇異值分解(Singular Value Decomposition, SVD)的MF可能會產生更好的結果。

在一個相關的NRS (Yan et al. 2012)中,新聞相關資訊被包含到NMF模型中,其中NMF用於聚類新聞文件和主題發現。在另一篇論文(Shu et al. 2019)中,NMF被用於從新聞內容和使用者-新聞互動中學習潛空間嵌入。

張量分解(TF)

TF透過引入具有額外維度的潛在向量來擴充套件MF模型。基於tf的推薦系統透過考慮關於使用者和專案的額外資訊,超越了MF技術的侷限性,從而產生了更準確的推薦(Frolov和Oseledets 2017)。因此,TF方法在NRS場景中很有用,我們需要考慮更多的上下文建議,如時間、位置和社互動動。然而,包含太多維度可能會導致昂貴的計算。

在相關的NRS (Wang et al. 2015)中,TF被用於將新聞條目和新聞讀者相關的上下文資訊納入推薦模型。以上翻譯結果來自有道神經網路翻譯(YNMT)· 計算機

總結

總結來說,文章主要講了以下幾點:

  1. 隨著網路新聞閱讀的普及,新聞推薦系統(NRS)被開發來解決資訊過載問題,透過個性化推薦提升使用者體驗。
  2. NRS面臨的主要挑戰在於如何有效篩選並精準推送相關與有價值的新聞內容給使用者。
  3. 文章分為兩部分討論:第一部分概述了NRS中採用的不同推薦解決方案、資料集的使用、超越準確性評估標準以及推薦平臺,並提及了近年來廣泛應用的兩類推薦模型。第二部分重點探討了深度神經網路在構建新聞推薦系統中的應用,並研究了推薦演算法對使用者行為的影響及可能的改善措施。
  4. 該調查提供了關於新聞推薦演算法最新發展的全面知識,旨在指導研究人員和從業者瞭解行業現狀和發展趨勢,並揭示了未來潛在的研究方向。

寫在結尾

好了,今天的論文就讀到這了,明天見!

相關文章