解讀論文《Agglomerative clustering of a search engine query log》,以解決搜尋推薦相關問題

JiaoMaster發表於2022-05-14

《Agglomerative clustering of a search engine query log》

論文作者:Doug Beeferman 本文將解讀此篇論文,此論文利用搜尋日誌中的<query,url>型別點選日誌,實現忽略目標url內容,基於搜尋詞條使用者的點選資料,聚合相關搜尋和連線的演算法。(本解讀文章個人辛苦之作,請勿隨意轉載 文章連結 https://www.cnblogs.com/jiaomaster/p/16271663.html)

背景

隨著網際網路規模的擴大和普及,現在有超過10億個靜態網頁(作者所寫的年份),一些商業搜尋引擎每天處理數以千萬計的查詢對組織這些資料的自動方法的迫切需求已經發展。為大規模的非結構化資料集帶來一定程度的秩序的一種策略是將相似的項分組在一起。本文介紹了一種技術,用於通過Internet搜尋從使用者事務集合中找到相關查詢和相關url的叢集。作者列舉了一些常用的文件的聚類計算方法,如HAC,k-means,但是這些都基於文件內容,但作者提出了一種基於使用者點選資料日誌的方法。

點選資料介紹

http協議允許商業搜尋引擎記錄關於使用者的大量資訊——傳送請求的機器的名稱和IP地址、機器上執行的web瀏覽器的型別、機器的螢幕解析度,等等。這裡,我們只對包含使用者提交的查詢的字元序列和使用者從搜尋引擎提供的選項中選擇的URL感興趣。表1列出了來自最近Lycos日誌的點選記錄(查詢,URL)的一小段摘錄。

表1:2000年2月某一天Lycos點選記錄(使用者查詢和所選url)的一小段摘錄。
表1:2000年2月某一天Lycos點選記錄(使用者查詢和所選url)的一小段摘錄。

演算法設計

1.構造二部圖 點選轉跳二部圖介紹

首先我們約定,使用者查詢詞query為Q,Url則為U,構造出的圖為G,二部圖的query頂點W(白節點),Url頂點為B(黑節點),日誌的資料集為C(資料集格式<query,url>)

  • 從資料集C中獲取一個獨一無二的使用者查詢詞query
  • 從資料集C中獲取一個獨一無二的使用者點選連線url
  • 對每一個唯一的query,在二部圖中建立一個W白節點
  • 對每一個唯一的url,在二部圖中建立一個B黑節點
  • 如果<query,url>出現過,加給他們節點之間加邊

2.節點間的相似度
為了對二部圖進行聚合,需要計算每個頂點之間的相似度,引入公式

公式中σ(x,y)表示x和y頂點(黑和黑,白和白),N(x)代表頂點x和另一邊頂點的總邊數,N(y)代表頂點y和另一邊頂點的總邊數,所以公式的意思就是,兩頂點重合的邊和總共的邊的比代表相似度
3.對二部圖進行聚合

  • 根據2中公式,對所以白頂點之間的相似度(查詢詞頂點)打分
  • 把兩個最相似的白頂點合併
  • 根據2中公式,對所以黑頂點之間的相似度(Url頂點)打分
  • 把兩個最相似的黑頂點合併
  • 迭代(重複前面步驟),直到一個條件
    文中沒有對停止條件詳細規定,只是說到一個最相似的情況,我在下文會提供其他論文的解決辦法

演算法過程示意圖

時間複雜度

構建結果的使用

此為我本人專案用的思路,得到聚合資料以後,可根據使用者搜尋時返回的連結,在聚合資料中匹配,將匹配到的聚合資料的query資料就是相關搜尋的推薦內容

演算法缺陷

在閱讀其它文章,我發現有以下兩個缺點
1.沒有考慮噪聲資料,即使用者錯誤點選
對此問題 W ing Shun Chan 在論文《Query Log Containing Noisy Clickthroughs 》中,給出了優化的相似度計算公式

2.沒有給出演算法明確停止邊界
如果計算的最大相似度度太低,會導致不相關的也被強行聚合,所以,我們通過設定一個閾值來解決

參考文獻

[ 1] Doug Beeferman, Adam Berger. Agglomerative Clustering of a Search Engine Query Log[C], Proceedings of the sixth ACM S IGKDD interna2 tional con ference on knowledge discovery and data m ining, pp. 407 416, August 20~23, 2000, Boston, M assachusetts, United States.
[2] W ing Shun Chan, W ai Ting Leung, D ik Lun Lee. Clustering Search En2 gine Query Log Containing Noisy Clickthroughs [C], Proceedings ofthe 2004 International Symposium on App lications and the Internet( SAINTT04).

相關文章