基於使用者投票的排名演算法(一):Delicious和Hacker News

發表於2012-03-04

| 2012-03-04 09:28      

網際網路的出現,意味著"資訊大爆炸"。

使用者擔心的,不再是資訊太少,而是資訊太多。如何從大量資訊之中,快速有效地找出最重要的內容,成了網際網路的一大核心問題。

各種各樣的排名演算法,是目前過濾資訊的主要手段之一。對資訊進行排名,意味著將資訊按照重要性依次排列,並且及時進行更新。排列的依據,可以基於資訊本身的特徵,也可以基於使用者的投票,即讓使用者決定,什麼樣的資訊可以排在第一位。

下面,我將整理和分析一些基於使用者投票的排名演算法,打算分成四個部分連載,今天是第一篇。

一、Delicious

最直覺、最簡單的演算法,莫過於按照單位時間內使用者的投票數進行排名。得票最多的專案,自然就排在第一位。

舊版的Delicious,有一個"熱門書籤排行榜",就是這樣統計出來的。

它按照"過去60分鐘內被收藏的次數"進行排名。每過60分鐘,就統計一次。

這個演算法的優點是比較簡單、容易部署、內容更新相當快;缺點是排名變化不夠平滑,前一個小時還排在前列的內容,往往第二個小時就一落千丈。

二、Hacker News

Hacker News是一個網路社群,可以張貼連結,或者討論某個主題。

每個帖子前面有一個向上的三角形,如果你覺得這個內容很好,就點選一下,投上一票。根據得票數,系統自動統計出熱門文章排行榜。但是,並非得票最多的文章排在第一位,還要考慮時間因素,新文章應該比舊文章更容易得到好的排名。

Hacker News使用Paul Graham開發的Arc語言編寫,原始碼可以從arclanguage.org下載。它的排名演算法是這樣實現的:

將上面的程式碼還原為數學公式:

其中,

  P表示帖子的得票數,減去1是為了忽略發帖人的投票。

  T表示距離發帖的時間(單位為小時),加上2是為了防止最新的帖子導致分母過小(之所以選擇2,可能是因為從原始文章出現在其他網站,到轉貼至Hacker News,平均需要兩個小時)。

  G表示"重力因子"(gravityth power),即將帖子排名往下拉的力量,預設值為1.8,後文會詳細討論這個值。

從這個公式來看,決定帖子排名有三個因素:

第一個因素是得票數P。

在其他條件不變的情況下,得票越多,排名越高。

上圖可以看到,有三個同時發表的帖子,得票分別為200票、60票和30票(減1後為199、59和29),分別以黃色、紫色和藍色表示。在任一個時間點上,都是黃色曲線在最上方,藍色曲線在最下方。

如果你不想讓"高票帖子"與"低票帖子"的差距過大,可以在得票數上加一個小於1的指數,比如(P-1)^0.8。

第二個因素是距離發帖的時間T。

在其他條件不變的情況下,越是新發表的帖子,排名越高。或者說,一個帖子的排名,會隨著時間不斷下降。

從前一張圖可以看到,經過24小時之後,所有帖子的得分基本上都小於1,這意味著它們都將跌到排行榜的末尾,保證了排名前列的都將是較新的內容。

第三個因素是重力因子G。

它的數值大小決定了排名隨時間下降的速度。

上圖可以看到,三根曲線的其他引數都一樣,G的值分別為1.5、1.8和2.0。G值越大,曲線越陡峭,排名下降得越快,意味著排行榜的更新速度越快。

知道了演算法的構成,就可以調整引數的值,以適用你自己的應用程式。

[參考文獻]

  * How Hacker News ranking algorithm works

  * How to Build a Popularity Algorithm You can be Proud of

(完)

作者: 阮一峰

VIA http://www.ruanyifeng.com/blog/2012/02/ranking_algorithm_hacker_news.html

基於使用者投票的排名演算法(一):Delicious和Hacker News

相關文章