基於使用者投票的排名演算法（五）：威爾遜區間

阮一峰發表於2012-03-20

迄今為止，這個系列都在討論，如何給出"某個時段"的排名，比如"過去24小時最熱門的文章"。

但是，很多場合需要的是"所有時段"的排名，比如"最受使用者好評的產品"。

這時，時間因素就不需要考慮了。這個系列的最後兩篇，就研究不考慮時間因素的情況下，如何給出排名。

一種常見的錯誤演算法是：

　　得分 = 贊成票 - 反對票

假定有兩個專案，專案A是60張贊成票，40張反對票，專案B是550張贊成票，450張反對票。請問，誰應該排在前面？按照上面的公式，B會排在前面，因為它的得分（550 - 450 = 100）高於A（60 - 40 = 20）。但是實際上，B的好評率只有55%（550 / 1000），而A為60%（60 / 100），所以正確的結果應該是A排在前面。

Urban Dictionary就是這種錯誤演算法的例項。

　　基於使用者投票的排名演算法（五）：威爾遜區間

另一種常見的錯誤演算法是

　　得分 = 贊成票 / 總票數

如果"總票數"很大，這種演算法其實是對的。問題出在如果"總票數"很少，這時就會出錯。假定A有2張贊成票、0張反對票，B有100張贊成票、1張反對票。這種演算法會使得A排在B前面。這顯然錯誤。

Amazon就是這種錯誤演算法的例項。

　　基於使用者投票的排名演算法（五）：威爾遜區間

那麼，正確的演算法是什麼呢？

我們先做如下設定：

　　（1）每個使用者的投票都是獨立事件。

　　（2）使用者只有兩個選擇，要麼投贊成票，要麼投反對票。

　　（3）如果投票總人數為n，其中贊成票為k，那麼贊成票的比例p就等於k/n。

如果你熟悉統計學，可能已經看出來了，這是一種統計分佈，叫做"二項分佈"（binomial distribution）。這很重要，下面馬上要用到。

我們的思路是，p越大，就代表這個專案的好評比例越高，越應該排在前面。但是，p的可信性，取決於有多少人投票，如果樣本太小，p就不可信。好在我們已經知道，p是"二項分佈"中某個事件的發生機率，因此我們可以計算出p的置信區間。所謂"置信區間"，就是說，以某個機率而言，p會落在的那個區間。比如，某個產品的好評率是80%，但是這個值不一定可信。根據統計學，我們只能說，有95%的把握可以斷定，好評率在75%到85%之間，即置信區間是[75%, 85%]。

這樣一來，排名演算法就比較清晰了：

　　第一步，計算每個專案的"好評率"（即贊成票的比例）。

　　第二步，計算每個"好評率"的置信區間（以95%的機率）。

　　第三步，根據置信區間的下限值，進行排名。這個值越大，排名就越高。

這樣做的原理是，置信區間的寬窄與樣本的數量有關。比如，A有8張贊成票，2張反對票；B有80張贊成票，20張反對票。這兩個專案的贊成票比例都是80%，但是B的置信區間（假定[75%, 85%]）會比A的置信區間（假定[70%, 90%]）窄得多，因此B的置信區間的下限值（75%）會比A（70%）大，所以B應該排在A前面。

置信區間的實質，就是進行可信度的修正，彌補樣本量過小的影響。如果樣本多，就說明比較可信，不需要很大的修正，所以置信區間會比較窄，下限值會比較大；如果樣本少，就說明不一定可信，必須進行較大的修正，所以置信區間會比較寬，下限值會比較小。

二項分佈的置信區間有多種計算公式，最常見的是"正態區間"（Normal approximation interval），教科書裡幾乎都是這種方法。但是，它只適用於樣本較多的情況（np > 5 且 n(1 − p) > 5），對於小樣本，它的準確性很差。

1927年，美國數學家 Edwin Bidwell Wilson提出了一個修正公式，被稱為"威爾遜區間"，很好地解決了小樣本的準確性問題。

　　 $\frac{\hat{p}+\frac{1}{2n}z^{2}_{1-\frac{\alpha}{2}}\pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}+\frac{z^{2}_{1-\frac{\alpha}{2}}}{4n^{2}}}}{1+\frac{1}{n}z^{2}_{1-\frac{\alpha}{2}}}$

在上面的公式中， $\hat{p}$ 表示樣本的"贊成票比例"，n表示樣本的大小， $z_{1-\alpha/2}$ 表示對應某個置信水平的z統計量，這是一個常數，可以透過查表或統計軟體包得到。一般情況下，在95%的置信水平下，z統計量的值為1.96。

威爾遜置信區間的均值為

　　 $\frac{\hat{p}+\frac{1}{2n}z^{2}_{1-\frac{\alpha}{2}}}{1+\frac{1}{n}z^{2}_{1-\frac{\alpha}{2}}}$

它的下限值為

　　 $\frac{\hat{p}+\frac{1}{2n}z^{2}_{1-\frac{\alpha}{2}}-z_{1-\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}+\frac{z^{2}_{1-\frac{\alpha}{2}}}{4n^{2}}}}{1+\frac{1}{n}z^{2}_{1-\frac{\alpha}{2}}}$

可以看到，當n的值足夠大時，這個下限值會趨向 $\hat{p}$ 。如果n非常小（投票人很少），這個下限值會大大小於 $\hat{p}$ 。實際上，起到了降低"贊成票比例"的作用，使得該專案的得分變小、排名下降。

Reddit的評論排名，目前就使用這個演算法。

　　基於使用者投票的排名演算法（五）：威爾遜區間

[參考文獻]

　　* How Not To Sort By Average Rating

（完）

基於使用者投票的排名演算法：Reddit
2012-03-19
演算法
基於使用者投票的排名演算法：Stack Overflow
2012-03-26
演算法
基於使用者投票的排名演算法（二）：Reddit
2012-03-07
演算法
基於使用者投票的排名演算法（三）：Stack Overflow
2012-03-11
演算法
威爾遜得分 Wilson Score 排序演算法
2017-09-05
排序演算法
基於使用者投票的排名演算法：Delicious和Hacker News
2012-03-19
演算法
基於使用者投票的排名演算法：牛頓冷卻定律
2012-03-29
演算法
基於使用者投票的排名演算法（四）：牛頓冷卻定律
2012-03-16
演算法
基於使用者投票的排名演算法（六）：貝葉斯平均
2012-03-28
演算法
基於使用者投票的排名演算法（一）：Delicious和Hacker News
2012-03-04
演算法
HDU 2973 YAPTCHA（威爾遜定理）
2020-04-06
APT
CF1957E 做題小計：威爾遜定理
2024-04-22
JavaScript基於時間的動畫演算法
2016-02-10
JavaScript動畫演算法
尼爾森稱網站排名放棄頁流量轉向使用者停留時間
2007-09-25
網站
美國西弗吉尼亞州完成首例基於區塊鏈的州選舉投票
2018-05-12
區塊鏈
C++11 —— 基於區間（range）的 for 迴圈
2016-07-25
C++
基於使用者的協同過濾演算法
2016-07-20
演算法
英特爾已成微軟絆腳石五大領域威脅微軟
2007-09-25
微軟
程式設計師的奮鬥史（五）——謙遜才是王道
2012-05-14
程式設計師
C++基礎::關於區間端點的問題
2015-11-10
C++
俄羅斯獨立選舉監督機構將試點基於區塊鏈技術的投票制度
2018-08-20
區塊鏈
演算法：區間樹
2017-09-06
演算法
基於JSP自定義投票網站系統設計
2020-10-25
JS網站
[譯] 基於評論的機器學習線上課程排名
2019-03-03
機器學習
基於Java語言構建區塊鏈（五）—— 地址（錢包）
2018-03-25
Java區塊鏈
區塊鏈投票系統開發方案，區塊鏈投票系統開發原始碼
2023-04-17
區塊鏈原始碼
基於時間序列檢測演算法的智慧報警實現
2019-03-04
演算法
Git 和 SVN 之間的五個基本區別
2012-12-18
Git
GIT和SVN之間的五個基本區別
2012-12-18
Git
蒂姆.威爾茨：處境尷尬的 DooM 元老
2019-07-23
OOM
Python實現一條基於POS演算法的區塊鏈
2018-08-07
Python演算法區塊鏈
基於雲端計算的網路威脅管理分析
2017-10-10
關於堆區、棧區等五大區的終極分析
2018-01-15
基於MATLAB菲涅爾衍射模擬
2016-11-08
Matlab
全球社交網站排名:QQ空間第五 Twitter增長最快
2013-01-28
網站
華為雲 API 影像識別 Image 的趣味性—AI 識別邁克爾·傑克遜
2023-10-11
APIAI
V神：區塊鏈上投票流程的實現
2021-05-26
區塊鏈
機器學習演算法（五）：基於企鵝資料集的決策樹分類預測
2023-03-25
機器學習演算法

基於使用者投票的排名演算法（五）：威爾遜區間

相關文章