當統計學遇上大資料——P值消亡

翠花發表於2014-08-07

大資料

有一天，我走進統計學的神殿，將所有謊言都裝進原假設的盒子裡，

“P值為零”，

一個聲音傳來，

“但你已經不能再拒絕，因為，P值已經死了”

從此，這個世界上充斥著謊言。

一、一個悲傷的故事：破滅的年少成名之夢

首先跟大家說一個悲傷的故事，該故事來源於nature最近釋出的一篇文章“statistical errors”，我把這個故事叫做“破滅的年少成名之夢”

話說，弗吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。

他做了一項關於關於政治極端分子的行為研究，樣本大約有2000個人群，結果發現，相比較政治極端分子，政治溫和派似乎更能辨別不同色度的灰色。

莫德爾對這項發現非常得意，因為資料也給出了非常積極的結果，統計結果顯示P值為0.01，這意味著結果“非常顯著”。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。

由於擔心實驗結果陷入再現性爭論，莫兄和他的導師決定重複實驗，但是，在新增了新的資料之後，P值變成了0.59，這連0.05的顯著性水平都沒有達到！

傷心絕望的莫老兄知道，他觀察的心理學效應站不住腳了，一同破滅的，還有那顆年少成名的美麗夢想。

實際上，問題並不在資料中，而是P值出了問題，正如羅斯福大學的經濟學家史蒂芬所說，“P值沒有起到人們期望的作用，因為它壓根就不可能起到這個作用。”

為什麼呢？為什麼P值沒有達到人們的期望？它的問題到底在哪？現在和數說君一起來梳理一下P值和假設檢驗的歷史，並從中尋找答案吧。

二、P值和假設檢驗的歷史

1. 拉普拉斯

P值得歷史可以追溯到1770年，數學家拉普拉斯在處理50萬左右的生育資料時，發現男性的生育率超過女性，對於這個無法解釋的“超越”，他計算了一個叫做“P值”的東西，以確定這個“超越”是真實的（Stigler 1986, P.134）。

2. KarlPearson

很多統計學家誤以為關於P值的正式文獻是費雪發表的，其實不然，最早在文獻中正式闡述P值及其計算的，是統計學家Karl Pearson，你可能不瞭解他，但是他的Pearson卡方檢驗你一定知道，這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上，文章中一同被介紹的，還有一個被叫做“P值”的東東，見史料。

3. Fisher

P值能風靡學術界這麼多年，費雪是第一推手，被他推動的除了P值，還有被稱為“費雪學派”（Fisherian）的假設檢驗思想。簡單介紹下他的思想：

如果我們想要檢驗一個樣本是否來自某個分佈已知的總體，首先要建立一個“原假設”（null hypothesis），比如，下圖的例子我們假設該樣本來自正態總體N(m0,σ)，那麼原假設為：

H0：m=m0

但實際上我們得到的樣本均值不是m0，而是，那麼Fisher他老人家當時的想法是：在一個樣本均值為m0的正態總體中，抽樣得到這個均值為的樣本的機率會有多大？我要是能計算出這個概率，就知道“這個樣本來自該總體”這件事有多靠譜了，如果概率太小，就認為是不靠譜的事情，那麼就可以認定這個假設是錯的。這就是假設檢驗裡的“小概率事件原理”，這個概率就是後來風靡學術界的“P值”，一般認為概率小於5%，就是不靠譜的事情，則需要拒絕原假設。

到此為止，Fisher大神隻字未提“備擇假設”，也從沒說任何關於“接受”某個假設的事情，在Fisher的檢驗哲學裡，

檢驗是基於無限總體中抽出的一個（注意是一個）樣本；
顯著性檢驗的基礎是基於原假設而得出的假想概率，這些檢驗不能匯出任何關於真實世界的概率論斷。

因此，費雪以及他的P值檢驗思想，從來沒有涉及到“備擇假設”的概念，沒有被認為可以用來證明某個假設是對的。

4. Neyman-Pearson

後來流行的“備擇假設”的概念是在另一個重要的檢驗思想裡提出的，即Neyman-Pearson（以下簡稱N-P）檢驗思想。N-P學派發源於費雪的思想，但卻與之不太一樣，他們兩派相互爭論了很多年。相比較於Fisher學派，Neyman他們主要有三個不同：

（1）引入備擇假設

Neyman本人曾說，“接受一個假設H，僅僅意味著採用決策A要比決策B好，並不能說明我們必須要相信假設H就是對的。”

（2）引入兩種錯誤：第一類錯誤和第二類錯誤

第一類錯誤是指拒絕了一個正確的原假設（α），第二類錯誤是指接受了一個錯誤的原假設（β）；

Power=1-β,被稱為檢驗效力，它代表著拒絕一個錯誤假設的概率；

N-P的檢驗思想是，控制第一類錯誤（一般事先給定），使得第二類錯誤的值越小越好，即power越大越好。

（3）使用拒絕域來進行檢驗

在N-P的思想框中，完全沒有提到P值，他們使用拒絕域來對假設進行判別，具體檢驗思想見下圖：

（4）錯誤的混合

比較以上兩個檢驗我們發現，Fisherian和N-P的檢驗思想完全不同，

費雪學派的P值檢驗思想，沒有涉及備擇假設，也從來沒有被嚴格證明可以用來證明某個假設是對的。實際上，當我們抽取的樣本變化時，得到的P值也會變化，結論也會隨之變化。
N-P學派使用備擇假設，在判定是接受還是拒絕某個假設的時，同時會給出兩類錯誤以及power作為輔助參考，但是該學派（包括Neyman本人）從來不承認“P值”這個東西。雖然樣本不同，他們的結論也會不同，但是N-P方法會在每個結論的後面給出相應的power，說明該結論的靠譜程度，相對於P值檢驗，這個方法更加規則嚴密。
Fisher和Neyman兩人知道對方的觀點，但是彼此都不能相容，Neyman批評Fisher的某些工作從數學上講比“毫無用處”還糟，Fisher對Neyman方法給出的評價是“無比幼稚”、“在西方學界中簡直駭人聽聞”（Nuzzo,2014）。

然而後世的許多統計學家錯誤的將兩個方法進行了混合，衍生出這樣的判別標準，即:

用p<α作為判斷標準，以決定接受原假設還是備擇假設

如Gibbons（1986，p.367）說：“P值與古典方法（即Neyman-Pearson）的關係是，如果p<=α，我們就要拒絕H0，如果p>α，我們就要接受H0。”

三、悲劇的結論

梳理完P值和假設檢驗的歷史，你應該知道為什麼羅斯福大學的經濟學家史蒂芬說，“P值沒有起到人們期望的作用，因為它壓根就不可能起到這個作用。”了，因為P值從來沒有被證明可以用來接受某個假設，即使是拒絕假設，也是基於某個樣本得出的結論，當樣本變動時，結論很可能也會變動。

P值檢驗會如此不靠譜？其實，Fisher本人對統計檢驗的觀點更加悲觀，他認為，統計學的功能僅僅在於歸納推論（inductive inference），而不是歸納行動（inductive behavior）；統計檢驗應該止於歸納結論，而不涉足於行動判斷（Lv,2012）。

這是一個悲劇的結論，不僅對夢碎的莫德爾老兄，也對所有運用統計學的研究者。

四、解決之道

面對“P值至上”的種種惡果，統計學家們給出了其他的解決方法，

避免使用“顯著”或“不顯著”來進行判斷。如心理學家Cumming建議，研究者應當給出置信區間和power，以讓讀者明白研究結果的靠譜程度。
使用貝葉斯等決策方法。下圖是貝葉斯的判斷準則，沒有P值的參與。

對同一個資料使用多種方法進行分析。結果越是不同，就越有可能出現重大的發現。

數說君曰：P值死了，這是統計學的重生.

當餐飲遇上大資料，嗯真香！
2019-08-22
大資料
大資料遇上 HR
2013-04-22
大資料
當資料探勘遇上戰略決策
2023-07-11
當智慧交通遇上大資料，會碰撞出什麼樣的火花？
2018-05-15
大資料
當JSON.parse“遇上”非鍵值對
2019-03-03
JSON
當「軟體研發」遇上 AI 大模型
2024-04-30
AI大模型
[譯] 當設計模式遇上 Kotlin
2017-06-22
設計模式Kotlin
【智慧製造】當資料智慧遇上工業製造
2018-04-02
Hadoop沒有消亡，它是大資料的未來
2017-04-28
Hadoop大資料
當 Rust 遇上 Fedora
2021-09-09
Rust
當UIColor遇上Swift
2018-01-03
UISwift
當 React 遇上 KendoUI
2014-09-29
ReactUI
當UIColor遇上 Swift
2016-03-02
UISwift
當transition遇上display
2016-01-13
當頁面渲染遇上邊緣計算
2019-11-15
當 Go 遇上了 Lua
2019-03-12
Go
當 Go struct 遇上 Mutex
2021-04-21
GoStructMutex
當 bind 遇上 apply
2017-09-26
APP
老遊戲遇上新問題：當動森遇上詐騙
2020-04-10
遊戲
當鋼鐵骨骼遇上資料血液，裝置管理變成更加高效
2023-03-25
當設計師遇上前端開發人員
2011-12-15
前端
case when遇上null值
2009-10-16
Null
【計算講談社】第十講｜當雲端計算遇上碳中和
2022-08-26
當Shell遇上了NodeJS
2019-03-03
NodeJS
當區塊鏈遇上保險
2018-08-07
區塊鏈
當go get遇上gitlab
2017-11-30
GoGitlab
當Python字串遇上MySQL
2017-12-21
Python字串MySql
當微信小程式遇上filter~
2017-12-28
微信小程式Filter
當好萊塢遇上國產電影
2024-07-23
【J+】網際網路沙龍——資料的價值與大當量系統架構之道
2015-08-11
架構
統計：從計數到大資料
2016-09-20
大資料
當微信小程式遇上TensorFlow：接收base64編碼影象資料
2018-10-16
微信小程式
P2241 統計方形（資料加強版）
2017-06-27
當IDC遇上雲端計算，如何才能落地生花
2020-10-30
統計學與資料探勘
2007-08-05
“小資料”的統計學
2015-11-18
爬蟲P2P網站某產品交易資料統計分析
2018-07-30
爬蟲網站
Python爬蟲學習－大資料統計分析（基礎）
2016-05-26
Python爬蟲大資料

當統計學遇上大資料——P值消亡

相關文章