近日,史丹佛大學心理學教授 Russell A. Poldrack 公開了他為史丹佛大學統計學本科教程準備的教材。這本書引入了一些實用的新理念和新方法。Russell 教授在序言中稱自己並未接受過統計學家的培訓,但是在過去 20 年的腦成像研究中他掌握了多種複雜統計和計算工具,對哪些統計方法有助於科研有自己獨到的見解。
該課程要求使用 R 語言,課程涉及資料、概率、模型與資料的擬合、資料視覺化、取樣、假設驗證、貝葉斯統計學、通用線性模型、統計建模過程、如何進行可復現研究等概念和方法。
本書地址:http://thinkstats.org/StatsThinking21.pdf
以下是本書的部分內容。
寫作背景
2018 年,我開始在史丹佛給本科生上一門統計學課程。此前我從未教過統計學,所以這是一個改變現狀的機會。我對心理學專業的本科統計學教育越來越不滿意,因此想帶來一些新的想法和方法,尤其是 21 世紀實際統計實踐中廣泛使用的方法。這些方法利用當今日益增長的算力來解決統計問題,其方式遠遠超出了心理學學生在統計學課程中所學到的標準方法。
教這門課的第一年,我用的教材是 Andy Field 的《An Adventure in Statstics》。這本書中有很多我非常喜歡的地方,比如它圍繞模型構建來介紹統計實踐,並且非常謹慎地對待零假設檢驗。但我大部分學生卻討厭此書,因為它需要涉獵大量的故事來獲得統計知識。我也發現了其中的不足,因為有很多我想要講的主題(特別是人工智慧領域的機器學習等)書中沒有討論。最終,我覺得如果能有一本與我的講課內容比較接近的書,學生們會非常受益。這也是我編寫這本書的初衷。它的框架和 Field 的書大致相同,因為我的課程最初很大程度上是基於那本書的內容,但本書內容與他的書大相徑庭(也沒那麼有趣)。
什麼是統計思維?
統計思維是用一些相對簡單的術語來描述複雜的世界,捕捉其結構的本質,進而幫助我們理解世界的一種方式。同時,它還幫我們認識到我們對於自己的知識有多麼不確定。統計思維最早起源於數學和統計學,以及電腦科學、心理學及其它學科。
與統計思維相比,其它形式的思維描述世界的方式都沒那麼準確。人類通常會用直覺去嘗試回答那些可以使用統計思維回答的問題,但答案通常是錯的。例如,多數美國人都認為近幾年的暴力犯罪率比往年要高,但資料分析顯示,這一比率自 20 世紀 90 年代以來就開始平穩下降。直覺敗給了統計,這是因為我們依賴於常常導致錯誤答案的最佳猜測(best guesses,心理學家稱之為啟發式方法)。人們進行判斷時常依賴最先想到的經驗和資訊,並將其作為判斷的依據。我們很容易想到暴力犯罪的例子,因此覺得這種事件非常普遍。基於此,我們關於犯罪率日益增長的判斷可能源於新聞報導的增加,儘管實際犯罪率是下降的。統計學為我們提供了一種更加準確地認識世界的工具,幫助我們克服由直覺帶來的錯誤。
統計學的意義
統計學可以在三個方面為我們提供幫助:
描述:用一種大家能理解的簡單方式來描述這個複雜的世界。
決策:在面對不確定性時,通常需要基於資料做出決策。
預測:基於對過去狀況的知識對新情況做出預測。
我們來看一個例項,關於我們都很關心的問題:如何決定健康的食物?這個話題太寬泛,我們將其細化為一個具體問題:食物中的飽和脂肪是糟糕的東西嗎?
一種回答方式是基於常識。
如果我們吃飽含脂肪的東西,這些脂肪會直接轉化為體內的脂肪,對嗎?
我們都看過脂肪堵塞動脈的照片,所以吃脂肪會堵塞我們的動脈,對嗎?
回答這個問題的另一種方式是聽取權威人士的意見。美國食品藥品監督管理局(US Food and Drug Administration)的飲食指南中有一條重要建議:「健康的飲食應當限制飽和脂肪的攝入」。你也許期待這些指南基於科學,在某些情況下它們的確如此。但正如 Nina Teicholz 在《Big Fat Surprise》中所概括的,該建議似乎更多基於營養學研究人員的教條,而不是實際證據。
最後,我們還是得看實際的科學研究。首先我們可以從一項名為 PURE 的大型研究開始,這項研究對來自 18 個國家 135000 多人的飲食和健康結果(包括死亡)進行了調查。對該資料的一項分析(發表在《The Lancet》2017; Dehghan et al. (2017))顯示,PURE 調查人員分析了不同種類的巨集營養素(包括飽和脂肪和碳水化合物)的攝入與研究追蹤期間人們死亡可能性之間的關係。該研究追蹤期的時間中位數為 7.4 年,也就是說有一半人被追蹤的時間少於 7.4 年,而另一半人則超過 7.4 年。下圖繪製了研究中的一些資料(從論文中摘取),展示了飽和脂肪和碳水化合物的攝入與任何死亡風險之間的關係。
圖 1.1:來自 PURE 研究的資料圖表,展示了任何死亡風險與飽和脂肪和碳水化合物的相對攝入量之間的關係。
上圖基於十個數字。為了獲得這些數字,研究人員根據參與者(即樣本)對這兩種營養的攝入量進行排序,然後把 135,335 位參與者分成了五組(quintiles)。第一組是攝入量最少的五分之一參與者;第五組是攝入量最高的五分之一。接下來研究人員計算了研究追蹤期間每組的死亡率。該數字是與攝入量最少的小組相比的死亡相對風險:如果數字大於 1,則意味著這組的參與者死亡率要大於攝入量最少的組;如果它小於 1,則結果相反。結果很清楚:那些攝入更多飽和脂肪的人們在研究期間死亡率更低,他們攝入脂肪越多,這個效應越明顯。與之相反的是碳水化合物,人們攝入的碳水化合物越多,在研究期間死亡率越高。這個例子展示瞭如何利用統計學用一組較為簡單的數字描述複雜的資料集。如果我們同時觀察每個參與者的資料,我們將會被資料淹沒,很難發現以更簡單的方式描述資料時所呈現的模式。
表 1.1 顯示隨著飽和脂肪攝入量的增加,死亡率降低;而攝入碳水化合物越多則死亡率更高,但我們也知道資料中必然存在很多不確定性。有些人即使攝入很少的碳水化合物,仍然較早去世,同樣,有些人食用了大量碳水化合物卻仍長命百歲。鑑於這種可變性,我們想確定在資料中看到的這種關係是否足夠強大,如果飲食和長壽之間沒有真正的關係,我們不認為這種情況會隨機發生。統計學給我們提供了確定這些關係的工具,而外界的人通常將此視為統計學的主要目的。但通過全書,我們將會發現這種基於模糊證據的黑白決策需求經常導致研究人員誤入歧途。
基於資料,我們還能預測未來結果。例如,保險公司可能會基於特定人群攝入脂肪和碳水化合物的資料來預測他們的壽命長短。預測的一個重要方面是,它要求我們把從已有資料中得到的關係泛化到其它情況;如果我們的結論限於特定時期的特定人群,則研究結果用處不大。一般來說,研究人員必須假設樣本代表的是大量人群,這就要求他們以無偏的方式獲得樣本。例如,如果 PURE 研究招募的所有參與者都是踐行素食主義的宗教人員,那我們就沒法把研究結果泛化到遵循不同飲食標準的人身上。
統計學的基本概念
有些非常基本的概念幾乎貫穿了統計學的所有方面。其中有些是 Stigler 2016 年在《The Seven Pillars of Statistical Wisdom》一書中提出的,我在這裡對此進行了補充。
從資料中學習
看待統計學的一種方式是將其作為從資料中學習的工具。在任何情況下,我們要了解情況總是需要從一系列假設或者猜想開始。在 PURE 研究中,研究人員可能就會猜測吃更多飽含脂肪的食物會導致更高的死亡率,因為飽和脂肪本身傳遞的就是一種負面資訊。在後面的課程中,我們會介紹先驗知識(prior knowledge)的概念,它反映了我們對情況的已有知識。這種先驗知識的力量可能會有所不同,通常要基於我們的經驗。如果我去一家從未去過的餐館吃飯,我可能不會對其抱有太高的期望,但如果去一家我已經去過十次的餐館吃飯,我的期望會高得多。類似地,如果我檢視一個餐館的評論網站,發現其平均四星評論僅基於三條評論,那我對它的期望不會太高,但如果它的四星評論是基於 300 條評論,那結果就不一樣了。
統計學給我們提供了一種方式來描述如何用新資料來更新我們的想法,這樣統計學和心理學之間就有了深刻的聯絡。實際上,從心理學當中學到的關於人類和動物學習的很多理論都與機器學習領域密切相關。機器學習是統計學和電腦科學的交叉領域,它關注如何構建能夠從經驗中學習的計算機演算法。雖然統計學和機器學習經常嘗試解決同樣的問題,但來自這兩個領域的研究人員總是採用不同的方法,著名統計學家 Leo Breiman 曾將二者稱為「兩種文化」,以此來反映二者的方法有多不同(Breiman 2001)。在本書中,我將把這兩種文化糅合到一起,因為它們都為思考資料提供了有用的工具。
Aggregation
對統計學的另一種理解是「扔掉資料的科學」。在上面提到的 PURE 研究案例中,我們取了 10 萬多個數字,並將其濃縮到 10 個。這種 aggregation 是統計學中最重要的概念之一。當它第一次被提出時,在當時是革命性的:如果拋棄了每個參與者的所有細節,我們該如何確保沒有遺漏重要的東西呢?
正如我們將看到的,統計學提供了表徵資料集合結構的方法,以及為什麼這種方法通常有效的理論基礎。然而,還有一點也很重要:aggregation 可能會走得過於遠。稍後我們會遇到這種案例,其中根據資料總結出來的結論可能會產生誤導性。
不確定性
世界是不確定的。我們知道抽菸會導致肺癌,但這個因果關係是概率性的:一位 68 歲的老人近五十年來每天抽兩盒煙,並且還會繼續這樣下去,他得肺癌的風險是 15%,比不抽菸的人得肺癌的機率高。但是,這也意味著也有很多人雖然抽菸但並不會得肺癌。統計學提供了一些工具來概括不確定性,讓我們在不確定性的前提下做決策,並做出可以量化其不確定性的決策。
我們常看到記者寫科學研究人員「證明」了一些假設。但是統計分析不會「證明」假設。統計學提供的是證據,但它通常受限於現實世界中的不確定性。
取樣
aggregation 的概念表示我們可以從資料崩潰中得到有用的見解,但是我們需要多少資料呢?取樣即表明我們可以基於來自所有資料的少數樣本來總結整體資料的特徵,前提是樣本的獲取方式正確。例如,PURE 研究一共收集了 135000 多人的樣本,但該研究的目標是提供樣本來源群體這數十億人的特徵。如上所述,該研究獲取樣本的方式非常關鍵,這決定了結果的可泛化性。另一個關於取樣的基本洞見是:儘管樣本量越大越好(就其代表整個群體的能力而言),但是樣本量變大會出現回報減小的情況。事實上,樣本量增加所帶來的回報率遞減遵循一個簡單的數學規則,即樣本量的平方根。
目錄