通常我們認為，人工智慧的發展要歸功於算力的突飛猛進。近日，哥倫比亞大學的教授發表論文揭示了近50年來其背後不為人知的統計學思想。

儘管深度學習和人工智慧已經成為家喻戶曉的名詞，但推動這場革命的統計學突破卻鮮為人知。

在最近的一篇論文中，哥倫比亞大學的統計學教授Andrew Gelman和芬蘭阿爾託大學的電腦科學教授Aki Vehtari詳細列舉了過去50年中最重要的統計學思想。

50年最重要8大統計學發展！哥大教授列舉推動AI革命的統計學思想

作者將這些統計學思想歸類為 8大類別：

反事實因果推斷（counterfactual causal inference）
自舉法和基於模擬的推斷（bootstrapping and simulation-based inference）
超引數化模型和正則化（overparameterized models and regularization）
貝葉斯多級模型（Bayesian multilevel models）
通用計算演算法（generic computation algorithms）
自適應決策分析（adaptive decision analysis）
魯棒性推斷（robust inference）
探索性資料分析（exploratory data analysis）

1. 反事實因果推斷（counterfactual causal inference）

在假設條件下，因果識別是可能的，而且可以嚴格地陳述這些假設，並透過設計和分析以各種方式解決它們。

不同領域發展了不同的因果推斷方法。在計量經濟學中，是結構模型及其對平均治療效果的影響，在流行病學中，是對觀察資料的推斷。

基於因果識別是認知的核心任務，因此應該是一個可以數學形式化的可計算問題。路徑分析和因果發現可以根據潛在結果來構建，反之亦然。

2. 自舉法和基於模擬的推斷（bootstrapping and simulation-based inference）

統計學的一個趨勢是用計算來替代數學分析，甚至在「大資料」分析開始之前就已經開始了。

自舉法將估計視為資料的近似充分統計量，並將自舉分佈視為資料抽樣分佈的近似值。

同時，由於自舉法的普遍性和簡單的計算實現，讓它能夠應用在那些無法使用傳統解析近似的場景，從而獲得了極大的影響力。

在置換測試中，重取樣資料集是透過隨機打亂目標值來打破預測變數和目標之間的（可能的）依賴關係來生成的。

引數自舉、先驗和後驗預測檢查和基於模擬的校準都是從一個模型中建立複製的資料集，而不是直接從資料中重新取樣。

在分析複雜的模型或演算法時，從已知的資料生成機制中取樣通常被用來建立模擬實驗，以補充或取代數學理論。

3. 超引數化模型和正則化（overparameterized models and regularization）

統計學一個主要的變化是使用一些正則化程式來擬合具有大量引數的模型，從而獲得穩定的估計和良好的預測。

這是為了在獲得非引數或高度引數化方法的靈活性的同時，避免過度擬合問題。其中，正則化可以作為引數或預測曲線上的懲罰函式來實現。

模型的早期案例包括：馬爾可夫隨機場、樣條曲線和高斯過程、分類和迴歸樹、神經網路、小波收縮、最小二乘法的替代方案以及支援向量機。

貝葉斯非引數先驗在無限維機率模型族上也有了巨大的發展，這些模型都有一個特點，就是隨著樣本量的擴大而擴大，而且引數並不總是有直接的解釋，而是一個更大的預測系統的一部分。

4. 貝葉斯多級模型（Bayesian multilevel models）

多級或分層模型具有因組而異的引數，使模型能夠適應叢集抽樣、縱向研究、時間序列橫截面資料、薈萃分析和其他結構化設定。

多級模型可以被視為貝葉斯模型，因為它們包括未知潛在特徵或變化引數的機率分佈。相反，貝葉斯模型有一個多層次結構，具有給定引數的資料和給定超引數的引數的分佈。

同樣，貝葉斯推斷不僅作為一種將先驗資訊與資料相結合的方式，而且也可以作為一種為推斷和決策考慮不確定性的方式。

5. 通用計算演算法（generic computation algorithms）

創新統計演算法是在統計問題結構的背景下發展的。EM演算法、吉布斯取樣、粒子濾波器、變分推理和期望傳播以不同的方式利用統計模型的條件獨立結構。

梅特羅波利斯－黑斯廷斯演算法和哈密頓蒙特卡羅較少受到統計問題的直接影響，它們與早期採用最佳化演算法計算最小二乘和最大似然估計的方式相似。

被稱為近似貝葉斯計算的方法透過模擬生成模型，而不是評估似然函式來獲得後驗推斷，如果似然的分析形式難以解決或計算成本很高，那麼就可以使用這種方法。

6. 自適應決策分析（adaptive decision analysis）

透過效用最大化、錯誤率控制和經驗貝葉斯分析，以及在貝葉斯決策理論和錯誤發現率分析中，可以看出適應性決策分析的發展。

統計決策分析的一些重要發展涉及貝葉斯最佳化和強化學習，它們與 A/B 測試實驗設計的復興有關。

算力的發展，使得用高斯過程和神經網路等引數豐富模型作為函式先驗，並執行大規模強化學習成為可能。例如建立AI來控制機器人，生成文字，並玩圍棋等遊戲。

這項工作大部分都是在統計之外完成的，使用的方法包括非負矩陣分解、非線性降維、生成對抗網路以及自編碼器，而這些都是用於查詢結構和分解的無監督學習方法。

7. 魯棒性推斷（robust inference）

魯棒性的概念是現代統計學的核心，它的意義在於即使模型的假設不正確，也依然可以被使用。

統計理論的一個重要部分就是開發在違反這些假設的情況下執行良好的模型。

一般而言，魯棒性在統計研究中的主要影響不在於特定方法的開發，而在於統計程式的評估，其中資料-生成過程不屬於擬合機率模型的類別。

研究人員對魯棒性的擔憂與作為現代統計資料特徵的密集引數化模型相關，這將對更普遍的模型評估產生影響。

8. 探索性資料分析（exploratory data analysis）

探索性資料分析強調漸近理論的侷限性以及開放式探索和交流的相應好處。這符合統計建模的觀點，也就是更側重於發現而不是固定假設的檢驗。

計算的進步使從業者能夠快速構建大型複雜模型，從而導致統計圖形的思想有助於理解資料、擬合模型和預測之間的關係。

總結

由於建模的需求不可避免地隨著計算能力的增長而增長，因此分析性的總結和近似的價值也是如此。

同時，統計理論可以幫助理解統計方法的工作原理，數學邏輯可以激發資料分析的新模型和方法。

作者認為這些方法開啟了對統計的新思考方式和資料分析的新方法。

反事實框架將因果推斷置於統計或預測框架內，在該框架中，可以根據統計模型中未觀察到的資料精確定義和表達因果估計，並與調查抽樣和缺失資料插補中的思想聯絡起來。

自舉法開啟了一種隱式非引數建模形式的大門。可用於複雜調查、實驗設計和其他無法進行分析計算的資料結構的偏差校正和方差估計。

過引數化模型和正則化基於從資料中估計其引數的能力來形式化和概括了現有的限制模型大小的做法，這與交叉驗證和資訊標準有關。其中，正則化允許使用者在模型中包含更多的預測變數，而不必擔心過度擬合。

多級模型形式化了從資料中估計先驗分佈的「經驗貝葉斯」技術，在更廣泛的問題類別中使用具有更高計算和推理穩定性的方法。

通用計算演算法使應用從業者能夠快速擬合用於因果推理、多級分析、強化學習和許多其他領域的高階模型，從而對統計學和機器學習中的核心思想產生更廣泛的影響。

自適應決策分析將最優控制的工程問題與統計學習領域聯絡起來，遠遠超出了經典的實驗設計。

魯棒性推斷允許對不同程式進行正式評估和建模的方式來構建這些問題，以處理對異常值和模型錯誤指定的其他模糊問題，而魯棒推理的想法為非引數估計提供了資訊。

探索性資料分析將圖形技術和發現推向了統計實踐的主流，使用這些工具來更好地理解和診斷適合資料的新的複雜機率模型類別的問題。

作者介紹

Andrew Gelman 是哥倫比亞大學統計學教授。他曾獲得美國統計學會傑出統計應用獎、統計學會主席理事會40歲以下傑出貢獻獎。

參考資料：

http://blog.sina.com.cn/s/blog_cfa68e330103020q.html

50年最重要8大統計學發展！哥大教授列舉推動AI革命的統計學思想

通常我們認為，人工智慧的發展要歸功於算力的突飛猛進。近日，哥倫比亞大學的教授發表論文揭示了近50年來其背後不為人知的統計學思想。

總結

作者介紹

相關文章