編輯丨coisini
假設驗證在科學發現、決策制定和資訊獲取中具有基礎作用。無論是在生物學、經濟學還是政策制定中,研究者往往依賴於檢驗假設來指導其結論。傳統上,這一過程涉及設計實驗、收集資料並分析結果以確定假設的有效性。
然而,隨著大型語言模型(LLMs)的出現,AI 生成的假設數量急劇增加。雖然這些假設提供了新穎的見解,但其合理性差異很大,使得手動驗證變得不切實際。
傳統的假設驗證方法通常依賴人工干預來設計證偽實驗並解釋結果,並且無法確保結論在統計上是可靠的。而許多由 AI 驅動的驗證工具未能透過嚴格的證偽實驗來系統地挑戰假設,從而增加了誤導性發現的風險。因此,科研領域需要一個可擴充套件且統計上可靠的解決方案來有效自動化假設驗證過程。
最近,來自史丹佛大學和哈佛大學的研究者提出了 POPPER,這是一個將嚴格的統計原則與基於 LLM 的智慧體相結合的自動化假設驗證框架。

論文地址:https://arxiv.org/pdf/2502.09858
POPPER 概覽
POPPER 系統地應用了卡爾・波普爾的證偽原則,強調證偽而非證明假設。

圖示:POPPER示意圖。(來源:論文)
POPPER 採用了兩個專門的 AI 驅動智慧體:
實驗設計智慧體:負責制定證偽實驗
實驗執行智慧體:負責實施實驗
每個假設被分解為具體的、可測試的子假設,並接受證偽實驗的檢驗。透過不斷最佳化驗證過程並整合證據,POPPER 確保只有得到充分支援的假設才能被推進。與傳統方法不同,POPPER 根據先前的結果動態調整其方法,在保持統計完整性的同時顯著提高了效率。
POPPER 透過一個迭代過程運作,其中證偽實驗依次檢驗假設。實驗設計智慧體透過識別給定假設的可測量影響來生成實驗方案。實驗執行智慧體隨後使用統計方法、模擬和現實世界的資料收集來執行實驗。


圖示:實驗設計與實驗執行樣例。(來源:論文)
POPPER 方法的關鍵在於其能夠嚴格控制 I 型錯誤率,確保最小化假陽性結果。與孤立處理 p 值的傳統方法不同,POPPER 引入了一個順序測試框架,其中單個 p 值被轉換為 e 值 —— 一種允許在保持錯誤控制的同時持續積累證據的統計度量。這種自適應方法使系統能夠動態最佳化其假設,減小得出錯誤結論的可能性。
POPPER 的靈活性使其能夠與現有資料集一起工作,進行新的模擬,或與實時資料來源互動,使其在跨學科領域中具有高度通用性。
實驗評估
研究團隊從 I 型錯誤控制、功效提升、專家使用者研究、消融實驗、人工標註和失敗分析等方面對 POPPER 進行了詳細評估。

圖示:研究團隊設計了與生物學相關的證偽實驗。(來源:論文)
POPPER 在生物學、社會學和經濟學等領域,針對 86 個經過驗證的假設進行了測試,結果顯示在所有資料集中,I 型錯誤率均低於 0.10。

圖示:基線、變體及POPPER的I類錯誤率/功效對比。(來源:論文)
與現有驗證方法相比,POPPER 在統計功效方面的表現顯著提升,優於費舍爾組合檢驗和似然比檢驗等標準技術。
研究團隊還招募了九位計算生物學家和生物資訊學家在 TargetVal-IL2 上進行假設驗證。如下圖所示,POPPER 的 I 型錯誤率和功效與人類參與者非常接近。值得注意的是,POPPER 完成任務的速度快了 9.7 倍,生成程式碼行數多了 3.6 倍,執行的統計檢驗多了 2.5 倍,突顯了其效率優勢。

圖示:與人類專家比較實驗。(來源:論文)
透過利用其自適應測試框架,POPPER 將複雜假設驗證所需時間減少為 1/10,其可擴充套件性和效率可見一斑。
感興趣的讀者可以閱讀論文原文,瞭解更多研究內容。
相關報導:https://www.marktechpost.com/2025/02/20/stanford-researchers-developed-popper-an-agentic-ai-framework-that-automates-hypothesis-validation-with-rigorous-statistical-control-reducing-errors-and-accelerating-scientific-discovery-by-10x/