前所未見:社會科學中的扯淡這麼多,DARPA要用AI打假

微胖發表於2019-02-24

社會科學實驗可複製率低的致命問題,不僅威脅著其是否有資格成為一門科學,同時也困擾著頂層決策者,因為他們需要這些理論來指導事關國家安全、公民利益的政策制定。預測市場的成功表明,科學家似乎非常善於預測哪些實驗可能重複成功,而哪些實驗可能失敗。既然人類表現不俗,那麼,DARPA 希望演算法學會人類科學家的判斷,甚至比他們預測的還準。他們希望這套系統自動給輸入的理論打分,得分高低直接反應出該理論主張是否有潛力通過可重複實驗,讓大家將有限的時間和金錢成本放在真正科學研究上。

科幻還是科學?

2012 年,湯姆·克魯斯和凱蒂·赫爾姆斯宣佈離婚。小報記者們激動表示,自己早就料到了這一天,因為偷拍照片中,兩個人牽手姿勢太彆扭;

在一款爆紅 TED 演講中,哈佛美女教授 Amy Cuddy 告訴我們,可以從每個人的肢體語言中,觀察出他是怎樣一個人,而且心理強勢的身體動作 (power pose) 可以助你成功,社交網站甚至一度掀起了」Fake it until you make it」的雞湯潮;

你可能也聽說過,如果一個人的嘴巴擺出微笑或因嘟嘴而皺眉,他的心情會隨之改變,哪怕這個動作不是故意的;

一杯檸檬汁,加上真正的糖,可以幫助你恢復自制力;

......

心理學中最絕妙的發現,通常都是較為簡化的結果,甚至還會為了迎合大眾的口味進行重新包裝,如今,無論是在媒體還是政策制定面前,這些結果的宣傳都顯得非常強勁。

然而, 可能很多人不知道,上述哈佛美女教授爆款 TED 演講中的科學實驗不僅沒重複出來,原論文的另一個作者還直接在網上寫了一封公開信,聲稱觀點已變,現在認為,所謂的 power pose 效應不存在了。

一個不經意的微表情就能讓心情隨之改變的研究,出自德國心理學家弗裡茨·斯特拉克(Fritz Strack),這個被視為教科書般的正統理論的重複性實驗也以失敗告終。

該理論所代表、二十世紀最讓人著迷的心理學發現——啟動效應,也正處在風雨飄搖之中。

儘管尼爾·卡尼曼曾在知名暢銷書《思考:快與慢》中對其大加支援,但是,當研究人員一個接一個地試圖重複那些眾所周知效應背後的經典實驗(包括 John Bargh 的開創性研究)時,結果都失敗了。

壞訊息並未就此止步。

另一個奠基性研究——自我損耗理論認為,我們的意志力是有限的,可以耗盡。然而,在接受實驗可複製性的檢驗時,也慘遭滑鐵盧。

2016 年,一個名為「開放科學合作」(The Open Science Collaboration,簡稱 OSC)的科學家團體在《科學》上發表了一個結果,引起心理學界乃至整個社會科學界不小的震動:

重複 100 項刊登在心理學頂級期刊的研究,結果只有 36% 的實驗結果得到重現。

眾所周知,研究具有可重複性,對了解科學發現的可信程度至關重要,然而,即便是心理學所屬的整個社會科學領域(根據維基百科),結果也不妙。

2018 年,一群研究人員針對 2010 年—2015 年發表在最頂尖學術期刊《自然》和《科學》上的 21 項實驗社會科學研究的重複結果,刊登在了《自然·人類行為》:

它們只能重現 21 項研究中的 13 項結果,換算成百分比就是 62%。

DARPA 的擔憂

目前心理分析和社會科學理論已廣泛運用於美國的公共政策制定過程之中,並且產生了較為廣泛的影響。

比如,國防部就經常利用社會和行為科學研究來制定計劃,指導投資,評估結果,建立人類社會系統和行為模型的基礎。這些科學研究都與國家安全所面臨挑戰有關。他們認為,社會科學研究可以幫助國防部深入瞭解國家安全方面的問題。

比如叛亂如何形成?人道主義救援如何分配?如何阻止敵人行動?

2008 年,國防部就曾推出「密涅瓦」計劃,試圖 彌補 軍方在 某 些 政 策 相 關領 域 基 礎 性科 研 的不足,合作 涵 蓋 的學 科 領域非 常廣 泛,包 括心理學。

而且,除了國家安全,其他公共政策制定領域,比如社會保障、環保、司法、公共健康等,也能看到心理學和社會科學的獨特貢獻。

既然社會科學理論在關鍵的可信度指標上存在致命問題,那麼,有沒有辦法讓大家直接看出那些通不過可重複性測試的理論呢?

比如,設計一套可以自動給輸入理論打分的系統,得分高低直接反應出該理論主張是否有潛力通過可重複實驗。

「它(這套系統)可能提供更好地做事的方法,」DARPA 的 SCORE(Systematizing Confidence in Open Research and Evidence)專案負責人 Adam Russell 說,幫助大家將有限的時間和金錢成本放在值得關注的研究上。

對症下藥

雖然知道水體被汙染了,目前卻沒有很好的處理汙水辦法。

被宣傳得最廣、用來提高科學研究可重複性的方法,就是預註冊(pre-registration)。科研人員在試驗開始之前就向第三方說明他們的科學假設,以及資料分析計劃等科研方案,以防日後進行 P 值操控。

還有一個事後諸葛的辦法,就是做重複性研究。重複相同的實驗,或者擴大實驗看看效應是否泛化。近幾年來,這類研究已經得到了基金資助機構的資助。

2017 年,非盈利組織開放科學中心(Center for Open Science,COS)蒐集了一個包括三萬個社會科學理論主張(claims)的資料集,試圖檢查這些主張的可複製性。其中,有三千個理論會被人工地進行復制,或交給預測市場處理。

剩餘的交給演算法。他們希望其他團隊能設計各種自動化的演算法,自動評估這些社會科學的研究,而人工進行的複製性工作會成為演算法的 benchmark。

DARPA 給這一環節贊助了 760 萬美元。官方希望他們構建出一個自動化的評分系統,給輸入的社會科學研究打出置信度的分數,供人類決策者參考。

預測市場

這是前所未有的嘗試。演算法有可能做到嗎?

預測市場的成功開了一個好頭。

在上述針對 21 個已發表在《自然》和《科學》上的社會科學實驗進行復制實驗之前,研究人員還設立了一個「預測市場」:

他們招募了 206 名志願者(大多數是心理學家和經濟學家),根據研究看起來是否可重複,將之視為「股票」進行出售或購買,正確投注最終被淘汰的研究,可以賺取更多。

開始時,每項研究每股 0.50 美元,價格飆升並下跌取決於交易者的活動。兩週後,最終價格反映了交易者對每項研究成功複製的可能性的集體看法:

例如,0.87 美元的股票價格意味著一項研究有 87%的複製成功機會。

最終,交易者認為,研究複製成功率為 63%,而這一數字與人工複製的結果(實際 62%)的成功率非常接近。

看來,科學家們似乎非常善於預測心理學和其他社會科學中的哪些研究能成功複製。

那麼,這些預測市場的「投資人」考量了那些變數呢?

一些人考慮了研究的樣本量,小規模研究比大規模研究更有可能產生假陽性結果;

一些人研究了一種 P 值的常用統計指標

如果結果的 P 值小於 0.05,稱其為有統計學意義或陽性;如果一項研究包含大量的 P 值,剛好低於這個閾值,這可能是作者進行 P 值操控的一個跡象;

有趣的是,除了統計資料方面的問題外,一些不被認為可複製成功的研究還有另一個共同點: 

新聞價值。也就是說,這些研究報告了有趣、引人注目、至少符合社會某些部分口味的偏見。

不過,Adam Russell 更希望,他們的資助能找到表現超越投注者的程式。

演算法會更聰明嗎?

在 DARPA 看來,演算法工具有可能學會預測再現性,而且跨學科資料庫的龐大規模可能會揭示出各種各樣的新變數。

這在以前是不可想象的。「我們想要接收到大量超出人類頻寬的微弱訊號,並將它們結合起來,幫助我們做出更好的決定。」Russell 說。

而且,吃螃蟹的人已經出現。

今年年初,加州理工等頂尖大學研究人員發表了一篇研究,測量了用黑盒統計模型機器學習技術)預測實驗結果的準確性。

他們用來自實驗心理學和經濟學中,四個大規模的複製專案的資料,訓練了一個預測模型,研究哪些變數可以幫助預測實驗的可重複性。

結果,發現一些基礎性特徵能夠幫助預測實驗可重性的成功與否: 

比如,原初論文的樣本和效應的大小,被報告的效應是單變數的主效應,還是雙變數的互動效應。

而且,他們提出的模型還可以產生廉價、可預測的可複製性指標,有助於使評價新發現的過程制度化,並指導資源進行可能最有益的直接複製。

不過,由於 SCORE 專案要求之一是演算法可解釋性 (而不是神祕的黑盒子),這也意味著更大的挑戰。

參考來源:

https://www.darpa.mil/program/systematizing-confidence-in-open-research-and-evidence

https://osf.io/preprints/bitss/zamry/

https://www.theatlantic.com/science/archive/2018/08/scientists-can-collectively-sense-which-psychology-studies-are-weak/568630/

相關文章