時下,商業和知識體系中的兩大主要趨勢為在複雜且快速變化的世界中進行預測提供了互補性的洞見。一個是,過去40年間,心理學概率推理領域行為科學的研究揭示了一個驚人的發現: 人們日常的判斷和預測很大程度上都是基於系統性的、帶有偏見的心理暗示,而不是根據證據進行謹慎的評估。這些發現為決策研究帶來了根本性的啟示,從日常活動(物色棒球手和簽訂保險合同)到戰略(預測時間、價格和專案或商業創意的成功概率),再到生存(評估安全係數和恐怖襲擊風險)。
其基本要義是:單獨的判斷對行動的指導是不可依賴的。心理學家Philip Tetlock曾花費多年時間做過一個著名的實驗,其中頂級的記者、歷史學家和政治專家在預測政治事件,比如革命和政變上,並沒有比隨機選擇的普通人擁有更高的準確率。
第二個趨勢是資料驅動的決策和人工智慧應用變得越來越無所不在。同樣的,這一次重要的經驗也是來自行為科學研究。早在20世紀50年代,一個研究小組就已經證明:即使一個簡單的預測模型,在預測和決策方面的表現都比人類專家要更好。這帶來的啟示是,合理建造的預測模型通過幫助人類避開常見的認知陷阱能增強人類智慧。當下,在招募棒球隊員(以及其他型別職業)、簽訂銀行貸款和保險合同、對搶救室的病人進行分類、安排事業單位工作人員、確定安全係數和評估電影劇本等方面,預測模型已經得到了常規的應用。“點石成金”(Moneyball for X)的例子正在變得越來越多。
最近,大資料的興起和人工智慧的復興讓人類與機器能力的對比更加突出,也引起了更多的擔憂。網路上規模資料庫可用性提高,讓工程師和資料科學家得以訓練能夠完成文字翻譯、贏得遊戲競賽、分辨照片中的人臉、識別語音、操作無人機和無人車的機器學習演算法。由此產生的經濟和社會影響是深刻而普遍的。最近,世界經濟論壇(WEF)的一份報告預測,接下來的4年中,AI驅動的自動化和機器人將會減少超過500萬個工作崗位。
那麼,預測本身會怎麼樣?會有一天,計算機演算法會代替做預測的這些專家嗎?研究這一問題要聚焦於預測的兩個本質——資料科學和人類判斷,並且,二者是相互作用的,此外,還要關注機器智慧的侷限。
這裡有好訊息也有壞訊息(取決於你的觀點)。壞訊息是:演算法的預測有自身的侷限,基於機器學習的AI方法不會完勝;人類的判斷在短期內不會被自動地拋棄。好訊息是,心理學領域和群體智慧現在提供了新的方法來對人類的判斷進行改善和去偏見化。演算法可以增強人類的判斷,但是不會全盤替代。同時,訓練人們如何更好地作預測以及把所有的判斷、彙集專家團隊的零散資訊進行綜合,現在仍能達到更好的準確率。
比如,我們預測你不會讀到這就停下來。
雖然這一話題最近才變得火熱,但是,早在20世紀50年代,心理學學術專家的研究已經發現,計算機演算法在判斷上是強過主觀的人類的。“臨床預測 VS 統計預測”領域由心理學家Paul Meehl開創,他出版了一本“令人不安的小書”(他自己對書的稱呼)。記錄了20個研究案例,這些案例對著名人類專家和簡單的預測演算法在預測上的對比,其中包括預測精神分裂患者會對電擊療法作何反應、一名學生在大學裡成功的可能性等等。Meehl的研究發現,20個案例中,人類專家預測的準確率被基於觀測資料的簡單演算法全面超越。後續的研究更加壓倒性地證明了Meehl的發現:有超過200個案例對專家和演算法的預測進行了對比,資料演算法幾乎一直都比單獨的人類判斷要好。有少數幾個例子中,機器比人類表現得差,但是二者的準確度非常接近。
認知科學家Richard Nisbett 和 Lee Ross在評價中直言:“人類的判斷可不僅是比不上優秀的迴歸方程式,甚至是比不上所有的迴歸方程式”。
Daniel Kahneman 在 《Think,Fast and Slow》中進行了深入的總結,對這些令人驚訝的發現進行解釋。Kahneman的書提到了人類推理理論“雙重認知過程”(dual process),在這兒,優秀的認知系統支撐起人類的判斷。系統 1 (Thinking fast)是自動化的和不用太多努力的,傾向於支援狹義的連貫故事,而不是基於證據的謹慎評價。系統2 (Think slow)是精細的、費力的,專注邏輯和統計學的連續證據分析。我們人類的思維本質上大多數時間都是在系統1中執行的,從整體上看,這已經足夠了,因為我們每天都要做幾百個決策。完全依賴於時間和能量消耗的系統2類的深思熟慮會讓人產生決策癱瘓。但是,這只是Kahneman、Amos Tversky 和其他後續者研究工作中發現幾點之一。從統計學上看,系統1的思維模式是非常糟糕的。
他們的主要的發現是,許多加入到系統1思維中的心理“經驗法則”(啟發式)是帶有系統性偏見的,其方式也是常常令人驚訝的。我們對於個人經驗太一概而論了,好像之前的經驗是我們解決眼前的難題唯一可用的資訊一樣:把可能性的評估基於自己對相關場景進行想象的難度、不重視選擇的風險,選擇那些我們情感上已經做出預先判斷的,並且,從整體上高估了我們的能力和判斷的精準度。
很難評估這些研究在實際的商業上帶來的影響。所有的商業、醫療和公共服務中,決策都是核心環節。天然上存在偏見的系統1型別的決策佔據主導地位,導致了長期的無效市場(即便有時候股價會很高),這也帶來了啟示:即便是不完美的預測模型和其他型別的資料產品,都能在利潤、安全和效率上帶來實質的提升。
一個非常實際的提醒是,對於高利潤的商業分析創意來說, 完美資料或大資料並不是一個先決條件。這一邏輯幾乎被運用到了所有的領域,在那些地方,人類專家通過主觀地權衡本可以量化和資料化的分析證據,在穩定的環境中反覆做決策。這在《點石成金》這本書及電影中都有體現。由於系統1類的決策是統計學上是如此弱,通常,使用即便是受限的或者不完美的資料,來對決策進行去偏見化,就能獲得巨大的經濟利益。
雖然這一邏輯在心理學學術研究中已經擁有超過半世紀的基礎,在商業世界中也變得非常常見,特別是《點石成金》出現以後,不過,它至今還沒有獲得全世界的擁護。比如,考慮到Michael Lewis的書從本質上看是關於資料驅動的僱傭決策,可能有點諷刺的是,在大多數的機構中,僱傭決策仍然普遍地受到主觀印象的影響,這些印象來自非正式的求職面試,雖然有大量的研究已經證明了這些面試的侷限性。
雖然即便簡單的演算法在大體上都要好過單個專家的判斷,但處於以下幾個原因,它們不會“讓人類被代替”:第一,領域內的專家(人事經理、銀行貸款或者保險承銷人、物理學家、詐騙調查員、公共事業工作人員等等)是最好的資訊來源。而且,資料特徵一般不會自發地出現在資料庫中。資料科學家必須把它們進行編碼,用於分析,這一過程一般需要聽取領域專家和終端使用者的建議。第二,專家的判斷必須對於決定哪一個歷史資料對未來的資料分析會更有用,是必須的。
統計學家 Rob Hyndman擴充套件了這幾點,提出了要建立一個成功的預測模型必須要滿足的四個關鍵的預測要素:
- 我們理解並能衡量原因
- 有大量可用的歷史資料
- 預測本身不會影響要預測的事
- 從某種程度上看,未來於過去有一定的相似度
例如,標準的電力需求和天氣的預測就滿足了上面四個標準,但是,要預測股價時,我們就沒有達到第二條。對這四個原則的評估,要求人類的判斷,而這是任何技術都不能自動化的。
最後,即使建立了模型並進行了部署,不同情況下,模型的預測的可用性上,人類的判斷也還是有必要的。畢竟,模型並不是萬能的,除了把得到的資訊組合以外,它們幹不了其它的事。想象Meehl提出的“斷腿問題”:假設資料模型預測,Jim有90%的可能性會在明天晚上去看電影。雖然模型在總體上比人類準確度更高,但是人類預測專家Nikhil知道Jim週末發生意外,腿折了。在這樣的情況下,Nikhil 就不會被採用模型的預測,然後建議電影院經理最好不要給Jim保留位置。
這種情況在實際生活中用得很多,也是為什麼模型能夠引導而不是替代人類專家的主要原因。總的說來,等式應該是專家+演算法>專家,而不是演算法>專家。
當然,這幾個規則都是大資料和時下的人工智慧出現之前指定的。它們會很快過時嗎?
物聯網感測器源源不斷產生的資料、雲端計算以及機器學習的發展,引起了人工智慧的復興。而人工智慧將有可能重塑人與計算機的關係。有句話說得好——資料是新的石油。電腦科學家Jon Kleinberg對此評論說,“這個詞本身是含糊的,但是它指代的事情是真的……大資料指的是將會改變一切事物的過程。”
一個基於大資料和機器學習的典型AI應用就是谷歌翻譯。谷歌翻譯工具的開發,不是將語言的基本規則編碼為計算機演算法,而是從無數先前翻譯的文件中提取詞語的關聯。隨著訓練該演算法的文字語料庫的增長,該演算法也得到不斷的改進。在他們的影響力的文章“資料的有效性不合理,”谷歌的研究員Alon Halevy、Peter Norvig和Fernando Pereira在他們頗具影響力的論文“The unreasonable effectiveness of data”中評論道:
簡單的模型和大量的資料總是勝過基於較少資料的複雜的模型……目前,統計翻譯模型主要包括大量的記憶短語表,這些短語表給出具體的源語言和目標語言短語之間的可能對映。
他們的評論也與近年來公佈的在AI取得的突破相關。電腦科學家 Kris Hammond說:“AI的核心技術並沒有發生重大改變,現在的核心技術幾乎與多年前的一樣。昔日的技術達不到要求,不是因為設計不足,而是因為尚未具備所需的基礎和環境。”總之,AI過去與現在的最大區別是,必須的計算能力、原始資料和處理速度現在都有了,因此AI技術現在能大放異彩。
過去與現在共同的一個主題是,將模式識別技術應用於使用者生成內容的海量資料庫。拼寫檢查工具是在使用者自我更正的海量資料庫中訓練的;能識別照片中人臉的深度學習演算法是在數以百萬計的數字化儲存照片中訓練的;擊敗了《危險邊緣》遊戲節目的冠軍Ken Jennings和 Brad Rutter的計算機系統整合了大量適用於數字儲存文字的資訊檢索演算法。認知科學家Gary Marcus指出,最後一個應用之所以是可行的,那是因為回答《危險邊緣》出的題目的大多數知識都被電子儲存於其中。維基百科上說:“這主要是在資料檢索上的運用,而大資料非常適合這一用途。”
這些發展數量之多、速度之快已經引起一些人的推測——我們即將進入一個新時代,那時機器的智慧將超過人類的智慧。雖然這個話題很大,但是我們需要弄清楚“智慧”的本質。如今的大資料和機器學習使得“智慧”成為可能。AI的標準定義是“能夠完成通常由人類完成的任務的機器”。注意,這個定義適用於較為熟悉的資料科學應用(比如,能夠自動承保貸款或籤立簡單的保險合同的評分模型)、能夠進行語音翻譯和標記照片的演算法,以及自動駕駛汽車。
還有一件事也很突出:所有已經發明的AI技術,以及預計在未來有可能出現的,都是狹義的AI。例如,旨在翻譯檔案的演算法將無法標記照片,反之亦然。而二者都不能用於駕駛汽車。這與Marvin Minsky、HerbertSimon等AI界先驅的最初目標不同。他們想要製造通用AI:能像人類一樣理解的計算機系統。令人印象深刻的是,如今的AI技術在概念上更接近於信用評分演算法,而非《2001太空漫遊》中的超級電腦HAL9000或是由《機械姬》裡有自我意識的機器人Ava。我們現在見到的都是狹隘AI。
回到本文的問題:預測一下,大資料和AI會從根本上改變規則還是會使人類的判斷過時?預測非常重要,它曾在2014年促使人們重新評估大資料的價值。一些分析家將谷歌流感趨勢(GFT)作為大資料取代傳統科學方法和資料分析的一個絕佳例子。當時的想法是,谷歌可以利用人們與流感有關的搜尋,實時追蹤流感爆發。這似乎能支援Chris Anderson,、Kenneth Cukier、 Viktor Mayer-Schönberger等專家的觀點。他們聲稱,當獲得的資料足夠多時,“相關性就足夠了”,從而傳統的分析形式可以被尋找相關性的計算機演算法取代。然而,在2013年流感季節時,GFT的預言被證明極其不準確,大約有140%的誤差。分析家們開始質疑他們的模型。計算社會科學家David Lazer及其聯合作者發表了一篇被廣泛引用的分析文章,從兩方面分析該演算法最終失敗的原因。
演算法動力學
谷歌一直在調整搜尋引擎以提高搜尋結果和使用者體驗。然而,GFT假設,搜尋詞條與外部事件之間的關係是靜態的。在Rob Hyndman的話來說,這違反了“未來很大程度上重複過去這一假設”。
大資料的傲慢
通過在疾病控制和預防中心(CDC)的資料與數百萬計的搜尋詞條之間建立相關性,GFT違反了Hyndman的四個可預測性關鍵因素中的第一個也是最重要的一個因素:瞭解資料關係背後的偶然因素。由於存在隨機可能性,結果出現過多的虛假相關性。雖然這是在資料科學所有分支中的一個關注焦點,這一事件說明隱性假設的本質是不可靠的,它使大資料忽視了傳統資料分析的形式的必要。
Lazer團隊從此次失敗中得到的教訓不是說社交媒體的資料對於預測疾病爆發是無用的。教訓是,大資料和機器學習演算法應該被視為對人類判斷和傳統分析形式的補充,而非替代。
Philip Tetlock與Dan Gardner共同撰寫了In Superforecasting: The Art and Science of Prediction,討論以大資料為基礎的AI技術無法取代人的判斷。Tetlock報告了他與David Ferrucci的談話,Ferrucci領導工程團隊開發了在《危險邊緣》遊戲中獲勝的Watson系統。Tetlock提出了2個問題:
1. 哪兩位俄羅斯領導人在過去十年交換了工作?
2. 兩位俄羅斯最高領導人會在10年後交換工作嗎?
Tetlock指出,第一個問題考的是歷史事實,許多線上文件都有電子記,計算機演算法可以使用模式識別技術找出答案。第二個問題需要猜測普京的意圖和俄羅斯政治的動態。Ferrucci對於計算機演算法能在不確定的條件自動化這種判斷形式表示懷疑。隨著資料量的增加和機器學習方法的不斷改進,模式識別應用將更好地模仿人類的推理過程,但Ferrucci說,模仿和表達意義、產生意義是不同的。Tetlock說,二者之間的差距有待人類判斷來補充。
資料越來越多,統計方法也在進化,但是最終的結果也不會讓Paul Meehl感到驚訝。的確,計算機可以自動化某些傳統上只能由人類完成的任務。比如,信用評分在很大程度上替代了銀行信貸員的角色。但更普遍的是,計算機只能協助而不是取代人類在不確定的條件下做出
這就是說,人類與計算機合作的性質很有可能發生變化。Tetlock引用“自由國際象棋”作為人機合作的典型例子,我們在未來可能會看到更多這樣的例子。Garry Kasparov(被IBM深藍計算機在在1996年擊敗)對2005年的自由國際象棋的討論就很好地說明了這種合作的可能性。Kasparov說:
比賽結束時出現了驚喜。獲勝者不是使用一臺最先進計算機的大師,而是同時使用三臺計算機的一對美國業餘棋手。他們操縱和“訓練”計算機的技能能夠抗衡大師級別的對手具備的高超棋藝,以及其他參賽者更加強大的計算能力。能力弱的人+機器+較好的過程要勝過一臺強大的計算機,而且,更勝過能力強的人+機器+較差的過程。
因而,人機結合是提高我們在不確定性環境下做預測和判斷的能力的主要方式。另一種方法 是,改善判斷過程本身。這是群體智慧(collective intelligence)的一個越發突出的研究主題。簡而言之,群體在蒐集零散資訊,以做出更好的判斷和決策上,比群體內的任何個人都要好。
預測市場是混合式預測的一個例子。預測市場的邏輯反映了經濟學家哈耶克的觀點:市場機制的主要功能不在於促進買賣,而是從個體蒐集和綜合資訊。
比如, Hollywood Stock Exchange是一個線上預測市場,人們使用虛擬貨幣來購買和銷售與電影相關的股票,它能以92%的準確率預測出每年的奧斯卡獎。Information Aggregation Mechanism (IAM)是一個更加商業化的例子,由Caltech和惠普研究團隊聯合開發,其目標是通過蒐集“已有的個人的意見或者直覺類的細碎資訊”來預測銷售量。在惠普幾個商業團隊採用了IAM後,其預測準確率超過了惠普官方的預測。
當然,和金融市場一樣,預測市場也是不穩定的。比如,經濟學家Justin Wolfers 紀錄了谷歌預測市場的偏見,發現“在谷歌的股價上漲的時候,樂觀的預測會更加突出”,並且,員工間的預測有高度相關,他們平時都坐得很近。
總之,利用高度組織化的智慧,能帶來判斷和預測力的提升。
由RAND公司在冷戰期間發展的Delphi方法,被用於預測軍事場景。Delphi是一個反覆的思考過程,促使群體成員達成一個單一的預測。第一輪由各組員匿名提交自己個人的預測。第二輪,在第一輪預測的兩個四分點內的結果中,由各組員再次選擇並作修正,這個過程一直進行,直到得出一個統一的預測。現在,產業、政治和醫療領域都已經證明了這種預測方法的價值。
總之,利用高度組織化的智慧,能帶來判斷和預測力的提升。2011年,著名管理學家Philip Tetlock與人共同發起了Good Judgement Project(GJP),該專案受 Intelligence Advanced Research Projects Activity(IARPA)資助,IARPA 專門投資高回報、高風險的研究專案。GJP專門預測中級緊急的事件,比如,希臘會退出歐元區嗎?
Tetlock和他的團隊發現:a) 一些人在預測水平上一直都好於平均水平;b)這些人都有突出的心理特徵;c)教育和實踐能提高人們的預測能力。Tetlock稱,僅通過GJP的小冊子的訓練,就能將個人的預測能力提升10%左右。
GJP每年都會選出前2%的超級預測者,這些人有一些共同的特點,就是從“外部視角”而非“內部視角作預測”。除了建立在堅實的資料基礎上這一特質外,Tetlock還總結了超級預測家的一些共性:
- 不迷信,更相信概率論
- 開放,對新的證據保持歡迎
- 知識水平高
- 謙虛,願意承認錯誤並修改
- 對數字敏感
群體的預測水平可以在人事、併購、戰略評估、風險管理、保險等方面等得到應用。而提高群體預測能力,帶來的好處也是顯而易見的。
雖然預測模型和其他AI應用能使一些任務變得自動化,但人類判斷全部交由演算法負責這種情況幾乎不可能發生。更現實的方法是,使用資料科學和心理學不斷完善並提升人類的判斷質量。當資料十分充足,而世界的有關方面變化也相對較慢時,依靠統計學的方法進行決策是恰當且合理的。當沒有資料或擁有的資料十分有限時,採用群體智慧和其他心理學方法能夠更好地進行決策。
舉例來說,谷歌——一家建立在大資料和AI之上的公司——使用“群體智慧”和其他統計方法提升招聘員工的決策,其蘊含的道理也是“輔助人類決策者,而非取代他們”。
在愈發涉及海量資料的情況下,“智慧”AI應用將把日程工作自動化,從而空出更多時間讓人類專家專注於需要他們專業判斷的工作,以及從事社會認知(social perception)和共情等非認識能力的行動。深度學習模型有可能讓醫療成像的某些過程自動化,這將使醫護人員有更多時間集中精力完成抽象的醫療問題,圍繞診療方案進行策略規劃,以及提供共情服務。類似的,保險公司也可以使用深度學習系統將估算受損汽車的成本修理費用變得自動化,讓人類保險僱員有更多時間完成更加複雜和需要更多經驗的客服。
未來我們還將藉助心理學方法,以及資料科學、人工智慧產品,繼續使用、依靠並且發揚人類決策系統。但在可以預見的未來,人類仍將是“決策過程中的一部分”。至少我們是這樣預測的。