讓谷歌折戟的AI流行病預測,在今天如何被創業公司攻佔?

naojiti發表於2020-02-04

預測未知,一直是人類十分嚮往的能力。遠不說國人熟悉的周易八卦、唐代道士編寫的《推背圖》,還有西方人熟知的占星術、中世紀流行起來的塔羅牌,近的比如說當年根據 “2012世界末日”這一瑪雅預言影響下出現的全民狂熱和商業狂歡,依然讓我們記憶猶新。

現在“不問蒼生問鬼神”的時代已經過去,我們對物理世界及社會經濟的確定性的、經驗性的甚至機率性的預測都已輕車熟路。但比如說像“蝴蝶效應”描述的高度複雜的、超多變數以及超大資料量的預測,人類還是束手無策麼?

答案並不是。

近日,我國武漢新型冠狀病毒疫情的爆發引起世界衛生組織和全球多地衛生機構的密切關注。其中,《連線》雜誌報導了“一家加拿大公司BlueDot透過AI監測平臺率先預測和釋出武漢出現傳染疫情”的新聞,得到國內媒體的廣泛關注。這似乎是我們在“預測未來”這件事上最想看到的成果——藉助大資料沉澱基礎和AI的推斷,人類似乎正能夠揣摩“天意”,揭示出原本深藏於混沌之中的因果規律,從而在天災降臨前試圖挽救世界。

今天我們就從傳染病預測出發,看看AI是如何一步步走向“神機妙算”的。

谷歌GFT頻喊“狼來了”:流感大資料的狂想曲

用AI預測傳染病顯然不是Bluedot的專利,其實早在2008年,今天的AI“強手”谷歌,就曾進行過一次不太成功的嘗試。

2008年穀歌推出一個預測流感流行趨勢的系統——Google Flu Trends(谷歌流感趨勢,以下簡稱GFT)。GFT一戰成名是在2009年美國H1N1爆發的幾周前,谷歌工程師在《Nature》雜誌上發表了一篇論文,透過谷歌累積的海量搜尋資料,成功預測H1N1在全美範圍的傳播。就流感的趨勢和地區分析中,谷歌用幾十億條檢索記錄,處理了4.5億個不同的數字模型,構造出一個流感預測指數,其結果與美國疾病控制和預防中心(CDC)官方資料的相關性高達97%,但要比CDC提前了整整2周。在疫情面前,時間就是生命,速度就是財富,如果GFT能一直保持這種“預知”能力,顯然可以為整個社會提前控制傳染病疫情贏得先機。

然而,預言神話沒有持續多久。2014年,GFT又再次受到媒體關注,但這一次卻是因為它糟糕的表現。研究人員2014年又在《Science》雜誌釋出 “谷歌流感的寓言:大資料分析的陷阱” 一文,指出在2009年,GFT沒有能預測到非季節性流感A-H1N1。從2011年8月到2013年8月的108周裡,GFT有100周高過了CDC報告的流感發病率。高估了多少呢?在2011-2012季,GFT預測的發病率是CDC報告值的1.5倍多;而到2012-2013季,GFT預測流感發病率已是CDC報告值的2倍多。

(圖表來自The Parable of Google Flu: Traps in Big Data Analysis | Science,2014)

儘管GFT在2013年調整了演算法,並回應稱出現偏差的罪魁禍首是媒體對GFT的大幅報導導致人們的搜尋行為發生了變化,GFT預測的2013-2014季的流感發病率,仍然高於CDC報告值1.3倍。並且研究人員前面發現的系統性誤差仍然存在,也就是“狼來了”的錯誤仍然在犯。

到底GFT遺漏了哪些因素,讓這個預測系統陷入窘境?

根據研究人員分析,GFT的大資料分析出現如此大的系統性誤差,其收集特徵和評估方法可能存在以下問題:

一、大資料傲慢(Big Data Hubris)

所謂“大資料傲慢”,就是谷歌工程師給出的前提假設就是,透過使用者搜尋關鍵詞得到的大資料包含的即是流感疾病的全資料收集,可以完全取代傳統資料收集(取樣統計),而不是其補充。也就是GFT認為“採集到的使用者搜尋資訊”資料與 “某流感疫情涉及的人群”這個總體完全相關。這一 “自大”的前提假設忽視了資料量巨大並不代表資料的全面和準確,因而出現在2009年成功預測的資料庫樣本不能涵蓋在之後幾年出現的新的資料特徵。也是因為這份“自負”,GFT也似乎沒有考慮引入專業的健康醫療資料以及專家經驗,同時也並未對使用者搜尋資料進行“清洗”和“去噪”,從而導致此後流行病發病率估值過高但又無力解決的問題。

二、搜尋引擎演化

同時搜尋引擎的模式也並非一成不變的,谷歌在2011年之後推出“推薦相關搜尋詞”,也就是我們今天很熟悉的搜尋關聯詞模式。

比如針對流感搜尋詞,給出相關尋求流感治療的list,2012年後還提供相關診斷術語的推薦。研究人員分析,這些調整有可能人為推高了一些搜尋,並導致谷歌對流行發病率的高估。舉例來說,當使用者搜尋“喉嚨痛”,谷歌會在推薦關鍵詞給出“喉嚨痛和發燒”、“如何治療喉嚨痛”等推薦,這時使用者可能會出於好奇等原因進行點選,造成使用者使用的關鍵詞並非使用者本意的現象,從而影響GFT蒐集資料的準確性。

而使用者的搜尋行為反過來也會影響GFT的預測結果,比如媒體對於流感流行的報導會增加與流感相關的詞彙的搜尋次數,進而影響GFT的預測。這就像量子力學家海森堡指出的,在量子力學中存在的“測不準原理”說明的一樣,“測量即干涉”,那麼,在充斥媒體報導和使用者主觀資訊的搜尋引擎的喧囂世界裡,也同樣存在“預測即干涉”悖論。搜尋引擎使用者的行為並不完全是自發產生,媒體報導、社交媒體熱點、搜尋引擎推薦甚至大資料推薦都在影響使用者心智,造成使用者特定搜尋資料的集中爆發。

為什麼GFT的預測總是偏高?根據這一理論,我們可以知道,一旦GFT釋出的流行病預測指數升高,立刻會引發媒體報導,從而導致更多相關資訊搜尋,從而又強化GFT的疫情判斷,無論如何調整演算法,也改變不了“測不準”的結果。

三、相關而非因果

研究人員指出,GFT的根源問題在於,谷歌工程師並不清楚搜尋關鍵詞和流感傳播之間到底有什麼因果聯絡,而只是關注資料之間的——統計學相關性特徵。過度推崇“相關”而忽略“因果”就會導致資料失準的情況。比如,以“流感”為例,如果一段時間該詞搜尋量暴漲,可能是因為推出一部《流感》的電影或歌曲,並不一定意味著流感真的在爆發。

一直以來,儘管外界一直希望谷歌能夠公開GFT的演算法,谷歌並沒有選擇公開。這讓很多研究人員質疑這些資料是否可以重複再現或者存在更多商業上的考慮。他們希望應該將搜尋大資料和傳統的資料統計(小資料)結合起來,建立對人類行為更深入、準確的研究。

顯然,谷歌並沒有重視這一意見。最終在2015年GFT正式下線。但其仍在繼續收集相關使用者的搜尋資料,僅提供給美國疾控中心以及一些研究機構使用。

為什麼BlueDot率先成功預測:AI演算法與人工分析的協奏曲

眾所周知,谷歌在當時已經在佈局人工智慧,2014年收購DeepMind,但依然保持它的獨立運營。同時,谷歌也沒有GFT再投入更多關注,因此也並未考慮將AI加入到GFT的演算法模型當中,而是選擇了讓GFT走向“安樂死”。

幾乎在同一時期,今天我們所見到的BlueDot誕生。

BlueDot是由傳染病專家卡姆蘭·克汗(Kamran Khan)建立流行病自動監測系統,透過每天分析65種語言的約10萬篇文章,來跟蹤100多種傳染病爆發情況。他們試圖用這些定向資料收集來獲知潛在流行傳染病爆發和擴散的線索。BlueDot一直使用自然語言處理(NLP)和機器學習(ML)來訓練該“疾病自動監測平臺”,這樣不僅可以識別和排除資料中的無關“噪音”,比如,系統識別這是蒙古炭疽病的爆發,還僅僅是1981年成立的重金屬樂隊“炭疽”的重聚。又比如GFT僅僅將“流感”相關搜尋的使用者理解為可能的流感病患者,顯然出現過多不相關使用者而造成流行病準確率的高估。這也是BlueDot區別於GFT在對關鍵資料進行甄別的優勢之處。

就像在這次在新型冠狀病毒疫情的預測中, 卡姆蘭表示,BlueDot透過搜尋外語新聞報導,動植物疾病網路和官方公告來找到疫情資訊源頭。但該平臺演算法不使用社交媒體的釋出內容,因為這些資料太過雜亂容易出現更多“噪音”。

關於病毒爆發後的傳播路徑預測,BlueDot更傾向於使用訪問全球機票資料,從而更好發現被感染的居民的動向和行動時間。在1月初的時候,BlueDot也成功預測了新型冠狀病毒從武漢爆發後,幾天之內從武漢擴散至北京、曼谷、漢城及臺北。

新冠病毒爆發並非是BlueDot的第一次成功。在2016年,透過對巴西寨卡病毒的傳播路徑建立AI模型的分析,BlueDot成功地提前六個月預測在美國佛羅里達州出現寨卡病毒。這意味著BlueDot的AI監測能力甚至可以做到預測流行病的地域蔓延軌跡。

從失敗到成功,BlueDot和谷歌GFT之間究竟存有哪些差異?

一、預測技術差異

之前主流的預測分析方法採取的是資料探勘的一系列技術,其中經常用到的數理統計中的“迴歸”方法,包括多元線性迴歸、多項式迴歸、多因Logistic迴歸等方法,其本質是一種曲線的擬合,就是不同模型的“條件均值”預測。這也正是GFT所採用的預測演算法的技術原理。

在機器學習之前,多元迴歸分析提供了一種處理多樣條件的有效方法,可以嘗試找到一個預測資料失誤最小化且“擬合優度”最大化的結果。但迴歸分析對於歷史資料的無偏差預測的渴求,並不能保證未來預測資料的準確度,這就會造成所謂的“過度擬合”。

據北大國研院教授沈豔在《大資料分析的光榮與陷阱——從谷歌流感趨勢談起》一文中分析,谷歌GFT確實存在“過度擬合”的問題。也就是在2009年GFT可以觀察到2007-2008年間的全部CDC資料,採用的訓練資料和檢驗資料尋找最佳模型的方法所參照的標準就是——不惜代價高度擬合CDC資料。所以,在2014年的《Science》論文中指出,會出現GFT在預測2007-2008年流感流行率時,存在丟掉一些看似古怪的搜尋詞,而用另外的5000萬搜尋詞去擬合1152個資料點的情況。2009年之後,GFT要預測的資料就將面臨更多未知變數的存在,包括它自身的預測也參與到了這個資料反饋當中。無論GFT如何調整,它仍然要面對過度擬合問題,使得系統整體誤差無法避免。

BlueDot採取了另外一項策略,即醫療、衛生專業知識和人工智慧、大資料分析技術結合的方式,去跟蹤並預測流行傳染病在全球分佈、蔓延的趨勢,並給出最佳解決方案。

BlueDot主要採用自然語言處理和機器學習來提升該監測引擎的效用。隨著近幾年算力的提升以及機器學習,從根本上徹底改變了統計學預測的方法。主要是深度學習(神經網路)的應用,採用了“反向傳播”的方法,可以從資料中不斷訓練、反饋、學習,獲取“知識”,經過系統的自我學習,預測模型會得到不斷最佳化,預測準確性也在隨著學習而改進。而模型訓練前的歷史資料輸入則變得尤為關鍵。足夠豐富的帶特徵資料是預測模型得以訓練的基礎。經過清洗的優質資料和提取恰當標註的特徵成為預測能否成功的重中之重。

二、預測模式差異

與GFT完全將預測過程交給大資料演算法的結果的方式不同,BlueDot並沒有完全把預測交給AI監測系統。BlueDot是在資料篩選完畢後,會交給人工分析。這也正是GFT的大資料分析的“相關性”思維與BlueDot的“專家經驗型”預測模式的不同。AI所分析的大資料是選取特定網站(醫療衛生、健康疾病新聞類)和平臺(航空機票等)的資訊。而AI所給出的預警資訊也需要相關流行病學家的再次分析才能進行確認是否正常,從而評估這些疫情資訊能否第一時間向社會公佈。

當然,就目前這些案例還不能說明BlueDot在預測流行病方面已經完全取得成功。首先,AI訓練模型是否也會存在一些偏見,比如為避免漏報,是否會過分誇大流行病的嚴重程度,因而再次出現“狼來了”的問題?其次,監測模型所評估的資料是否有效,比如BlueDot謹慎使用社交媒體的資料來避免過多的“噪音”?

幸而BlueDot作為一家專業的健康服務平臺,他們會比GFT更關注監測結果的準確性。畢竟,專業的流行病專家是這些預測報告的最終釋出人,其預測的準確度直接會影響其平臺信譽和商業價值。這也意味著,BlueDot還需要面臨如何平衡商業化盈利與公共責任、資訊開放等方面的一些考驗。

AI預測流行病爆發,僅僅是序曲……

“發出第一條武漢冠狀病毒警告的是人工智慧?”媒體的這一標題確實讓很多人驚訝。在全球一體化的當下,任何一地流行疾病的爆發都有可能短時間內傳遍全球任何一個角落,發現時間和預警通報效率就成為預防流行疾病的關鍵。如果AI能夠成為更好的流行病預警機制,那不失為世界衛生組織(WHO)以及各國的衛生健康部門進行流行病預防機制的一個辦法。

那這又要涉及到這些機構組織如何採信AI提供的流行病預報結果的問題。未來,流行病AI預測平臺還必須提供流行病傳染風險等級,以及疾病傳播可能造成的經濟、政治風險的等級的評估,來幫助相關部門做出更穩妥的決策。而這一切,仍然需要時間。這些組織機構在建立快速反應的流行病預防機制中,也應當把這一AI監測系統提上日程了。

可以說,此次AI對流行病爆發提前成功地預測,是人類應對這場全球疫情危機的一抹亮色。希望這場人工智慧參與的疫情防控的戰役只是這場持久戰的序曲,未來應該有更多可能。比如,主要傳染病病原體的AI識別應用;基於主要傳染病疫區和傳染病的季節性流行資料建立傳染病AI預警機制;AI協助傳染病爆發後的醫療物資的最佳化調配等。這些讓我們拭目以待。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2674504/,如需轉載,請註明出處,否則將追究法律責任。

相關文章