第四正規化聯合周志華團隊等搭建新冠病毒自學習模擬器:較傳染病預測模型誤差降低90% | AI戰疫

机器之心發表於2020-03-06

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四正規化</mark>聯合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志華</mark>團隊等搭建新冠病毒自學習模擬器:誤差降90%

日益成熟的人工智慧,正成為抗擊新冠肺炎疫情戰線上一群特別的「逆行者」。

無論是加速前期的疫情科研攻關,還是協助一線的疫情診療和現場防控,以及後端的資訊化平臺搭建,都已經出現了人工智慧技術和解決方案的身影,並且取得了實際效果。

機器之心特設「AI戰疫專題報導」,跟蹤人工智慧技術應用抗疫現場的最新進展及效果,聚焦人工智慧工作者英勇抗疫故事。

我們正在尋找AI戰疫中優秀的人工智慧公司和應用案例,歡迎提供報導線索,請聯絡houdijing@jiqizhixin.com。

今天是該系列的第六篇之《第四正規化聯合周志華團隊等搭建新冠病毒自學習模擬器:較傳染病預測模型誤差降低90% | AI戰疫》。

「流動、彙集,不斷的流動、不斷的彙集……在幅員遼闊的中國,南北城市遠隔千里,病毒的傳播或許只在數小時的飛行之後。」

紀錄片《非典十年祭》這樣形容當時 SARS 病毒的蔓延;17 年後,當年的病毒換了身行頭,故伎重演,來勢洶洶。

「打贏疫情防控阻擊戰」,響亮的口號,頻頻在頭版頭條裡響起,但新冠病毒卻以人類未知的火速勢頭燎原,佔得先機。要取得勝利,必須找到更為精準而高效的武器。

你瞧,一群手握機器學習、大資料「武器」的技術隊伍已經默默登場,為恐慌的人類開啟「上帝視角」,在數十個日夜裡測繪出各種潛在威脅的可能性,巧妙地避開了與病毒的狹路相逢。

經此一役,疾控體系數字化和智慧化的價值被見證,後續相應的改革與升級也將勢在必行。

撰文 | 凡雪、四月

編輯 | 四月

當現實世界裡關於新冠病毒的多維度資料被深度挖掘出來,源源不斷地投餵進自洽自足的機器學習平臺,一套仿照現實世界運轉機制的「孿生系統」因此而構建成型。

人類在螢幕前透過滑鼠鍵盤,在模擬的數字世界裡,緊鑼密鼓地狙擊病毒:追蹤傳染路徑、篩查易感人群、推演疫情發展……每一步都被人工智慧演繹地淋漓盡致。

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四正規化</mark>聯合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志華</mark>團隊等搭建新冠病毒自學習模擬器:誤差降90%

基於機器自學習搭建的傳染病疫情演進預測系統示意圖

它是哮天犬「天地無極、萬里追蹤」的篩查追蹤功能,在微觀的人口流動中定位潛在傳染源和高風險人群(攜帶新冠病毒而不自知)。

也是《模擬人生》裡的現實世界模擬器,充分考慮複雜環境下的各種突發因子(交通管制/復工時間/藥物設施等),在模擬器上修改相關變數,進而推演出疫情狙擊中人工干預的最優政策。

第四正規化聯合南京大學 LAMDA 研究所和蘇北人民醫院組隊,針對疫情推出的智慧疫情防控系統,正是基於這樣一套思路。


一 CEO 接下「神秘」任務

除夕夜,第四正規化的微信群裡,新年祝福刷屏之後,突然跳出一則動員資訊,打亂了節奏。

原來,公司被推薦加入了一個來自上級的「特殊」專案,由 CEO 戴文淵親自承接。專案與疫情防控有關,剛開始還有點「神秘」。

經公司高層動員,專案是為疫情做貢獻,很快便有幾十人主動參與進來。

隨後,專案總負責人塗威威邀請了以周志華教授為首的南京大學 LAMDA 研究所、蘇北人民醫院的十數名專家加入專案組,整個系統專案組已接近百人規模。他們的任務是為疫情防抗搭建一套基於機器學習技術的精準防控決策支援系統。

第四正規化,全稱為 第四正規化 (北京) 技術有限公司,是一家於 2014 年成立的人工智慧技術與服務提供商,創始團隊來自百度鳳巢推薦系統、今日頭條推薦系統等核心技術團隊。

第四正規化擅長搭建複雜的機器學習模型平臺,並將之業務和產品化。早在 2016 年,第四正規化就釋出了相關產品「第四正規化先知」——一套企業級的人工智慧 PaaS 平臺,能力覆蓋人工智慧專案從應用開發、執行到管理的全生命週期。

據 IDC 2019 年釋出的《中國機器學習開發平臺市場評估》報告顯示,第四正規化、阿里、百度AWS騰訊微軟等位列領導者象限。其中,作為 AI 獨角獸的第四正規化,佔據了中國市場的最大份額。


二 當機器學習遇上傳染病學

專案組分設有前端、後端兩個部分。前端由王巍負責,王巍今年和家人留京過春節,無離京記錄,健康狀況良好,成為疫情下的最佳前端人選。

事實上,專案前期前端只有他一人在現場。接到任務後,王巍每天生活就是朝八晚八,兩點一線。

早晨 8 點前,王巍需要趕到北京專案組安排的集中辦公點。測過體溫,身份驗證之後,進入井然有序的辦公區間,口罩下的人臉只剩下一雙雙專注的雙眼,緊盯電腦螢幕。

春節期間,疫情仍處於上揚勢頭,政策調控方的需求變化多端,各方資料滾滾而來,王巍主要承擔需求和任務的彙總梳理工作,將其有節奏有條理地反饋給後端團隊,以保證將有限的資源投入關鍵領域。

「資料更新頻率很快,一般來說,一小時至半天左右更新。所以我們的響應速度也需要比較快」王巍說。

「下班後,他還要和我們對需求,壓力是比較大的」,專案總負責人塗威威補充,不斷更新彙總的宏觀資料,對於後端合理地設計模型,有效呼叫演算法起到關鍵性作用。

如果說,前端的壓力主要聚焦在極短的任務交付期限中,那麼後端的壓力則貫穿始終。

塗威威同時也是正規化後端數十人科學家的領隊,主要透過遠端辦公協同,沒有嚴格的固定工作時間點——往往意味著要隨時待命,模型調到凌晨 2-3 點是家常便飯。

協同過程中,塗威威與南京大學 LAMDA 研究所詹德川、俞揚教授和國家 GCP 機構辦主任餘果的四人工作微信群每天都會從早晨密集討論到深夜。

「專案背後的指導老師周志華教授也全程在各方面為專案組提供細緻的指導,很多時候周老師會與我們溝通工作到凌晨三四點。」塗威威介紹。

最初,這幫科學家的想法很簡單——讓技術產生價值;然而,好想法在實際運用中卻得不到好結果。

由於缺乏傳染病學背景知識,科學家團隊採用了一組固有的傳染係數,套用在不同地區、不同場景上,但卻與實際資料相去甚遠。

隨著團隊與一線醫學專家深入交流和探討,問題才逐漸浮出水面。

「傳染係數實際受到多種因素影響,」塗威威解釋道,「比如飛機裡的傳染率其實比火車低很多,因為空氣是迴圈的;又如經濟發達地區,居民防護意識較強,傳染率會較低……」

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四正規化</mark>聯合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志華</mark>團隊等搭建新冠病毒自學習模擬器:誤差降90%

飛機不同座位傳染率(圖源:國家地理中文網)

基於此,團隊替換掉了此前的固有傳染係數,轉而構建一套傳染模型,綜合考慮地區、場景、時間等各種實際因素。根據機器學習結果,團隊再進一步找醫學專家驗證及最佳化,依此往復。

據塗威威介紹,經過對全國各省建模,自學習模擬器相對改進版傳染病模型(SEIR 模型)的誤差平均降低 90%,與實際資料出現比較好的擬合狀態。

「疫情目前的發展軌跡都在印證了之前推演結果,在一定程度上也消除了我們自身對疫情的焦慮,」他談道。

此外,系統團隊每天會定期與宏觀調控部門的技術人員遠端連線,在結果層面、方法論上進行探討,針對系統預測值和實際值的差距進行最佳化。

「在這個過程中,產品的迭代以小時為單位計算——每隔兩三個小時,相關部門就會要求更新結果,3-5 天產品實現較大提升。」說到這,塗威威的語速不自覺地加快。


三 戰疫偵察三部曲:追蹤、篩查、推演

如果消滅疫情是場「阻擊戰」,從防控前期的病毒傳播分析到易感人群的精準篩查再到後期推演疫情,為決策層制定政策並影響疫情發展做支援,都必須做到「快且準」,小到預測某個地區的傳染率,大到提前為某省市頒佈整體防控決策做預演輔助。

為此,這隻由人工智慧專家和醫學專家組建的聯合團隊,從複雜多變的物理世界中挖掘多維度資料,利用機器學習技術構建資料驅動的新冠病毒傳播數字孿生系統。

這就像一套現實世界裡的病毒傳播模擬器,可以模擬出各項與疫情相關的變數、指標(交通管制/復工時間/藥物設施等),以實現精準而有效的傳染源定位、人群篩查以及疫情推演。

該套系統依託於第四正規化的底層人工智慧 PaaS 平臺,針對疫情場景進行了應用升級,在平臺的核心演算法、功能元件和底層技術(如自動機器學習技術)等方面已經有了成熟的經驗保障。

針對疫情發展的不同階段和實際場景需求,系統團隊提出了三套方案應用,分別對應追蹤傳播路徑、篩查高危人群、疫情態勢推演。

1、精準防控第一步:追蹤傳播路徑

在疫情發生後,病毒傳染路徑分析極為關鍵,系統將模擬出一套潛在傳染的關係網,在關係網中找到可能的傳播路徑協助精準防控。

此外,第四正規化還構建了可學習的事件回放模擬器,及時發現並覆盤潛在傳染路徑以及傳染方式,幫助防疫部門快速切斷疫情的蔓延,同時反哺到病理學相關研究,提供研究方向上的輔助。

2、精準防控第二步:篩查高危人群

在防控關鍵階段,核心是要找到潛在的高風險人群。為此,塗威威團隊構建了一套精準篩查模型,利用 AI 技術豐富了現有的防控篩查規則模型,進一步提升人群的覆蓋面以及篩查的召回率與準確率

<mark data-type=institutions data-id=8bf42f67-82c0-4966-a600-281c4663a1f1>第四正規化</mark>聯合<mark data-type=experts data-id=7414c7ba-5414-4fd0-8010-eb930f18abd7>周志華</mark>團隊等搭建新冠病毒自學習模擬器:誤差降90%

醫學專家建議的「ABCD」人群分類,A 是指有武漢接觸史的人,B 是指 A 出門在公共場所中遇到的所有陌生人,C 是指 A 接觸到的熟人,D 是指沒有外出的安全市民。

傳統的篩查規則系統是透過判斷是否和確診或疑似人員在同一地區同時出現,其準確度還有很大的提升空間。

比如,由於 A、C 兩類都容易識別並進行隔離,B 類人群由於與 A 互不認識,很有可能被感染而不自知,引發更大範圍的疫情感染。「而且病毒傳染方式多變,受天氣、空氣流通性、接觸方式等各方面因素綜合影響,所以需要一套更為『精準』的高維篩查模型。」塗威威說道。

3、精準防控第三步:推演疫情發展,提供宏觀決策預判

對於決策者,知曉疫情變化趨勢、預判拐點成為更加緊要的事情,而且從宏觀決策來看,國家需要對全國疫情精準推演,以減少疫情蔓延。

而與此同時,眾多現實因素干擾使得傳統理想化模型預測疫情不再可行。

為此,系統團隊採用了高維機器學習技術以及多維度的資料,構建出更細粒度、更接近實際情況的可學習的省市區縣級數字孿生系統。

與過去基於人寫規則的數字孿生系統不同,基於機器學習、高維非梯度最佳化等技術的系統最大亮點在於資料驅動,從資料中學習出數字孿生系統,可就關鍵決策一旦實施所帶來的影響進行精準的模擬預判,為制定實用有效的防控政策提供重要依據。

「大眾經常可以看到限制聚眾、封路、封閉小區等加大防控力度的政策,或者復工復產、降低響應機制等級的風向變化,這套系統就可以有效輔助類似決策」,塗威威解釋道。

據瞭解,該套解決方案除了為有關部門提供防控支援之外,已經下沉到地方政府,幫助更多部門在疫情一線提升效率、輔助決策,協助企業做好微觀防控。

接下來,全民進入復工復產狀態,方案也進行了針對性功能調整——如何在控制疫情和恢復經濟中應尋求平衡是關鍵。比如,復產排班的合理性,針對工作區域劃分危險等級等。


四 疫情之後,我們如何覆盤?

病毒雖然疏離了我們的物理距離,卻好像又拉近了一些東西,比如疫情之下,我們共同見證的抵抗,共同追問的話題,共同反思的漏洞。

時至今日,我們完全有理由相信,疫情終將平息,但一場大病之中暴露的問題和反思總結才剛剛開始。

新冠疫情發生以來,疫情防治工作在早期經歷了民眾質疑與信任危機,面對爆發突然、傳染性極強的全新冠狀病毒,前期近一個月的防控措施效果有限。

在塗威威看來,未來,國家乃至全球層面,基於資料驅動的疾控系統一定會進一步完善。而這套全民抗疫過程中所沉澱出的方案、經驗和技術也將在後續人類與病毒共生的歲月裡發揮出更大的價值。

經此一役,中國疾控體系的數字化和智慧化改革勢在必行,我們也拭目以待。

相關文章