受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

nomi孙發表於2020-03-11
受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

日益成熟的人工智慧,正成為抗擊新冠肺炎疫情戰線上一群特別的「逆行者」。

無論是加速前期的疫情科研攻關,還是協助一線的疫情診療和現場防控,以及後端的資訊化平臺搭建,都已經出現了人工智慧技術和解決方案的身影,並且取得了實際效果。

機器之心特設「AI戰疫專題報導」,跟蹤人工智慧技術應用抗疫現場的最新進展及效果,聚焦人工智慧工作者英勇抗疫故事。

我們正在尋找AI戰疫中優秀的人工智慧公司和應用案例,歡迎提供報導線索,請聯絡houdijing@jiqizhixin.com。

今天是該系列的第七篇之《受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者| AI戰疫》。

19 世紀,英國著名內科醫生約翰·斯諾(John Snow)通過研究地圖等時空資料發現:霍亂案件的汙染源並非是空氣,而是來自 Broad Street 的公共水泵,並通過被汙染的飲用水進行傳播。在他的呼籲下,當局關閉並轉移了水泵閥,使得霍亂得以遏制。

兩百年後,新冠肺炎暴發,京東數科使用「智慧城市作業系統」中的核心技術——時空大資料分析技術及 AI 技術,協助政府開展高危人群分析及疑似人群排查工作,並尋找密切接觸者。

雖然時隔兩個世紀,但箇中技術原理相同,都是通過檢視時間、空間上的事務關聯,得出準確的結論,只是約翰·斯諾醫生當時沒有計算機和 AI 而已。

二十餘天內,京東數科幫北京市找到 500 餘名高危的密切接觸者;截至 3 月 1 日,為宿遷市找到全市範圍四分之一比例的新冠肺炎確診人員;在全國範圍內,幫廣州、南京、成都等 18 個省市做了高危人群態勢分析。

撰文 | 太浪

編輯 | 四月

 一 主動請纓,馳援抗疫一線

大年三十凌晨 2 點,武漢下達「封城」令。

根據武漢市新型冠狀病毒感染的肺炎疫情防控指揮部發布的通告,當日 10 時起,武漢市城市公交、地鐵、輪渡、長途客運暫停執行,無特殊原因,市民不要離開武漢,機場、火車站離漢通道暫時關閉。

控制傳染源、切斷傳播途徑,保護易感人群,是預防傳染病的三個有效手段。而據中國鐵路武漢局釋出的資料,武漢「封城」前一天,近 30 萬人次通過鐵路離開這座城市;又據新京報記者不完全統計,1 月 23 日 0 時到 10 時,從武漢發出可抵達大中城市的列車至少有 251 列,沿著武漢「米」字形軌道交通網,開往全國各地。

因此,掌握從疫區流出的高危人群的流向、排查疑似人群以及尋找密切接觸者,及時對其隔離保護、防止疫情進一步擴散,成為各地政府最迫切的需求。

意識到疫情防控的嚴峻性後,京東集團副總裁、京東數字科技首席資料科學家、京東城市總裁鄭宇希望能做些力所能及的事情。他立即改簽機票,結束了春節與兩個女兒的休假,從澳門飛回北京,並緊急集結「疫情防控技術體系」研發團隊。大年初一,各團隊成員改簽機票、火車票,趕往北京。由於規定不能人員聚集,於是,他們就在各自的住處遠端協調辦公。

鄭宇率領的京東城市是京東集團的一級戰略部門,核心技術是「智慧城市作業系統」,此前已在天津、南京、福州、宿遷等 30 多座城市提供技術服務,幫助政府部門對城市進行綜合管理。

大年初二,鄭宇便組織團隊成員梳理所有技術成果,預想所有政府可能需要的技術支援,並進行技術可行性驗證,以對哪些技術能在此次疫情中派上用場做到心裡有數。

其中一例技術成果是,2015 年某城市踩踏事件後,京東城市基於「智慧城市作業系統」的時空資料分析能力,為該市提供了「人流檢測系統」,該系統能夠預測到一個城市中每個片區在未來幾個小時內的人口流入/流出情況。相同的技術,原理上也可以用來幫各地政府預測從疫區流出的人員流入情況。

在花了三天時間對諸如此類的想法進行可行性驗證後,鄭宇對接上北京市聯防辦,加入疫情防控第一線。

受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

京東城市團隊,第二排左二為京東城市總裁鄭宇。


 二 霍亂案例受啟發

作為技術提供方,他們要做的就是根據政府具體需求提供相應技術支援。鄭宇介紹,聯防辦的需求主要有兩點:一是想盡早知道從疫區流出的人群流向,「那些回到北京的人都分佈在哪裡,哪幾個小區」,以便高效排查及巨集觀上對疫情進行把控;二是找出密切接觸者,及時隔離保護,避免疫情擴散。

如何解決這兩個棘手的問題?京東城市資料管理平臺部(簡稱京東城市資料團隊)負責人鮑捷給出瞭解決方案——使用時空大資料等相關技術。「接到任務後,我就開始思考,我這個方向能做什麼。」鮑捷說,當回憶起博士一年級接觸到的「霍亂」案例,受到啟發。

受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

倫敦霍亂

鮑捷是明尼蘇達大學計算機系博士,師從 Mohamed Mokbel 博士(時空資料庫領域知名教授,代表工作包括基於位置隱私保護的時空查詢演算法,主持開發了 spatialhadoop 等分散式時空大資料系統)和 Shashi Shekar 博士(時空資料探勘領域知名教授,著有時空資料庫教材《spatial database a tour》),主要研究方向包括時空大資料的管理分析和挖掘,曾在微軟亞洲研究院工作多年,具備近十年的時空資料探勘和管理經驗。

「霍亂的傳播方式直接與時空資料分析的結果相關,是時空大資料分析最經典的例子。」鮑捷解釋道。

1854 年,倫敦霍亂流行,居住在或鄰近倫敦蘇活區 Broad Street 的 127 名居民在三天內接連死去。之後的一週內,這一地區四分之三的居民逃離。當時,關於霍亂的傳播方式各有紛說,有人認為是通過空氣傳播,有人認為是通過人與人的接觸。

直到一名叫 John Snow 的內科醫生統計了疫情期間每戶病亡人數,並把所有發病人的地理位置放到一張地圖上,每死亡一人標註一條橫線,然後根據地圖進行分析。分析結果顯示:Broad Street 附近的死亡病例都圍著該街唯一的水泵,而臨街因為酒廠工人大多飲用免費的啤酒而沒什麼死亡。霍亂死亡病例多少及分佈都與距離汙染水泵的遠近有關,由此,他確定霍亂的汙染源是 Broad Street 的公共水泵,並通過被汙染的飲用水進行傳播。在他的呼籲下,當局關閉並轉移了水泵閥,使得霍亂得以遏制。

受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

1854 年,John Snow 在倫敦霍亂爆發時研究個案時用的地圖,受汙染的水泵位於 Broad Street 和劍橋街(現列剋星敦街)的交匯處。

「在流行病學分析裡,人與人在時空上的關聯是很標準很重要的分析手段。」鮑捷稱。人的活動軌跡是典型的時空資料,因此,針對此次疫情,他們將聯防辦的兩個主要需求抽象為「在給定的時空範圍內,查詢跟它相關的多元時空資料資訊」。

據稱,對時空資料的管理和分析挖掘的能力,正是京東數科「智慧城市作業系統」中「時空資料引擎」的核心技術,之前已經建好,且有落地案例。比如,京東通過分析京東快遞小哥的軌跡資料,修復小區內缺失的路網地圖,並預測每條道路的通行時間,進而更好地協助快遞員進行攬派件路徑規劃,提高整體工作效率。但之前並未針對疫情做定製化開發。

受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

京東城市時空資料引擎通過軌跡資料恢復小區路網,協助快遞員攬件派遣路徑規劃

「針對的業務場景不同,對於時空分析的方式也有差異。」鮑捷告訴機器之心,比如,都是被用來分析關聯關係,但重線上(比如金融詐騙、傳銷)的業務更關注「朋友關係」,重線下的業務(疫情之類)更看重「時空的關聯」。而時空查詢經常是時空範圍的查詢,包括經度緯度時間三維,和一般的大資料 NoSQL 元件直接查 key-value 不一樣。因此,他們針對如何高效地在大資料元件上支援時空索引,在開源框架的支援下做了很多改造。

時間緊,任務重。初三開始大規模投入,京東城市資料團隊 30 多人均參與了「抗疫」專案,包括滯留在湖北的 2 名資料開發人員和 1 名演算法工程師。最忙碌的幾天,鮑捷從早上 10 點左右就開始電話會議,直到晚上,「經常要弄到凌晨四五點」。

鮑捷介紹,之前,他們突擊專案都是在一個地方封閉辦公,遠端辦公失去了那種氛圍。「而解決這個問題,主要靠大家對做這個事情的重要性和意義的理解。大家也都自發地投入了大量時間和精力。」

受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

因為一段程式碼的優化,京東城市資料團隊開了 254 分鐘電話會議。


 三 解決政府最迫切的兩個需求

得益於以前的技術積累——京東城市於 2019 年 11 月推出的「時空資料引擎」(JD Urban Spatio-Temporal Data Engine,簡稱 JUST),一款高效、易用的時空大資料管理平臺,採用先進的資料建模方法、資料儲存技術、分散式索引技術和分析技術,預置了多種有效的時空挖掘演算法,能夠幫助人們便捷高效地管理海量時空資料。

受兩百年前的霍亂啟發,這家公司利用時空大資料在20余天內找出500名疫情密切接觸者|AI戰疫

京東城市「智慧城市作業系統 2.0」

在將「時空範圍的查詢能力」賦予「時空資料引擎」後,京東城市資料團隊用了四五天時間,就上線了「高危人群疫情態勢感知系統」,用來協助政府開展高危人群分析、疑似人群排查工作,並查詢密切接觸者。

出於資料保護的考慮,他們在政府內部搭建起「京東疫情防控技術支援體系」:首先,基於聯邦學習、同態加密、資料隱私保護的數字閘道器技術,在保證資料不出庫的基礎上,實現電信運營商、政府各個部門、公安和企業資料的融合;然後,用相比傳統資料平臺快 10-100 倍的時空大資料索引和查詢速度,對資料進行歸類、分析;最後,藉助模組化人工智慧演算法,高效建立起「高危人群疫情態勢感知系統」,義務助力政府防疫。

他們還設計並實現了一套完整的 SQL 引擎,並且閾值了多種開箱即用的時空分析方法。所有操作都可以採用類 SQL(用於在資料庫中儲存、處理和檢索資料的標準語言)語句,降低了操作者的使用門檻,同時提高了系統的靈活性。

如果想知道 X 月 X 號到 X 月 X 號期間,A 城市的人到了 B 城市後都分佈在哪裡,只需在「高危人群疫情態勢感知系統」中輸入「時間範圍」、「空間範圍」、「時空範圍的滯留時間」、「目標城市」,返程人員來源地區分佈、新增健康異常人數、每日返程人數、離域人員統計、乘坐交通工具情況、去往省市分析等資料均能視覺化呈現。

「時間範圍」、「空間範圍」、「時空範圍的滯留時間」、「目標城市」都可以動態變化。其中,空間範圍「可以大到整個湖北省,小到武漢市的一個街道一個小區。」

尋找密切接觸者不是件容易的事。靠患者清楚無誤地回憶——自己在確診後、隔離前的那段時間,分別在什麼時間點去過什麼地方,不是最有效的辦法。因為除了記憶模糊,患者有時候沒辦法說出來自己跟誰有過接觸。比如,去菜市場買菜,去飯店吃飯,接觸過的人,患者根本不認識。

人的活動軌跡是典型的時空資料,包括經度緯度時間三維,通過對患者的移動軌跡進行分析,就能知道患者到底跟哪些人有密切接觸關係。針對這一需求,京東城市用上了其自研的時空軌跡挖掘演算法。基於這一演算法,他們早於 2013 年就在 ICDE 上發表了相關論文——《companion pattern mining from Jeffries》。

但由於現實生活中人不停分分合合,A 在和患者 B 在累計接觸時間超過 1 小時、且兩人間的空間距離足夠近的情況下,才會被判定為「密切接觸者」。因此,為了找到有共同駐留點的關聯人員,需要先對軌跡資料進行處理。

這部分工作由京東城市資料團隊中兩位滯留湖北的資料開發人員完成,他們把一條長長的軌跡拆分開來,從中找出有意義的幾段軌跡,並從中挖掘目標人員經常呆的地方等有用資訊。

2 月 1 日,「重點人員行為軌跡分析系統」上線,北京市使用該系統,在二十餘天內,找到了 500 餘名密切接觸者。

鄭宇介紹,系統上線後,得到了北京市聯防辦的好評,團隊成員也根據對方提出的新需求不斷對產品進行迭代。

與此同時,廣州、成都、南京、宿遷等城市政府部門也遞來需求。他們希望所有的處理和分析最好能在儘可能快的時間結束,出結果,在拿到這些資訊後及時地做出反應。

每天都有新的疫情暴發。「可能今天這個小區出現兩個病例、變成疫區了,那整個小區都會被鎖定。這個小區的人最近兩到三天都過哪些地方,要再次分析。」查詢工作的計算量一天要做好多次。

鮑捷坦言,針對疫情的工作需求交付,每天都壓力很大。但他也很自豪自己的所學所能真的用到了實際的地方,產生了社會認可的價值。

截至目前,這兩款產品已為北京市、南京市、廣州市、遼寧省、內蒙古自治區、四川省、宿遷市等十幾個省公安廳和市公安局提供技術支援和資料分析服務。

相關文章