拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

机器之心發表於2020-02-11

疫情的發展,牽動著全國人民的心。近日,北京大學前沿計算研究中心陳寶權課題組根據現有資料對新冠疫情進行了視覺化分析,為疫情防控決策和大眾行為提供了參考。

目錄:

導言

1. 疫情傳播視覺化總覽

2. 疫情傳播特點分析

  • 人口流動與疫情的不同階段

  • 各省市傳播差異

3. 疫情傳播模擬

  • 基礎的 SEIR 模型

  • C-SEIR 模型及其模擬分析

4. 總結

導言

2019 年在武漢爆發的新型冠狀病毒肺炎(國家衛健委簡稱 NCP)傳播迅猛,已被世界衛生組織(WHO)定為「國際關注的突發公共衛生事件」。對疫情的控制,自 1 月 24 日武漢宣佈封城之後,各個省市也陸續透過啟動重大突發公共衛生事件一級響應來控制人口流動;同時,各省市醫療隊伍馳援武漢,武漢的防控措施也急速加強;但全國疫情,特別是湖北省的狀況依然讓人揪心。公眾非常關心疫情的發展趨勢,期待「拐點」的出現;疫情防控部門希望不斷總結經驗教訓,評估現有措施的有效性。該疫情的發展成為了涉及到我國政治經濟民生的一件大事。

此次病毒的傳播到底如何從武漢向外傳播?不同省市疫情的發展呈現怎樣的差別?封城、社群化隔離等一系列措施對減緩疾病傳播起到了多大的作用;更為重要的是,拐點何時出現

我們的報告首先從已有資料的視覺化來展示疫情傳播特點,然後透過建立傳染病動力學模型,評估疫情防控措施,提出建議並預警,同時預測疫情疾病走勢,給疫情防控決策和大眾行為作為參考。

1. 疫情傳播視覺化總覽 2019-nCoV

透過熱度圖的方式,我們使用國家及各省市地區衛健委公佈的地級市每日確診資料 [1],在圖 1.1 中重現了 NCP 疫情的傳播。容易發現,疫情的傳播主要以武漢為中心向周圍擴散,透過人口流動將病情傳播至中心城市,北京、上海、廣州等地,成為二級傳播中心

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 1.1. 各省市疫情傳播熱度圖(1 月 21 日至 2 月 9 日)

我們對全國、湖北及湖北以外的省市的新增感染人數視覺化,容易發現,湖北以外各省,在 1 月 31 日前新增仍在不斷增長,然後增速放緩,從 2 月 4 日開始有下降的趨勢。而湖北省的新增人數仍沒有明顯的下降趨勢,加上檢測的瓶頸,報告的資料可能和實際的情況相比存在較大的噪聲,疫情防控形勢依然嚴峻。即使是湖北之外的其它省市,情況也各不相同,有些省市的情況亦不容小視,後面會展開分析。

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 1.2. 湖北及湖北以外省市新增確診人數的變化(1 月 24 日至 2 月 9 日)

2. 疫情傳播特點分析 2019-nCoV

人口流動與疫情的不同階段

人口流動是疫情發展第一階段輸入型傳染的主要因素,為了具體描述其影響,我們使用百度遷移所提供的人口流動資料 [2],透過視覺化春運期間從武漢流向全國各省市的人口規模 (不包含港澳臺資料) 和全國感染病毒人數的分佈,直觀地觀察兩者間的聯絡。

疫情由湖北武漢華南海鮮市場開始傳播,逐漸蔓延至全國。中國大陸各省份的顏色,反映了該省的確診人數及來自武漢市的輸入人流量。

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 2.1. (左) 由武漢市流向各省市的輸入人流量,(中) 1 月 31 日各省市確診感染總人數,(右) 2 月 9 日各省市確診感染總人數

透過對比圖 2.1(左) 和圖 2.1(中),我們可以看到,在疫情初期,各省市感染總人數與春運期間由武漢市的輸入人流量呈現強相關性;需要指出的是,武漢 1 月 24 日封城,考慮平均潛伏期 7 天,1 月 31 日湖北外省市的確診人群應該基本為輸入型感染。但隨著時間的推移,確診人數分佈圖則發生了一定的變化(2.1(右))。我們推斷,武漢封城之後,二次傳染所造成的病毒傳播越來越占主導地位,和各省市的人口密度,以及管控措施等密切相關。

各省市傳播差異

為了更具體分析各省市之間的疫情傳播差異,首先,我們針對湖北以外的省市,以從武漢輸入人流規模為基準,與當地截止到 2 月 9 日的確診人數進行對比。見圖 2.2:

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 2.2. 湖北以外省市的武漢人口流入規模 (相對值) 與其確診感染人數

從圖 2.2 可以發現,各省市的武漢輸入人流量規模與其確診人數之間存在正相關,如圖 2.1(中)一樣,驗證了人口流動是疫情初期傳播的主要原因之一。然而,有些異常值出現,代表了疫情傳播比較特殊的幾個省份。

為了更好地觀察這些差異,我們對確診人數做資料歸一化,將每個省市確診總人數分別除以武漢輸入人數規模和該省市總人口,得到兩個曲線,見圖 2.3:

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 2.3. 截止 2 月 9 日,各省市確診人數分別除以武漢輸入人數規模以及該省市總人口數

對於單人感染率較高的省市(圖 2.3 藍色曲線),如浙江省、北京市、上海市、廣東省,雖然確診人數不是最多,但是發病率卻相對較高,原因是這些省市都屬於商務旅遊集中、人流密集、流動性大的城市,因此造成傳染性高於其他地區。有些省份公佈了二次傳播人數,黑龍江省的二次傳染比例最高,有報導表示,至 2 月 6 日,黑龍江發生 48 起聚集性疫情傳播,共導致發病 193 例。

二次傳播在疫情傳播第二階段中占主導地位,對於目前聚集性傳播的高發地區,採用更嚴格的隔離措施避免疫情的爆發型增長,是行之有效的方法。但後續疫情傳播的走向具體如何,哪些因素更為關鍵,我們接下來採用傳染病傳播模型來做數字模擬和分析。

3. 疫情傳播模擬 2019-nCoV

基礎的 SEIR 模型

1 月 31 日,國際知名醫學期刊《柳葉刀》發表了中國香港科學家的工作 [3]。在該文中,作者採用了傳染病動力學中經典的 SEIR 模型來進行模擬。該模型將人群分為易感人群(Susceptible)、已被感染但無症狀處於潛伏期的人群(Exposed)、已表現出症狀但未被隔離的患病人群(Infectious)、康復人群(Recovered)四類(模型把死亡人數也歸到 R 中)。並假設他們之間按一定機率轉移。其狀態轉移圖如下:

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.1.SEIR 傳染病動力模型

該模型所涉及的引數主要為:可再生數 R0、平均潛伏期時間 DE 和平均收治時間 DI。其中,後兩種引數均可直接從官方釋出中獲得,而 R0,即一名被感染者平均每天傳染到的人數,其值較難估計。文章使用了 2019 年 12 月 31 日至 2020 年 1 月 28 日的感染人數資料,並根據境外(除香港)受感染人數及國際航班從武漢出境人數反推得 R0 為 2.68,採用如上模型推算出截止 1 月 25 日,武漢地區受感染人數約為 75815 人,預測疫情的拐點將在五月到來,並得出封城手段的採取對加快疫情緩解的作用不顯著的判斷。我們的觀察是,該項工作的模型與引數選取存在不合理性,主要是:

  1. 境外確診資料樣本量較小,且使用飛機這一交通工具的人群在總人口中並非均勻分佈,據此假設泊松過程來估計 R0 偏差較大;

  2. 考慮到政府防控措施的實施與升級,R0 的取值不應設為定值。儘管論文中假設戴口罩可以使 R0 減半並進行了一定的討論,但這樣的設定依然較為粗糙。

  3. 封城作為非常嚴厲的防控手段執行得非常徹底,必須在引數設定中有效的反映。

  4. 社群隔離措施作為後來使用的控疫手段也必須考慮。

最後一點(社群隔離)在現有的 SEIR 模型中無法模擬,為此,我們引入 C-SEIR 模型。

C-SEIR 模型及模擬分析

C-SEIR 模型 [4] 相比於 SEIR 模型主要有以下兩點改進:

  1. 慮政府的隔離措施,將人群進一步劃分出隔離患者和未隔離患者,隔離患者不具備傳播能力;

  2. 考慮政府措施的加強和群眾防護意識上升,病毒的基本可再生係數(R0)應該隨時間變化而不是一個固定值,因此透過真實資料擬合出病毒的傳染率曲線代替 R0。

針對第一點,C-SEIR 在 SEIR 的四類人群基礎上增加了兩類新的人群:被隔離疑似感染人群(P),已確診並被隔離的患病人群(Q)。注意在 P 類中的人包括新冠狀病毒的患者,也包括了症狀相似但未感染新型肺炎的人群,可以假設這一部分人群不具備向外傳染病毒的能力,即病毒的傳染能力只與 I 和 E 有關。同時,在考慮湖北省之外的省市時還需要考慮來自武漢的人群輸入。

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.2. C-SEIR 傳染病動力模型

對於第二點,首先定義病毒的傳染率函式β(t) 為每日新增的被傳染人數ΔE 除以未被收治的患病人數 I,考慮到新冠病毒在潛伏期可能也有一定的傳染能力,可以寫成公式為:

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

其中 k 取 0.1,表示潛伏期傳染能力是表現症狀時的 0.1 倍。為了確定β(t) 的具體形式, 我們首先使用衛健委公佈的每日確診人數以及估算的潛伏期時長反推每日的潛伏期人數和感染人數來計算β(t) 的估計值,再選取函式對資料進行擬合。

為了估計β(t),需要計算每天的感染人數 E 和發病人數 I。由於只能獲得新增確診人數的資料,所以需要以此為基礎,對 E 和 I 進行估計。我們按照論文 [4] 中的方法,假定病毒的傳代期和收治期和 SARS 相近,分別為 9 天和 3 天,也就是說,可以大致認為,第 t 天感染的人會在第 t+6 天發病,第 t+9 天被收治。由此即可估計:t ~ t+9 期間的總收治人數等於第 t 天的總感染人數,t ~ t+3 期間的總收治人數等於第 t 天的總髮病人數,從而計算出β(t) 公式中的各項,進而估計出β(t)。

在大部分傳染病的傳播過程中,傳染率β(t) 會隨時間指數衰減。我們使用指數函式,擬合逐日估計的β(t) 散點值。以北京市為例,擬合結果如下:

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.3. 北京市的感染率變化擬合曲線

可見,指數衰減的假設基本符合實際情況,能較好地描繪傳染率的變化。我們將全國各地的曲線畫在一張圖上,到 2 月 7 日 24 時,累積感染人數超過 200 的各省份的擬合結果如圖所示:

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.4. 疫情相對嚴重的省市的感染率變化曲線

從圖中可以看出,各省病毒傳染率的下降均非常快,反映了控疫措施的成效。其中,黑龍江與湖北兩省的曲線離群,黑龍江的感染率收斂值偏高,而湖北的感染率下降速率偏慢。黑龍江的情況可參考前面的分析;湖北作為疫情源頭,其感染率下降速度反映了該地區醫療資源的制約,控疫任務的艱鉅性。

C-SEIR 模型中的其他引數依賴於病毒的特性,如潛伏期長度、病程、死亡率、治癒率,還依賴於政府措施的實施情況,如隔離人員的數量、發病到確診所用的時間。我們使用與論文 [4] 類似的方法進行模型引數的確定,對湖北省確診人數變化的資料進行擬合,並預測其未來的發展,如圖 3.5 所示。

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.5. C-SEIR 模型預測曲線(基於湖北省確診資料擬合)

這裡,我們作出了兩條不同的預測曲線(藍色/綠色),其中實線為當天確診人數,虛線為累計確診人數。從圖中可以看出,儘管兩種引數選擇在前期都與實際確診人數(米黃色點)近似曲線吻合,並且拐點時間的預測非常接近,但是最終累計感染人數的預測相差非常大。這反映了一個事實:在發病初期嘗試對疫情走向進行預測往往十分不準確,不能因為模型的預測而過分樂觀或恐慌。

考慮到各地疫情的新增確診人數慢慢出現了拐點,我們也以北京市為例對新增確診人數進行了擬合,如圖 3.6 所示,採用了樂觀(綠色)和保守(藍線)兩組引數來預測。首先新增確診人數波動較大,因為考慮到上報的延遲可能導致新增確診病例出現聚集,平均來看可以看到新增確診病例確實有下降趨勢。值得注意的是,新增病例出現拐點並不意味著疫情會馬上消退,累計確診依然會保持增長趨勢,疫情的真正緩和由新增確診的長尾來決定。隨著生產活動的逐漸恢復,廣大民眾應該依然保持防護意識,不能掉以輕心

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.6. C-SEIR 模型預測曲線(據北京市新增確診擬合)

同β一樣,模型中的其它引數也可能在不停地變化,並且極易受到突發事件的影響。鑑於以上因素,利用該模型預測疫情峰值的具體日期只有參考價值。但是,透過半定量地分析具體引數,依然能夠為今後政府的防控和個人行為提供參考。

首先我們考察隔離措施的持續對疫情變化的影響。圖 3.7 對比了當確診人數達到峰值後,是否立即取消對密切接觸者的隔離對疫情的變化的不同效果。從圖中可以看出,如果立即取消隔離,會大大降低疫情緩解的速度,甚至出現第二個峰值,因此,保持高壓防控不動搖,是接下來疫情防控的重中之重

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.7. C-SEIR 模型預測對比:當疫情達到拐點後是否取消隔離

其次,每日新增被感染者中,已經被隔離者所佔的比例也具有重要的意義。我們動態地調整該值,如圖 3.8 所示。從該圖中我們看出,儘管對疫情峰值時間的影響並不顯著,但隔離比例降低會使得累積患病的人數成倍的增長。因此,為了更快控制疫情,我們需要保持積極響應與配合各種有效的隔離措施

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.8. C-SEIR 模型預測對比:已隔離人員佔患病者的不同比例

最後,我們試圖覆盤武漢封城這一控疫措施的有效性。我們利用該模型分析了武漢採取封城措施的時間點對疫情變化的影響,參見圖 3.9。從中不難看出,在採取隔離等辦法的情形下,封城的提前或推遲不會對疫情拐點的到來時刻產生大的影響,但卻會造成感染確診人數的大幅度變化。考慮到現實生活中有限的醫療資源,儘早地實施封城的措施是很有必要的。

拐點何時出現?這是北大面向新冠疫情的資料視覺化分析與模擬預測

圖 3.9. C-SEIR 模型預測對比:在不同時間點實施封城手段的疫情的影響

今天的《Science》報導 [5] 引用了柳葉刀的論文 [3],針對武漢封城的有效性提出質疑,所說的原因是武漢封城只將對其它城市的擴散延後 2.9 天。我們認為這不是正確的推理。首先,從我們的模型預測,封城並不改變峰值的時間,而是感染人數的總量,另外,不封城將造成對全國乃至全球更多的感染人群輸出,會更快更強的加大病毒的傳播

4. 總結

我們基於現有公佈的資料,藉助於傳染病動力學模型,得到下列結論:

  1. 武漢的封城舉措,對於降低病毒感染人數具有重要的意義;

  2. 自政府採取相關防疫措施以來,全國各省市的病毒傳染率均得到了較好的控制;

  3. 對疑似感染者的隔離觀察是疫情防控的重要手段;

  4. 即使部分地區疫情似乎出現了拐點,但控疫思維和手段不可鬆懈,要避免二次高峰。

我們的模型驗證了隔離的重要性,但如何有效的隔離是一個需要進一步探討的問題。嚴格來講,隔離只是針對疑似感染人群。所以,如果檢測裝置足夠靈敏便捷,人們的自我檢測與隔離的意識足夠強,理論上來講,社會的工作和生活秩序可以基本恢復正常而不會影響疫情的變化。從公共管理來講,如何進一步提高公共衛生水平,加強基礎設施建設;如何針對公共交通和重點公共場所做有效的疏導,都值得相關政府部門提前籌劃

疫情不同於病情,不僅關乎人們的身體健康,更是涉及到政治、經濟、文化、教育,以及人們的心理健康與生活質量等各個方面。疫情防控手段與社會各要素之間的平衡關係恐怕需要一個更復雜的計算模型來評測;如何在有效控疫與全社會利益之間找到一個平衡點,是一個更大的課題

由於篇幅有限,更多的資料和視覺化會持續在https://github.com/NCP-VIS 中更新,歡迎關注。

引用:

[1] 2019 新型冠狀病毒(2019-nCoV)疫情狀況的時間序列資料倉儲 https://github.com/BlankerL/DXY-2019-nCoV-Data

[2] 百度地圖慧眼-百度遷移 http://qianxi.baidu.com/

[3] Joseph T Wu, Kathy Leung, Gabriel M Leung. Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan, China: a modelling study. The Lancet (online first), January 31, 2020.

[4] Zhang J , Lou J , Ma Z , et al. A compartmental model for the analysis of SARS transmission patterns and outbreak control measures in China. Applied Mathematics and Computation, 2005, 162(2):909-924.

[5] Jon Cohen, Scientists are racing to model the next moves of a coronavirus that's still hard to predict. Science, Feb. 7, 2020

相關文章