來自: 統計之都

2014年時代雜誌的年度人物稱號由埃博拉患者護理人員獲得,在向他們致敬的同時,讓我們回顧一下去年這場飽受關注並且持續到今年的全球性傳染病事件。

2014年繼馬航客機失聯事件之後,始發於西非幾內亞的埃博拉病毒疫情經由傳統媒體和數字媒體走入全球公眾視野。據世界衛生組織提供的資料[1]顯示,埃博拉病毒最早在1976年同時爆發的兩起疫情中首次出現的,一起在蘇丹,另一起在剛果民主共和國。後者發生在位於埃博拉河附近的一處村莊,該病由此得名。該次埃博拉疫情在剛果民主共和國爆發的是扎伊爾標準亞種,累計318人患病,280人死亡,致死率88%;在蘇丹爆發的則是蘇丹亞種,累計284人患病,151人死亡,致死率53%;另外還有雷斯頓、象牙海岸、邦地布優等三個亞種,對動物和人類的危害相對溫和。據悉,目前正在肆虐全球的埃博拉病毒,正是致死率最高的扎伊爾標準亞種。

埃博拉病毒疫情時隔幾年便爆發一次,不過之前每次疫情規模都比較小,主要集中在一個地區爆發,並且侷限在中非。特別地,剛果民眾共和國史上曾多次爆發埃博拉疫情。

2014年3月開始爆發的埃博拉病毒疫情的爆發規模引起了國際社會的關注,並且被世界衛生組織列為“國際間關注的公共衛生緊急事件”(歷史第三次)。首先,這次疫情涉及到了多個國家和地區。全境範圍受影響的國家包括幾內亞、賴比瑞亞和獅子山。部分領土受影響的地區包括馬裡的卡伊,西班牙的馬德里,美國的達拉斯、德克薩斯州和紐約市,英國蘇格蘭地區的格拉斯哥市,奈及利亞的拉各斯哈科特港,以及塞內加爾的達喀爾。其次,這次埃博拉病毒疫情出現的病例和死亡數字超過了所有其它疫情的總和。截止2014年12月31號,累計20206人患病,7905人死亡[2]。並且數字還在不斷增加。而所有的埃博拉護理者,則被美國時代週刊選為2014年的年度人物。

回望過去幾十年,人類無疑在資訊、科技、生物、醫療等領域取得了今非昔比的成果。反觀2014年埃博拉病毒疫情的爆發、傳播、媒體報導、控制,我們不禁開始思考在這個大資料時代,資料、統計、理性思考、批判思維能為人類對疫情防控帶來什麼好處?這篇文章試圖從三個角度去闡述大資料如何與疫情防控緊密相連。本文第一部分討論瞭如何通過交通資料、行動通訊資料與社交媒體資料等非傳統公共衛生資料來測算乃至預測疫情風險;第二部分重點關注死亡率的不同估算方法帶來的對於疫情風險的不同認知;第三部分聚焦在埃博拉病毒疫情的治療和防控支出資料。

一、資料驅動的疫情預測

1. 由交通資料預測疫情[3]

全球人口流動的日趨頻繁使某區域爆發的疫情會給全球其他國家和地區帶來潛在的疫情風險,於是如何對此類疫情風險進行有效的預測和評估自然就成了一個值得探究的課題。本次埃博拉爆發的一個重大特徵即是,疫情通過交通運輸突破國境,在源爆發地幾內亞之外多國肆虐。對於國際間的人口流動,飛機顯然是最主要的交通方式,因此對機場人口流動資料的統計分析也就成了重中之重。

事實上機場資料也早已被很多領域的研究者們所重視,基於此類資料分析建模的案例也已屢見不鮮。對於埃博拉疫情傳播的分析,也有研究人員給出了他們的方法,其中一種就是通過估計引入風險(import risk)的方法來量化埃博拉對某一地區可能造成的影響。

對於引入風險的估計,最核心的問題便是如何通過動態模型或是統計模型將風險量化。這裡介紹一種比較直觀簡介的估計方式,首先把引入風險分為相對引入風險(relative import risk)和絕對引入風險(absolute import risk)。不妨假設X為疫情爆發區域的某個機場,而Y則是世界上任意一塊區域,那麼我們可以通過條件概率的形式來定義相對引入風險,即P(Y|X)。而對於絕對引入風險我們則可以通過聯合概率來定義,即P(X,Y)=P(Y|X)P(X),這裡需要注意的是P(X)往往遠小於P(Y|X),因此P(X,Y)也會遠遠小於P(Y|X)。在實際應用中,相對風險較絕對風險而言更有價值,其主要原因在於P(X)的估計在大部分時間都難以實現,事實上P(X)的估計需要依賴於大量的引數來描述X所在地區的各類因素,而絕對風險的估計卻恰恰依賴於P(X)。與此相反,相對風險的計算則僅僅需要各機場人口流動的資料即可,即無需考慮地區本身的相關因素。

將全球各地的機場資料整合後,人們即可以得到各地點相對引入風險的估計值,下一步則是考慮如何將分析結果向公眾展示。顯然資料視覺化往往是直觀有效展示分析結果的最佳方式,有人提供了一種基於D3實現的互動式網路分析圖表。(圖一展示了一個互動式圖表的截圖。有興趣的讀者可翻閱原圖。圖表連結:http://rocs.hu-berlin.de/D3/ebola/)

yq01

圖1

2. 由行動通訊資料預測疫情

埃博拉病毒在西非的爆發引起了全世界的關注,人們紛紛把注意力頭像了機場等引起人口流動的公共場所,正如上一節所說,機場資料的確對於流行病學家等研究者們而言具有極高的分析價值,但除此之外,基於手機移動端產生的資料同樣極具應用潛力。

使用者每次利用手機通話的過程中都會同時產生相應的通話記錄資料,其中自然也包含了電話號碼、通話時間以及大致的通訊地點等重要資訊。對於運營商而言,這些資料可以為各地基站的部署提供參考從而提升通訊網路。另一方面對於城市規劃者而言則可以基於該資料判斷相關地點是否需要擴充相應的公共交通設施。

然而除了上述這些相對常用的應用外,在流行病學的應用卻更令人期待,更激動人心。事實上到目前為止一般情況下對於疾病擴散建模的常用方法依然是基於人口普查的資料以及相關調查。然而對於通訊記錄資料,人們卻可以得到實時更新的資料,也就是說在實際應用中無需估計某地區的人口是否會遷移。同時幸運的是,在近幾年中確實並不缺乏類似的成功案例。2009年在墨西哥爆發的豬流感,研究人員就曾利用通訊資料監測公眾對於政府釋出的健康預警資訊的反應。此後2010年隨海地地震爆發的霍亂疫情,研究人員則同樣基於手機通訊資料建模並給出了最需要援助地點的最優估計。

在對於埃博拉病毒研究的實際操作中卻更為複雜,一個最主要的原因在於西非大部分民眾並沒有手機或者其他通訊裝置。不過儘管如此,某種程度上它卻依然優於基於陳舊資料的統計分析。事實上研究人員如果可以從一個傳染病爆發的地域追蹤到人口的流動,那麼對於下一個最有可能爆發傳染病的地點就會有一個比較有效的估計和預測,從而可以提前展開合理有效的資源配置。遺憾的是,儘管很多相關的機構都做了很大程度的努力,但出於隱私等問題的考慮,電信運營商依然不允許研究人員使用這部分資料。

3. 由社交媒體資料預測疫情 [4]

網路和社交媒體資料,對埃博拉病毒的預警,發揮了重大作用。HealthMap是一個利用大資料反應疫情的網站/應用,它使用一定的演算法來抓取來自社交媒體網站、本地新聞和政府網站、傳染病醫師的社交網路和其他渠道的資料,用於探測和跟蹤的疾病暴發。2014年3月14號,HealthMap通過自己的系統,預警了幾內亞境內爆發的“神祕出血熱”。2014年3月19號,HealthMap確認其為埃博拉病毒並對世界衛生組織發出警告,還給出了其在幾內亞東南部熱帶雨林地區傳播的粗略地點和路徑。2014年3月23號,世界衛生組織正式宣佈埃博拉疫情爆發並報告了第一個確診案例。在這時,HealthMap已經追蹤了在幾內亞的29例確診和29人死亡 ——所有資料和報告都來源於社交媒體和當地政府網站等。

HealthMap利用複雜而演算法,過濾不相關的資料,結合領域內專家的幫助,再對相關的資訊進行分類,確定疾病的型別並在地圖上定位爆發地點。針對這次埃博拉疫情,在世界衛生組織宣佈當天,HealthMap就上線了專門的頁面,其中包含一個實時可互動的地圖。全球網友可以通過這個可互動地圖來免費了解疫情,其中包括具體的暴發地點和跟蹤新的病例和死亡人數的資訊。該系統還能夠記錄公眾的關注度。使用者可以在地圖上放大特定的國家和地區,上面會標記主要病例報告。使用者點選標記會指向爆發的新聞報導。同時,在地圖底部的滾動條可以讓你通過點選關鍵日期,以追蹤病情進展。

這不是HealthMap第一次立功了。這個組織成立於2006年,由一組研究人員,流行病學家和軟體開發人員組成的團隊,利用網上各式各樣的資料來源,監測和預測的疾病暴發,並實現對公共健康威脅的實時監控。他們彙集了各式不相干的資料來源,包括網路新聞集中平臺,目擊者報告,專家策劃討論和官方驗證的報告。除了實時和可互動的呈現資料,HealthMap也致力於預測疾病風險。曾經有報導稱,該組織成功使用boosted regression tree等模型成功預測了SARS在中國境內爆發的死亡率。

HealthMap的官網宣稱,他們主要的資料來源是 ProMED(一個國際傳染病協會,成員主要為一線醫生和研究人員)郵件列表、世界衛生組織官網,GeoSentinel(來自國際旅行醫學協會和美國疾病預防控制中心的臨床醫生以個人身份的檢測)、世界動物健康組織官網、聯合國糧農組織、EuroSurveillance(歐洲地區以同行評審為目的的傳染病監測和交流的資訊平臺)、Wildlife Data Integration Network(一個全球野生動物基本新聞源)、谷歌新聞搜尋,百度新聞和搜搜資訊。另一份公開發表的論文顯示,大部分資料來自ProMED (61. 58%),谷歌等其他搜尋引擎新聞則貢獻了25. 24%,除此之外比較重要的來源還包括 RSS 訂閱(12. 11%), 推特等社交媒體(8. 7%)[5]。這和新聞中極力鼓吹的完全通過社交媒體預測埃博拉疫情,似乎還是有一定的差距。這個社交媒體並不是大眾所以為的普通公開社交媒體,而是全球一線醫護人員建立的社交網路。事實上,谷歌以及其他一些社交媒體都試圖通過抓取網路關鍵詞來監控和預測疾病資訊,但是並沒有取得如此好的效果。谷歌曾經宣稱自己的系統很好地預測了美國每一季的流感爆發,而實際資料顯示,他們的系統常常高估了患病率。普通人對疾病的感知和在社交網路的分享,的確不如實際病情那麼準確。另一方面,推特的資料顯示,埃博拉引起了美國使用者前所未有的恐慌,各州的討論數字一片飄紅,網路極端言論層出不窮。但實際上美國至今也只有4個確診案例和一個死亡案例。

來自以色列貝斯醫療中心的臨床資訊學專家Brad Crotty博士在接受採訪時說,HealthMap事實上還有很多工作要做,以排除“背景噪音”。這位專家並不是這個組織的成員。

Crotty博士說:“你的確可以得到早期預警,但他們並不總是正確的。”

而正在負責HealthMap運營的Sumiko Mekaru博士則稱,他們的本意是作為傳統和官方健康報告的輔助,而不是取代它們。

二、疫情死亡率的計算與估計[6]

死亡率的計算十分重要,特別是對於傳染性疾病。病死率在流行病學中是一個非常重要的估計指標,因為它告訴我們感染特定疾病後死亡的概率。如果正在爆發中的估算準確,甚至可以幫助我們確定病毒是否在危害性方面發生變異,以及研究最合適的治療方案。

正在西非乃至全球 肆虐的埃博拉病毒,有著眾所周知的高致死率。在以往 的爆發中,高達90%的被感染者死於埃博拉。和本次大爆發同宗的扎伊爾型埃博拉病毒以往平均死亡率為80%。這也是為什麼,世界衛生組織最新疫情報告中的資料看起來有那麼一丁點像好訊息—— 儘管埃博拉感染率正在以驚人的速度攀升,報告中整體死亡率卻只有53%,從獅子山的39%到幾內亞的64%。這比以往幾次疫情爆發要相對溫和一點。難道是這次爆發的病毒比以往的致死率與危害性低一點?還是說我們已經有了更有效的治療方案?

實際上此處有一個隱情:明顯降低的死亡率可能更多是因為官方測算方式的緣故,而非病毒的致死率,或者說患者接受的治療水平導致的。事實上,最近幾周感染人數的急劇增加,正是報告死亡率看起來不那麼高的其中一個主要原因。

官方所謂的死亡率,或者說一個爆發疾病的“病死率”,有若干計算方式。其中最為簡單的,就是目前死亡人數除以目前總感染人數。世界衛生組織最近報告的死亡率也就是這樣計算的。

但是這種方法並沒有考慮到,許多依然存活的病人——特別是剛剛被診斷又病得很厲害的——很可能也不能活下來。因此這低估了實際死亡率。特別是疾病在快速擴張時,這種低估效應會被加大。來自英國愛丁堡大學研究傳染病的進化生物學家Andrew Rambaut認為,這種計算也忽視了那些被確診為埃博拉感染者,卻在被批准恢復並出院之前已經離開醫院的患者的生死。許多這樣的病人後來都死了,但是卻沒有被統計在官方死亡資料中。

另一種計算方式是隻考慮已經確認恢復而不再需要治療與已經死於疾病的患者,而不計入目前還在治療中的病人。這樣的結果看起來更為剋制精確。根據11月5號獅子山健康與衛生部最新疫情報告,841個確診病人被治療後出院了,而1,103個確診病人已經過世。這樣該地的埃博拉死亡率應該是57%,而非世界衛生組織報告的39%。不過來自哈佛公共衛生學院的流行病學專家Marc Lipsitch認為,這樣的計算方式依然不夠準確。治癒出院的病人通常比死於病症的病人,要在醫院待更長的時間。也就是說不計入計算的還在治療中的病人,實際上是更可能治癒的那批。因此這樣的計算會高估實際死亡率。

另一種更為精確的方法是,只計算那些同時感染了,又經歷了足夠長的時間,以至於要麼死於病症要麼恢復出院的人的最終結果。這樣的計算,自然更接近於死亡率的定義與本質。Rambaut注意到,Science上一篇研究埃博拉病毒的最新變異的報告中,今年五月底開始的一次地區性爆發中共確診了78名埃博拉患者,23名存活下來。也就是說今年爆發的埃博拉病毒實際致死率應為70%。值得注意的是,這份報告由來自四個國家的五十多名奮戰在一線的醫療工作者共同完成,其中五名共同作者並沒有等到文章在Science上的發表。因為他們在研究與等待上線過程中已經感染了埃博拉去世了。

世界衛生組織戰略部主管Christopher Dye說,目前組織正在轉向這個測算方法,並在為將每一個病患的記錄都整理為護理案例而努力。Dye說,“我們需要最有效的估計。我們想知道埃博拉在這次爆發中的致死率,是否與之前在中非的幾次爆發有所不同,以及目前爆發中不同的治療方案是否有不同的效果。”

不過,即使這個方法依然是不夠完美的。在大多數疾病爆發中,由於病患並沒有尋求醫療機構的幫助而導致統計案例缺失,從而帶來致死率估計的偏差。Lipsitch認為,這種偏差可能是偏大的,也可能是偏小的。許多案例的病情相對溫和——感染患者並不需要看醫生就能自行康復——因此統計到的資料高估了實際死亡率(這正是墨西哥H1N1流感爆發時的情況,專家懷疑中東呼吸綜合徵爆發時也存在這種情況)。不過Lipsitch也說,溫和版的埃博拉不大可能像溫和版流感那樣難以發現,只是考慮到這些地方整體缺少醫療條件,有可能存在一定數量的自愈患者沒有被統計到。

另一方面,研究者注意到許多埃博拉感染者還沒去到醫院已經死在家中(通常還感染了其他家庭成員和照顧者)。這意味著他們的死亡並沒有被計算——從而低估了致死率。

到底有多少未被記錄的埃博拉病毒死亡病例發生,我們將永遠不得而知。衛生官員正在跟蹤疑似病例和可能病例,其中有許多是在被確診為埃博拉之前已經死了的。是否將這些案例放在致死率計算中是另一個潛在的誤差來源。另外,確診測試在不同的地區有不同的模式:例如,有些地方已經做了更多的驗屍測試。Lipsitch說:“怎麼在這些誤差中保持平衡始終是一個大問題”

Dye在一封郵件中寫道:“我們並非不知道估計死亡率的種種困難。我也並不認為,埃博拉的死亡率在獅子山的死亡率(39%)比在幾內亞(64%)低。儘管目前的資料從表面上看如此,但我們需要排除所有的估計誤差才能相信這個是事實。”

另外,最早根據社交網路大資料預測了今年埃博拉全球性爆發的HealthMap(前文有詳細介紹),則給出了死亡率另一種測算方式。他們認為,最準確的死亡率要等到疫情完全被控制,所有感染者要麼過世,要麼確認存活之後才能得到。目前報告的53%,只不過是死亡案例比例(proportion of fatal cases ,以下簡稱 PFC)。

儘管埃博拉惡名昭彰,但並不是一感染上馬上就死去。如果沒有適當調整,目前的估算方式(也就是前文提到的最簡單並正在被世界衛生組織採用的PFC)沒有考慮到從患者被感染到死去的滯後時間——按照HealthMap採用的獨創方差最優化方法,對本次爆發案例做出的估算,這個時間平均大約應該是16天。這意味著9月8號報告的2296名死亡案例實際上對應著8月23號報告的感染案例。根據這個滯後時間調整的PFC為我們提供了對真實致死率一個更好的近似。下圖是他們根據世界衛生組織提供的資料計算和繪製的調整後死亡率圖:

yq02

根據上圖,調整後的埃博拉死亡率——大約在80-85%之間——比實際報告的結果高多了。不過這個調整後死亡率和無國界醫生組織提供的資料比較一致。從今年三月份開始無國界醫生組織收治了2077名疑似感染者,其中1038名被確診,確診患者中241名康復出院,也就是說死亡率高達77%。

三、數讀埃博拉:醫療支出

對於全球防治埃博拉疫情所需的花費,目前有幾個資料或許可以給我們提供一點大概範圍。

第一個要提到的資料是聯合國今年九月份的調查報告。https://docs.unocha.org/sites/dms/CAP/Ebola_outbreak_Sep_2014.pdf

當時對抵抗埃博拉病毒的下六個月所需花費的估計是大概10億美元(987.8M)。花費主要在五個方面:

  1. 停止擴散(STOP the outbreak)[5M+23.8M]
  2. 治療患者(TREAT the infected)[331.2M + 14.0M]
  3. 保證關鍵服務 (ENSURE essential services)[107.7M+97.1M+2.5M+64.8M]
  4. 維持穩定(PRESERVE stability)[42.6M+23.4M+45.8M+3.2M]
  5. 防治未受感染國家被感染 (PREVENT outbreaks in countries currently unaffected)[11.9M]

 

這當然是9月份當時的估計,現在看來會不一定準確,但最少可以大家看清楚大概那些地方最需要花錢,大概要多少。同時也可以給有捐款的國家和個人一些需求的資訊。

第二個資料是關於治療患者的費用的。美國商業媒體Bloomberg釋出了一篇文章,標題是: Bill for Ebola Adds Up as Care Costs $1,000 an Hour(治療埃博拉的費用加起來有每小時一千美元)。 這個聽起來有點聳人聽聞。仔細一讀文章,原來講的是醫院在治療在美國德州去世的埃博拉病人Thomas Eric Duncan 時的花費情況。在對這位病人的醫治過程中,每天的花費大概在18,00024,000之間,報導時去上限,得到每小時一千美元的估計。我想花在給非洲的病人治病的花費肯定比這個數字要小太多。

第三個資料是關於誰出錢的問題的。這裡有個表,是對應當時下六個月所需的987.8M美元的來源的。http://data.163.com/14/1020/02/A8VGQE1600014MTN.html在當時的這些捐款中,世界銀行,美國,非洲發展銀行佔了大頭。世界上大多數國家都多多少少有貢獻。資金來源和用途的透明公佈有助於讓出力的國家,組織和個人對資金的合理運用有及時瞭解,這樣也可以促進更多的力量來加入抗擊疾病的戰鬥中。

yq03

小結

雖然最近關於埃博拉的報導不在像幾個月前那麼熱鬧,現在全球抵禦埃博拉疫情的戰役仍在緊張的進行中。在這個資訊時代裡,隨著我們收集資料和運用資料的能力的爆發,世界各個角落都緊密地聯絡在這個資訊網路中。資料和對其適當的分析已然成為人類征服自然界和適應自然界的重要力量。

[1] http://www.who.int/mediacentre/factsheets/fs103/en/

[2] http://apps.who.int/ebolaweb/sitreps/20141231/20141231.pdf

[3] http://rocs.hu-berlin.de/publications/ebola/index.html

[4] http://www.dailymail.co.uk/sciencetech/article-2722164/Ebola-flagged-computer-software-nine-days-BEFORE-announced-HealthMap-used-social-media-spot-disease.html

[5] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4198292/

[6] http://news.sciencemag.org/africa/2014/09/how-deadly-ebola-statistical-challenges-may-be-inflating-survival-rate

via: 統計之都