專訪霍普金斯新冠追蹤網站創始人:如何突破不可靠信源收集資料,服務超10億日點選量

大資料文摘發表於2020-04-10

專訪霍普金斯新冠追蹤網站創始人:如何突破不可靠信源收集資料,服務超10億日點選量
大資料文摘出品
來源:Science
編譯:劉俊寰

全球疫情走勢仍然沒有放緩的趨勢,國外不少網站也紛紛開始追蹤病毒的傳播以及致死率情況,比如世衛組織的全球地圖(global map),《紐約時報》對縣級病例的統計等。

其中,約翰霍普金斯大學(Johns Hopkins University)是最早建立疫情資源網站的組織之一,早在1月,就迅速跟進資料來源,建立了視覺化網站,在抗疫初期起到了非常重要的作用。在幾個月的資料累積和報導中,網站已經建立起了自己的資源路線,即使在美國政府沒有提供可值得信賴的資料的前提下,也能收集到最新的疫情資料
 
疫情全球蔓延期間,這個看似簡單的網站每天點選量超過了10億次,世界各地的新聞機構和政府機構都在引用其資料。該網站儼然已經成了COVID-19病例資料的最權威來源

專訪霍普金斯新冠追蹤網站創始人:如何突破不可靠信源收集資料,服務超10億日點選量

網站連結:


從上圖可以看到,網站沒有花哨的設計,黑色底色的世界地圖各國和各地佈滿了紅色小圓圈,旁邊的資料圖表中明確地表示出了感染、致死和康復情況,疫情的走勢等。

這個網站是在霍普金斯大學系統科學與工程中心的聯合主任Lauren Gardner的主導下建立的,Gardner此前的工作涉及到了麻疹和寨卡病毒流行病的空間建模

4月3日,Gardner接受了ScienceInsider的採訪,當天,全球COVID-19病例突破100萬,死亡人數超過5萬人。

在這次訪談中,Gardner說了向讀者透露了哪些內容?和文摘菌一起來看看吧~

專訪霍普金斯新冠追蹤網站創始人:如何突破不可靠信源收集資料,服務超10億日點選量

現在市面上有很多追蹤COVID-19的網站,在你看來,你們的網站為什麼能夠脫穎而出?


可能因為我們的網站最早建立的吧。

我們在1月著手建立網站的時候,病毒還沒有擴散到全球,我的一名來自中國的研究生Ensheng Dong對這個課題很感興趣。我們花了幾個小時建立了一個簡單版本的網站,第二天,我把連結分享到推特上,突然就火了起來。

網站有數百個來源,從世衛組織的資料到新聞報導的彙總和社交媒體上的報導。如何確保準確性和不重複計算?


由於人們對疫情的關心,一旦我們離線,就會有人來聯絡我們,目前我們已經收到了數千封電子郵件。人們會在電子郵件中向我們披露一些最新情況,比如提醒某地新增了兩例確診。現在,我們有一個異常檢測系統,可以提醒注意系統自動收集的病例報告中的差異。

有人會將我們的資料作為原始案例反饋給我們,因此我們確實也會擔心重複引證。美國有一個新聞聚合平臺1point3Acres,我們經常從他們那兒獲取美國資料,作為交換,我們會給他們提供全球資料。

專訪霍普金斯新冠追蹤網站創始人:如何突破不可靠信源收集資料,服務超10億日點選量

不過,我們也必須對該網站提供的資料保持足夠的審慎態度

如果所有的地方衛生當局能夠持續改進疫情報告,那麼我們就可以直接從他們那裡而不是從當地媒體報告中提取資料了。

你們無法從疾病控制與預防中心(Centers for Disease Control and Prevention)獲得美國的疫情資料嗎?


CDC只會提供州級的資料,有時甚至會延遲24到48小時,縣級的資料是缺失的。

目前,團隊有多大?


最開始只有我的實驗室團隊,六個人的樣子。

早期,因為資料處理量過於龐大,Amazon雲伺服器不堪重負。現在,霍普金斯大學向我們提供了幫助,學校的應用物理實驗室提供了後端資料管理和技術的支援,擁有地圖軟體的公司Esri也來幫助管理平臺,霍普金斯大學的員工管理媒體和通訊。

儘管如此,目前小組的規模和我們正在做的事相比,還是小了很多

平時的工作量如何?會輪班工作嗎?


兩個多月的時間裡,我們一直在想,應該從哪裡收集資料,應該信任哪些資料,應該如何彙總這些資料,又應該如何進行驗證

最初,這些都是由我們手動操作完成的。現在,幾乎所有東西都可以進行自動的交叉檢查,網站資料每小時自動更新一次。我們還將在24小時輪換工作中處理伺服器和資料管理等問題,一些現居英國的博士可以值早班。

這其實是一項基於志願者的大型公共服務,我們也知道它並不完美,但我們想盡力把它做到最好

隨著COVID-19確診患者的增加,是否面臨著更多的工作?


實際上,系統是自動化的,現在的人工工作已經減少了很多。

我們正花費更多時間進行其他型別的研究,目前我幾乎90%的興趣和工作都回到了圍繞這種疾病的數學模型上。我們正在對美國發生的情況進行實時風險評估,旨在將這些結果反饋給決策者,“這些地方我們第二天應該重點關注”。

我認為我們可以做到這點。

你睡得好嗎?


做這件事很累。從一月份至今,我們的行程表基本一直都是滿的,我們已經把一些家居物品都搬進了實驗室,這種狀態至少還會持續幾個月

在我看來,我們還需要追蹤病毒至少一年的時間,關注病毒在世界各地的傳播情況,對此肯定要付出110%的努力

我認為在這個領域工作的所有公共衛生人員都是一樣的。

相關報導:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2685438/,如需轉載,請註明出處,否則將追究法律責任。

相關文章