“經過全市大資料分析,您可能在5月30日(含)以後去過新發地批發市場……”隨著新發地市場新冠源頭被鎖定,近日來,大資料篩查,成為不少北京市民在朋友圈中熱議的話題一組資料顯示,截止6月17日,在行動軌跡一致的情況下,利用大資料分析相關風險人群位置和路徑,北京用了短短几天時間,就“找”出了30多萬人進行核酸檢測。

與年初武漢疫情爆發初期大資料分析人口流動相比,此次北京的“大資料篩查”,無疑體現了更高的技術含量,和更好的時效性,對疫情處置發揮了不可小覷的作用。

圖片顯示了5月29到6月12日到訪過新發地的人群,發現2430人到訪新發地市場並離開北京,其中有91人到訪上海。圖表還詳細列出了這2000多人到訪過的其他城市,包括廊坊、保定、天津等。(圖片來自網路)

精準查詢

三種手段鎖定新發地接觸者

從6月15日以來,不少路過或者去過新發地的北京市民,都接到了短息或者是社群電話,表示通過大資料篩查,確認被調查者近期去過或者路過新發地市場,要求如實填報資訊,並儘快進行核酸檢測。

那麼,什麼是“大資料篩查”?大資料又是怎樣找到新發地的路過者呢?大資料在此次疫情防控中起到了什麼作用?

大資料,顧名思義其實就是海量、大量的資料,這些資料來源於隨時產生的資料;而大資料又分為狹義和廣義兩種;狹義的大資料包括個人私人資訊、購物習慣、閱讀習慣等個人畫像;而廣義的大資料則是針對社會或者企業的,例如電商利用大資料分析顧客購物習慣,做好需求預測,提前佈局好倉庫儲存等等。

顯而易見的是,此次新發地的“大資料篩查”,就是廣義大資料與狹義大資料的一次有機融合,也是海量儲存和快速檢索技術的一次良好利用。

儘管官方並未公佈大資料篩查的具體方法,但中科曙光大資料總工程師首席科學家、儲存產品事業部副總經理宋懷明博士分析認為,北京之所以能夠實現利用大資料快速排查篩選新發地到訪者,有三種技術路徑可以實現。

首先是基於手機移動資料確定位置資訊,也叫基源定位方法,這是最常用的方法,也是此次新發地大資料篩查當中,效率最高的手段:不過基源並不是GPS,而是通過手機基站,與GPS使用時才開啟不同,手機會自動連線到距離最近的訊號發射塔,手機的所有活動,都能通過包含基站資訊的信令資料訊號發射塔篩查回溯,這為追蹤使用者的位置定位及路徑追蹤,提供了真實準確的第一手資料。

其次是通過社會交往資訊分析,這並不是指通過社交軟體資訊判斷,而是結合已有資料,通過電話調查、摸排走訪等方式,最終形成相對可靠的資料資訊,也可以在短時間內篩選出哪些人在新發地工作、哪些人曾經去過新發地、他們這幾天密切接觸了什麼人等等。

第三種方法是可以通過物品資訊確認,此次新發地篩查過程中,除了對經過者、密切接觸者的篩查,也排查了不少物品和貨品,在這個過程當中,通過對特定攜帶病毒物品的路徑和接觸者追蹤,同樣可以作為排查查詢到新發地密切接觸者的依據之一。但宋懷明強調,這種篩查方法的資料可能並不完全,而新發地是否真的利用查物的方法尋找接觸者,目前也不能完全確定。

在官方正式回應以外,此前網上還流傳著一種是說法“支付寶和微信提供資料,鎖定35萬人,幫助病毒篩查”但這則訊息很快就被兩方進行了官方闢謠。

對此,宋懷明認為,通過二維碼獲取交易記錄,可以確定交易使用者位置。但對於交易使用者的行動路徑追蹤,無論是支付寶和微信都無法實現。此外,新發地作為農產品大宗批發市場,還有很多其他交易方式是通過線上轉賬或者現金的方式進行,因此支付寶微信資料,最多隻能在大資料篩查當中起到一定的輔助作用。

技術革新

大資料助力流行病精準防控

除了篩查接觸到訪者,此次新發地疫情當中,大資料還起到了怎樣的作用?中國疾控中心首席專家吳尊友告訴北京科技報記者,在他看來,此次北京新發地新冠疫情過程中,大資料至少發揮了兩方面作用:一是將早期病例精準鎖定到新發地市場,及時發現傳染源,為疾病控制贏得了寶貴的時間。

二是對發現疫情以後,在去過高風險地區向外流動的人員的瞭解“包括暴露於環境,和接觸的人員,和密切接觸者,在北京的分佈,以及留出北京的情況,對於發現潛在感染者,阻斷傳播,起到了非常大的作用。”

實際上,不僅是北京新發地,在此次新冠肺炎疫情過程中,尤其是年初武漢疫情爆發之時,大資料篩查和分析,就對於疾病防控起到了相當重要的作用。

北京此次做到了精準分級,沒有‘一刀切封城’,而以街道為單位劃分風險等級,進行分級管控,大資料起到了關鍵的作用

疫情爆發之後,數家科技網際網路公司陸續通過資料和技術能力,給全社會提供了大量資料支撐;例如百度的遷徙資料,精準計算出離開武漢和滯留武漢的人數,為政府防控提供了決策參考;再比如12306票務平臺,利用實名制售票的大資料優勢,及時配合地方政府及各級防控機構,第一時間提供了確診病人車上密切接觸者資訊。

此外,利用大資料技術實現資訊共享、快速查詢,很多媒體平臺和網際網路平臺紛紛開闢了新冠肺炎動態更新、疫情展示和闢謠功能,使用者在魚龍混雜的資訊當中迴歸理性,讓權威資訊“跑”在謠言前面,及時安撫了公眾情緒,從另一個層面“抑制”了病毒蔓延。

在預防層面,針對人員聚集可以進行預警;在擴散源頭方面,把數學模型和人員社交特徵結合,可以很好分析擴散路徑與速度,制定更有針對性的對策與措施“北京此次做到了精準分級,沒有‘一刀切封城’,而以街道為單位劃分風險等級,進行分級管控。”宋懷明認為,這都是大資料起到了重要的作用。

與國內相比,在大資料預測分析流行病方面,國外已經有了比較成熟的探索和實踐,早在2008年,谷歌便釋出了“Google Flu Trends”(谷歌流感趨勢),利用關鍵詞追蹤技術蒐集資料,如果在某一地區的某一時間段內,有大量關於流感、發熱、感冒等關鍵詞的搜尋,就表明此地存在潛在的感染人群,需要引起相關部門的重視。

谷歌曾經開發了軟體,利用大資料分析流感趨勢,但最終以失敗告終(圖片來自網路)

2009年,墨西哥爆發的豬流感,研究人員也曾利用通訊資料監測,從而獲取公眾對於政府釋出的健康預警資訊的反應,以指導有關部門更好調整政策;2014年埃博拉疫情在西非爆發,研究人員同樣基於手機通訊資料建模,對傳染病的流行進行了判斷與分析。

不難發現,有了大資料+人工智慧加持的公共衛生領域:一方面在行動效率上更高更快,有效減緩了傳染病的傳播與擴散;另一方面,同樣可以起到,提供預測與分析的重要作用。

未雨綢繆

大資料應用如何“更高、更快、更強”?

新冠疫情情暴發後,大資料在疫情排查等方面得到迅速應用,國內各領域、行業、機構、部門紛紛利用大資料技術,加強互聯互通,加速了整個社會力量的整合,對疫情處置發揮了不可小覷的作用。

但大資料應用並非完美體,隨著疫情應對的深入,它也暴露出了不少短板,和仍需提高完善的之處。

首先是準確性問題,從目前的技術水平來看,大部分城市的大資料應用,聚焦在城市日常生活管理場景、基礎保障場景,例如在金融領域、安防領域、交通規劃領域等等;但在疫情期間,需要尋求解決方案的“突發公共衛生事件場景”,不可控的因素較多,很容易讓一些常規演算法暴露短板,甚至出現資料不準確的問題。

例如此次新發地防疫過程當中,由於大資料資訊無法準確分辨“去過”和“路過”新發地市場的區別,加上可操作時間較短,最終出現了“一刀切”的情況,有些乘坐公共交通工具途徑新發地的市民,也收到了要求進行核酸檢測的簡訊或通知,讓人頗感意外。

對此吳尊友認為,大資料篩查過程當中,由於時間較短,精力有限,的確存在一些錯誤判斷的情況,有些沒有危險暴露的市民,也被要求填寫資訊檢測核酸“但數量只是一小部分,目前首要任務還是控制疫情,未來還有改進提高的空間。”

宋懷明也認為,除了發簡訊以外,排篩查的手段也包括打電話、上門走訪和自我填報等等,目的就是為了最大程度減少在突發公衛事件當中,大資料應用的不準確性和不確定因素。

其次是大資料決策問題,宋懷明表示,從實際效果來看,大資料目前的作用,更多地依然停留在分析和輔助決策方面,只有很少一部分能夠進行自動決策“從資料角度來看,這樣的做法是更科學的,但從時間和效率來看,這樣的手段依然有較大待提升提高空間。”

出於防控需要,很多人的個人資訊被“暴露”在APP、小程式或是登記單、記錄本當中,哪些是合理採集,哪些又屬於過度採集,如果個人資訊洩露了怎麼辦?目前依然有待商榷(圖片來自網路)

在資料立法、資料安全方面,相關法律法規也不夠健全:記者瞭解到,國家層面目前還沒有出臺針對公共資料管理的法律法規,省市層面也基本處於各自為戰的局面,一些地方出臺了法律條例,一些地方僅僅出臺了規章辦法,還有一些地方並未就此立法。

這在無形中給資料安全和個人隱私性,帶來了不確定因素——疫情期間,多地出現了個人隱私洩露事件,引發了公眾的擔憂;出於防控需要,很多人的個人資訊被“暴露”在APP、小程式或是登記單、記錄本當中,哪些是合理採集,哪些又屬於過度採集,如果個人資訊洩露了怎麼辦?目前依然有待商榷,

實際上,加強資訊共享,消除資訊孤島,同時做好個人隱私和資料安全的保護,不僅對當下抗擊疫情至關重要,對實現政府決策科學化、社會治理精準化、公共服務高效化也有巨大的推動作用。

“未來要著力規範資料的所有權、使用權和使用規範,要保護好公眾的隱私和資料安全。”宋懷明強調,有關部門既要把握好公眾知情權,與保護公眾隱私之間的關係“也要儘可能的把公眾關心的資料全面、及時、準確地釋出出來,並充分調動社會力量積極參與,形成大資料共享的合力”。

自 科普中央廚房