淺談大資料在抗疫中的應用和啟示

wbhljpk99發表於2022-03-20

淺談大資料在抗疫中的應用和啟示

編輯導讀:新冠疫情發生以來,大資料、雲端計算、人工智慧等新一代資訊科技加速與交通、醫療、教育、金融等領域深度融合,讓疫情防控的組織和執行更加高效,成為戰“疫”的強有力武器。本文作者分析了大資料在抗疫中的應用,以及給我們帶來的啟示,希望對你有幫助。

淺談大資料在抗疫中的應用和啟示

一、概述

手機掃描健康碼,社群、鄉村工作人員精準排查來往人員;在機場、碼頭、車站,用大資料實現旅客行蹤可追溯;實時疫情地圖將疫情資料的空間特徵、時間特徵和數量特徵進行視覺化表達……

新冠肺炎疫情發生以來,大資料、雲端計算、人工智慧等新一代資訊科技加速與交通、醫療、教育、金融等領域深度融合,讓疫情防控的組織和執行更加高效,成為戰“疫”的強有力武器。

從疫情資訊統計分析,到流動人員健康監測、確診病例追蹤,再到疫情態勢研判、預測,大資料技術助力築牢疫情防控網,為科學防控、復工復產、民生保障等提供了有力支撐。

淺談大資料在抗疫中的應用和啟示

圖1:科技公司積極參與到抗疫行動中

資料來源:IDC中國,2020

二、大資料在抗疫中的應用

1. 構建知識圖譜,追蹤傳播路徑

大資料技術可以梳理感染者的移動軌跡,追蹤人群接觸史,建立知識圖譜,為精準定位疫情傳播路徑,防控疫情擴散等方面提供重要資訊。

追蹤移動軌跡、建立知識圖譜,已經是大資料領域比較成熟的技術。位置資料方面,除了航空、鐵路、公路、輪渡等交通部門統計的出行資料外,在使用者授權的前提下,電信運營商可以基於手機信令等包含地理位置和時間戳資訊的資料有效定位使用者的手機位置。網際網路企業也可以通過APP授權呼叫使用者手機位置資料。

此外,地圖、叫車、旅遊等APP提供的移動出行服務,電商、外賣平臺等APP內的送貨地址資料,以及銀行移動支付的IP、經緯度資料等都可以作為位置資料的有效補充。知識圖譜則可通過各類社交平臺、通訊網路、通話記錄、轉賬記錄等資料構建。

淺談大資料在抗疫中的應用和啟示

圖2:疫情傳播知識圖譜

資料來源:杜娟.新冠肺炎疫情防控中,大資料在發揮什麼作用?[J].大資料時代,2020(02):6-11.

將手機使用者不同時間段的授權位置資料進行縱向串聯,能夠有效繪製出移動軌跡。這類個體資料,可以追蹤被感染者的疾病傳播路徑、定位感染源,配合知識圖譜可以鎖定被感染者曾經接觸過的人群,以便及時採取隔離、治療等防控措施,避免疫情更大範圍擴散。

將同一時點不同個體的位置資料進行橫向整合,就能形成群體資料。利用資料分析、資料探勘等技術能夠準確刻畫跨地域漫入、漫出的不同類別人員的流動方向、動態及規模。

如果在百度遷徙地圖中輸入“武漢”這個城市,從1月10日春運大幕拉開,到1月22日春運第一階段高潮將要落下的時間點,從武漢(起始地)流向全國各地的城市客流量排名,與各地新型肺炎病例被發現的數量與時間早晚,有著一定的正相關關係。

淺談大資料在抗疫中的應用和啟示

圖3:1月15日從武漢流向全國各城市人員分佈

資料來源:百度地圖慧眼

利用群體位置資料製作疫情期間的人口遷徙地圖,可據此觀察各城市的人口流入、流出狀況,尤其是重點疫區人口流出方向。這些資料有利於定位疫情輸出的主要區域、預測地區疫情發展態勢、預測地區潛在染病人群,為疾病防控部門及地區政府有針對性地交通管制措施提供科學支援。

2. 大資料構建疫情發展模型

疫情期間,大眾密切關注疫情的傳播態勢。疫情還會傳播多久?感染者還會大幅增加嗎?哪裡感染風險高?何時能夠進入安全期?要解決這些問題,需要找出關鍵影響因素、分析疫情傳播特徵、搭建疫情發展模型,這其中大資料能夠發揮關鍵作用。

除了醫療資料外,疫情傳播往往還受到氣候、溫度、溼度、地質、交通、社會行為、城市衛生等多維度因素影響。大資料技術的發展使得這些影響因素均能以資料形態展示,同時使得多維度、大規模的資料處理成為可能。利用大資料實現上萬量級的影響因子建模,極大地豐富了疫情發展模型的分析維度。

SIR模型是傳染病模型中經典的模型,其中S表示易感者(Susceptible),I表示感染者(Infective),R表示移除者(Removal)。

傳播過程大致如下:最初所有的節點都處於易感染狀態,然後部分節點接觸到資訊後,變成感染狀態,這些感染狀態的節點試著去感染其他易感染狀態的節點,或者進入移除狀態。移除狀態,即免疫,處於移除狀態的節點不再參與資訊的傳播。

淺談大資料在抗疫中的應用和啟示

圖4:SIR模型傳播過程

假設易感染者,感染者,移出者之和是個恆量即 。病人康復後具有免疫力,人與人之間有相同的接觸率:

其中α,β都是以時間為變數的引數,α(t)為日感染率,β(t)為日移出率。參考多方資料後,假設α=0.0000003,β=0.0077266,I(0)=1,S(0)=1000000(其中感染率a和移出率β都是根據官方所提供的資料估算出,武漢市人口共有一千萬,假設十分之一受到此次疫情的影響)。

淺談大資料在抗疫中的應用和啟示

圖5:湖北省疫情情況統計表

資料來源:湖北省衛健委

模擬結果可以看到,21天到25天的資料,也就是截止到1月26日24時,預測的資料都是符合實際情況的。但是隨著疫情的擴張,感染率勢必降低,移出率勢必提高。因此,感染率α和移出率β不會是一個常數。另外該模型過於精簡,將真實情況過度理想化,還有很多需要改進的地方。

淺談大資料在抗疫中的應用和啟示

圖6:湖北省疫情模擬預測情況

如果利用採集到的出行軌跡流動資訊、社交資訊、消費資料、暴露接觸史等海量資料,藉助傳播動力學模型、動態感染模型、迴歸模型等大資料分析技術,就可以更為準確的預測疫情的發展情況,並對疫情的峰值拐點等大態勢進行判斷。另外還可以根據病患確診順序和密切接觸人員等資訊定位時空碰撞點,進而推算出疾病傳播路徑,為傳染病溯源分析提供理論依據。

3. 大資料探勘疫情輿論

疫情面前,疏解民眾的焦慮心理至關重要。由於資訊獲取方式、生活方式的改變,搜尋大資料已成為疫情之下了解民意的重要載體,每一條資訊背後的點選、每一次搜尋,都精準揭示了民眾的需求與問題。

疫情爆發的初始階段,“口罩”、“酒精”等搜尋增多,而疫區“心理疏導”、“咽喉痛”搜尋量激增74倍。隨著武漢封城,生鮮果蔬、防護物資、食品糧油、藥品等方面成為武漢及湖北人民搜尋的熱點,這也提醒當地政府需要保證相關物資的供應。

淺談大資料在抗疫中的應用和啟示

圖7:“心理疏導”成為百度搜尋熱點

資料來源:百度、CCTV

淺談大資料在抗疫中的應用和啟示

圖8:2月11日-2月26日武漢市民部分搜尋關鍵詞

隨著疫情防控形勢好轉,”櫻花”相關內容搜尋熱度超過”口罩”,反映出人們心理需求的變化:已經迫不及待地期盼走出家門擁抱春天。

淺談大資料在抗疫中的應用和啟示

圖9:“櫻花”成為百度搜尋熱點

資料來源:百度、CCTV

當下,復工復產的步伐正在加速。如何利用大資料,為各行各業和政府部門的決策提供參考,也至關重要。搜尋大資料反映了國內企業恢復生產的整體情況,給各行業有序籌備復工提供了可供參考的資料樣本。

淺談大資料在抗疫中的應用和啟示

圖10:復工復產新焦點

資料來源:百度、CCTV

在龐雜紛繁的資訊環境中,越是全社會聚焦的重大突發事件,主動搜尋的模式對於民眾獲取知識與資訊也就顯得越發重要。這一點在此次疫情中表現得也十分明顯。搜尋大資料樣本體量不僅足夠大,還更加多元。海量使用者產生的真實搜尋請求,潛藏著極具挖掘價值的資料金礦。因此,無論是疫情走勢判斷、居民的日常生活以及企業的復工情況,某種程度上都離不開搜尋的支撐。

眾多網際網路平臺都在關注疫情,為何只有搜尋能探測民意與輿論走向?當然,這其中最主要的原因還在於搜尋大資料能收集到海量的、具備分析價值的真實使用者的意願與行為。

關於真實使用者需求,有句話是“客戶不是要買電鑽,而是要買牆上的那個洞。”我們從啤酒與尿布的搭配銷售故事到口紅效應(因經濟蕭條而導致口紅大賣),都能看到大資料的威力。

2009年甲型H1N1流感在美國爆發的時候,谷歌通過觀察人們在網上的搜尋記錄完成了冬季流感預測,它所測算出資料也成為美國公共衛生機構所能獲取到的非常有價值的資訊,並且成為流感防控的一個更有效、更及時的指示標。

谷歌的行為本質上是平臺通過使用者行為精準挖掘探測到了其真實需求。對應到疫情下的新聞資訊平臺,短視訊平臺以及社交媒體,網民“眾聲喧譁”的背後,泥沙俱下,大量無用的社交資訊充斥,聒噪中夾雜著水軍與機器的操縱,資訊過載成為常態,它並不能真實的反應使用者需求與獲得真實民意反饋。而相對社交媒體等平臺的聒噪,搜尋的背後是大量的使用者主動求證行為,使用者此時在搜什麼,反應了使用者在想什麼,這些資料反映了人們的關切點,能更準確、及時地反應使用者真實意願。

搜尋像一面鏡子,能映照出民眾最迫切的需求,利用大資料處理和分析手段將有價值的資訊從不斷增長的海量資料中提取出來。通過對民意的洞察,可以提供一定的資料決策價值,輸出給地方政府與機構、民眾所用,做到“取之於民,用之於民”。

三、啟示

1. 大資料可用於業務場景分析與決策

疫情期間大資料在建立知識圖譜、疫情地圖、預測模型等方面起到了關鍵作用。大資料同樣可以運用到銀行業務中,從而更好的表達、分析金融業務場景的交易全貌,幫助銀行進行分析與決策。

  • 信貸領域的重點是獲客、身份驗證、以及授信環節。獲客需要建立使用者畫像,追蹤使用者的完整生命週期;身份驗證即通過活體識別、OCR等技術進行申請人的驗證的問題,任務關聯分析需要圖關聯技術,找出任務知識圖譜;授信環節更要匯聚多方資料來源,通過多維度歷史資料進行建模並取得風險定價,輸出信用分給金融機構。
  • 理財領域的重點是營銷獲客和智慧投顧。營銷與信貸類似,需要建立全面完整的使用者畫像,覆蓋完整的使用者生命週期,才能做到真正的智慧營銷、獲客;智慧投顧需要KYC和投借匹配,重點分析使用者風險等級及偏好,並進行KYC與KYP結合,進行智慧匹配。
  • 支付領域的核心是交易反欺詐,需要通過各種技術建立交易反欺詐引擎,並根據交易資料進行反欺詐引擎模型優化。

2. 大資料可用於服務優化

  • 輿情分析:銀行可以通過爬蟲技術,抓取社群、論壇等外部媒體上關於銀行以及銀行產品和服務的相關資訊,並對資訊進行正負面判斷,尤其是掌握銀行以及銀行產品和服務的負面資訊,及時發現和處理問題;對於正面資訊,可以加以總結並繼續強化。同時,銀行也可以抓取同行業的銀行正負面資訊,及時瞭解同行做的好的方面,以作為自身業務優化的借鑑。
  • 市場和渠道分析優化。通過大資料,銀行可以監控不同市場推廣渠道尤其是網路渠道推廣的質量,從而進行合作渠道的調整和優化。同時,也可以分析哪些渠道更適合推廣哪類銀行產品或者服務,從而進行渠道推廣策略的優化。
  • 產品和服務優化:銀行可以將客戶行為轉化為資訊流,並從中分析客戶的個性特徵和風險偏好,更深層次地理解客戶的習慣,智慧化分析和預測客戶需求,從而進行產品創新和服務優化。比如通過對還款資料探勘比較區分優質客戶,根據客戶還款數額的差別,提供差異化的金融產品和服務方式。

3. 資料能力是運用大資料的基礎

良好和豐富的資料是開展疫情防控應用的基礎。傳統衛生資料的採集起點通常是基層的社群衛生中心,通過社群人員手工填報,經歷區衛健委、市衛健委,最終彙集至省衛健委和國家衛健委。這種採集方式在大資料量面前暴露出了一些弊端。一方面增加了基層資料採集工作人員的負擔,降低了資料彙集的效率,另一方面難以在資料來源頭快速核驗資料的正確性,增加了後期資料質量管理的成本。

在疫情防控中也存在資料分散割裂、流通不足的問題。例如運營商各省級公司之間相對獨立,資料各自保管儲存,對資料的認知角度也截然不同,最終導致資料之間難以互通,形成孤島。這樣造成的後果就是每一個城市都有自己的健康碼,如果去其他城市就要面臨無法健康碼互認的問題。不打通這些資料,大資料的價值將非常難挖掘,只有不同資料的關聯和整合才能更好的發揮大資料的優勢。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015517/viewspace-2877227/,如需轉載,請註明出處,否則將追究法律責任。

相關文章