一文了解大資料在國內外疾病監測與預防中的應用現狀

AIBigbull2050發表於2020-08-11


2020年,一場新冠疫情使多個國家公共衛生系統不堪重負,暴露出應急處置能力的薄弱等問題,改革和加強公共衛生事件應急處置已成為全球關注焦點。今年2月,習#總#書#記來到北京市朝陽區CDC進行調研指導時指出:“這場疫情對全國各級疾控中心的應急處置能力是一次大考。這次抗擊疫情鬥爭既展示了良好精神狀態和顯著制度優勢,也暴露出許多不足。要把全國疾控體系建設作為一項根本性建設來抓,加強各級防控人才、科研力量、立法等建設,推進疾控體系現代化”。

現代化的疾控體系離不開大資料、人工智慧等新興技術的加持。對於公共衛生部門,可以透過覆蓋全國的患者電子病例資料庫,快速監測傳染病,進行全面的疫情監測,並透過整合疾病監測與響應程式,快速進行響應。大資料在常態化監測、疫情預警處置、趨勢預測研判、傳染源追本溯源、資源調配和防控救治方面都能起到至關作用。

如今,全世界各國都深刻認識到健康醫療大資料作為國家基礎性戰略資源重要性,爭相建設國家健康醫療資料庫,搶佔醫學研究、精準診療和尖端移動裝置前沿陣地。2016年,在原國家衛生和計劃生育委員會牽頭下,逐步建設國家基因庫,落實1個國家資料中心、5個區域資料中心、X個應用發展中心(即“1+5+X”)健康醫療大資料規劃,催生新業態、促進新經濟。

一文了解大資料在國內外疾病監測與預防中的應用現狀

一、大資料在我國疾病監測領域中的應用現狀

2003年SARS爆發,暴露了我國傳染病監測報告資訊嚴重滯後的問題,暢通的疾病監測資訊網路成為疾病預防控制資訊建設的當務之急。因此,自2003年後,我國啟動了應急管理體系建設,其核心是圍繞“一案三制”,建立“國家統一領導、綜合協調、分類管理、分級負責、屬地管理為主的應急管理體制”。其中,“一案三制”是指國家突發公共事件應急預案體系及國家應急管理的體制、機制和法制。2004年初,以現代網路傳輸技術為依託,以“橫向到邊、縱向到底”連線全國各地為原則,以統一、高速、快速、準確傳遞資訊為目標的中國疾病預防控制資訊系統初具雛形。

2020年新冠疫情爆發,很多人質疑為什麼從2004年開始執行、當時耗資7.3億元巨資建設的國家傳染病與突發公共衛生事件網路直報系統沒有發揮預警作用。事實上,疾控直報專網並非沒有發生作用。據媒體報導,疾控直報專網的資料來源完全取決於上報資料,由於種種因素,疾控直報專網無法與醫院內部網路進行直接連通。由於採集不到資料,這一系統自然無從發揮功能。2月3日,衛健委釋出了《關於加強資訊化支撐新型冠狀病毒感染的肺炎疫情防控工作的通知》。各地衛健委根據通知不斷改進採集方式,多數醫院開始採用網路直報的方式,總算逐漸發揮了專網的作用。由此可見,對於大資料來說,真實的資料來源是極其重要的一步。

在醫療健康資料庫方面,2006年我國開始建設國家醫療健康資料庫,整合區域範圍內醫院、基層衛生機構及公共衛生機構的各類資料,形成以個人為中心的全生命週期電子健康檔案庫。2015年,原國家衛計委啟動了十省互聯互通專案,我國約50%的委屬醫院,42%的省屬醫院和38%的市屬醫院已啟動醫院資訊平臺建設。2016年,原國家衛計委啟動“1+5+X”健康醫療大資料發展規劃,建設江蘇省(東)、貴州省(西)、福建省(南)、山東省(北)以及安徽省(中)五大資料中心。2017年,原國家衛計委牽頭組建醫療健康資料三大集團,包括中國健康醫療大資料產業發展有限公司、中國健康醫療大資料科技發展集團公司及中國健康醫療大資料股份有限公司,以承擔國家健康醫療大資料中心、區域中心、應用發展中心和產業園建設任務。

在生物資料庫方面,國家基因庫2016年正式建成,該基因庫集生物資源樣本庫、生物資訊資料庫和生物資源資訊網路為一體。福建省和江蘇省作為國家健康醫療大資料中心的“先行者”,立足自身優勢,逐步建立了政策保障體系和資料平臺。

總體來說,在傳染病防控工作中讓AI+大資料技術發揮作用,既需要打通行業內“部-省-市-區縣”自上而下的垂直領域資料,又要橫向打通跨行業部門“資訊孤島”。從頂層設計就要實時結構化資訊互聯互通,業務聯防聯動。

一文了解大資料在國內外疾病監測與預防中的應用現狀

在今年防疫過程中,有幾個企業助力疾控中心、醫院建設疾病與監測預警系統值得參考。

比如,北京大數醫達為南京市疾控中心建設的疾病與監測預警系統便直接打通連線了當地醫院的電子病歷系統(EMR)。這一疾控監測預警系統應用了大數醫達最先進的大資料和人工智慧技術,對醫學知識圖譜建立模型,再直接提取EMR進行語義結構化,由人工智慧匹配知識庫判斷EMR中是否包含新冠肺炎等傳染病的關鍵詞。一旦被人工智慧判斷為疑似或者是高度疑似則上報疾控部門,避免醫院因故遺漏或者遲報。

系統直接打通並連線到醫院的EMR,作為省市疾控中心的上報分析、資料彙總及預警分析系統。它具有很細的顆粒度,除了40種法定傳染病,也支援各地區自己補充當地認定的多發性傳染病。同時,系統結合歷史疾控資料進行學習,並結合區域密度和人口流動率等大資料,可以對疑似資料對傳染病的發展速度及分佈區域等進行預測,從而為疾控決策給出參考資料。

大數醫達為江蘇省承建的這套系統原本是為春季流感高峰而準備,沒想在這次更加嚴重的新冠疫情中發揮了作用。根據統計,如果以疫情爆發的中心城市武漢為原點,沿著高鐵線路畫一條半徑約為2小時的圓圈,可以清晰地看到各個地區疾控水平並不一樣。相對而言,江蘇省的新冠疫情控制的就比周邊要好很多。

另外,也有企業試圖解決醫生在當下傳染病報卡中的痛點。目前醫院的傳染病監測報卡系統不夠智慧、對醫生的干預方案不夠有效、醫院傳染病疫情管理部門對傳染病遲報漏報篩查耗時耗力,長沙雙數科技經過熟練的實踐,認為這些痛點可以利用大資料解決。在長沙雙數科技的傳染病疾病智慧監測解決方案中,首先彙集EMR、實驗室資訊管理系統(LIS)、醫學影像存檔和通訊系統(PACS)及醫院資訊系統(HIS)四大系統診療資料,再運用雙數傳染病專家知識庫、語義分析技術,對診療資料進行傳染病疾病相關特徵提取、標記。其後,使用傳染病疾病分析模型對特徵進行分析比對,從而認知傳染病。一旦認知到傳染病病例,系統即時推送或延遲推送到具體醫生電腦前端,並可強制鎖死系統要求醫生必須完成重要的傳染病報告。

這一傳染病智慧監測解決方案還實現了關口前移,把疾控直報專網上報的校驗邏輯全面前移到醫生填寫傳染病報告的階段。校驗不過就完成不了上報,這樣就有效解決了報卡完整性和準確性問題。醫生完成報告傳染病報卡後,資料完整準確的傳染病報卡經醫院傳染病疫情報告人員稽核後再上報至疾控直報專網,也解決了及時性的問題。在解決醫生傳染病報卡的基礎上,雙數科技進一步實現了從醫院內網至疾控直報專網的一鍵直報功能。2017年5月,中南大學湘雅醫院利用該系統實現了傳染病報卡醫院內網一鍵直報功能,耗時不到3秒。這在當時也是極個別可以實現內網直報的案例。目前除了湖南省的中南大學湘雅醫院外,重慶醫科大學附屬兒童醫院和貴州遵義醫科大學附屬醫院均已採用內網一鍵直報的方案。根據統計,利用大資料和人工智慧的雙數傳染病監測方案可以將杜絕遲報漏報的有效率做到95%以上;將醫生的平均傳染病報卡所耗時間從以往的5-8分鐘大幅降低到40秒以內;疾控直報專網上報所耗時間也從2-3分鐘縮短至幾秒鐘。

事實上,武漢大學中南醫院也剛剛在去年採用雙數傳染病監測方案,並在後續的疫情報告效率上體現出了優勢。不過,在突發性的未知傳染病早期預警上,雙數科技認為對單個醫院的資料分析的結果、在說服力還是相對不足。相對而言,雙數科技認為區域一體化傳染病疫情預警監測方案是應對區域重大傳染病最好的建設方案。目前,雙數科技已經完成了區域一體化傳染病疫情預警監測方案的研發,已經在其他省市加快部署計劃,希望能為中國整體的傳染病資訊化程式探索新模式。

繼這次新冠肺炎疫情之後,我國開始意識到建立突發公共衛生事件的全國性長效管理機制的重要性,多個省份紛紛出臺疾控體系改革措施,強調要充分利用大資料、人工智慧等新興技術。比如今年7月,湖北省衛健委牽頭起草了《關於改革完善疾病預防控制體系的實施意見》等4個配套檔案。檔案提出,湖北將建立以網路直報、輿情監測、醫療衛生人員報告、可疑病例討論報告、科研發現報告、零售藥店藥物銷售等資訊為基礎的多渠道監測預警機制。並且,下一步將實現健康相關資料的自動抓取,利用“大資料+網格化”等手段,開展精準流調,實施精準防控。探索健康相關資訊與醫保、農業、生態環境等部門相關資訊的協同共享,運用人工智慧、大資料、雲端計算等,在監測預警、病毒溯源、趨勢預測研判、資源調配等方面發揮支撐作用。

一文了解大資料在國內外疾病監測與預防中的應用現狀

二、大資料在西方國家疾病監測領域中的應用現狀

有系統的疾病監測工作開始於本世紀40年代末的美國疾病控制中心(CDC)。1968年第21屆世界衛生大會(WHA)討論了國家和國際傳染病監測問題。70年代以後,許多國家廣泛開展監測,觀察傳染病疫情動態,以後又擴充套件到非傳染病,並評價預防措施和防病效果,而且逐漸從單純的生物醫學角度發展向生物-心理-社會方面進行監測。

在醫療資料方面,由於美國、日本等很早就開啟了診療數字化的程式,以幫助醫護人員提升工作效率,降低工作強度,也因此積累了大量高質量的資料。比如美國的電子健康記錄系統(Electronic health records,EHRs),十年內積累了1000萬名病人的記錄。其中包括疾病診斷記錄、病人用藥效果、基因資料、家庭病史等重要資訊。2011年之後,日本醫療資料也已經全面採用電子化報送系統,個人可以透過網路隨時查閱雲端儲存的各種醫療資訊。

目前,已開發國家已搭建較為成熟的健康醫療大資料平臺,並在有效管理和技術升級上展開激烈競爭。美國擁有完整的醫療健康大資料庫,建成覆蓋本土的12個區域電子病歷資料中心、9個醫療知識中心、8個醫學影像與生物資訊資料中心。英國斥資55億英鎊建設全國一體化醫療照護資訊儲存服務系統,收集和儲存了超過23000個醫療資訊系統資料,覆蓋超過5000萬居民醫療資訊,並已為130萬名醫務人員提供服務。丹麥成立國家生物銀行,集中和管理了超過700萬生物樣本,樣品可經倫理委員會審批使用,供科研人員研究流行病學和疾病圖譜。日本實施國立大學醫院醫療資訊遠端傳輸網路系統計劃,福山大學附屬醫院累計收集超過1700萬病歷記錄和1.43億件用藥處方及300萬件病名,可實現處方自動分析和匹配功能。

在利用大資料、人工智慧實現疾病監測與預警方面,目前已開發國家有多個成功案例,比如在新冠疫情大爆發之前,12月30日,波士頓兒童醫院(Boston Children's Hospital)的自動健康地圖系統就釋出了中國境外首次有關這種新型冠狀病毒的公共警報。這套系統就得益於人工智慧技術自然語言處理的支援。透過掃描線上新聞、社交媒體報導和政府報告,尋找傳染病爆發跡象的早期預警系統,並將預警的嚴重程度分為5級(新冠被定為3級),從而可以幫助WHO等在語言障礙可能出現的情況下率先洞察疫情。

放眼全球,2003年英國帝國理工學院研究人員基於SARS流行病學調查資料,構建傳播動力學模型;2004年美國約翰·霍普金斯大學應用物理實驗室的研究人員開發了基於社群的疫情早期監測與報告系統ESSENCE;2009年美國華盛頓大學基於美國H1N1疫情資料,建模構建了H1N1家庭和學校傳播的流行病學引數(基本再生數和世代間隔)。現階段,如WHO全球流感監測網路、谷歌流感趨勢(Google Flu Trends),都是值得研究和學習的案例。

此外,在利用機器學習追蹤病原體軌跡方面也有多項成果。比如美國卡里生態系統研究所就針對2000多種齧齒類動物建立了一套龐大的資料庫,並訓練AI認知它們的生活歷史、生態環境、行為、生理特徵和地理分佈情況。併成功透過該模型,發現了超過150種新的潛在齧齒類動物和超過50種新的活躍型動物,可能攜帶多種病原體並傳染給人類。由此,可以繪製出影響各種疾病的齧齒類動物分佈,以及容易被新生寄生蟲和病原體傳染的熱點地區,以便實現疾病的早期預警監測。

在追蹤人流去向方面,不同於中國在應對新冠疫情時透過大資料+AI對重點人群進行行蹤溯源預警,其他國家的AI主要表現為演算法預防。比如英聯邦科學與工業研究組織使用貝葉斯推理開發了Data61模型,用以追蹤將昆士蘭州登革熱病毒是如何傳播到澳大利亞,並如何在人與人之間轉移。藉助昆士蘭州衛生局提供的15年內匿名記錄的登革熱病例來進行訓練,Data61可以綜合判斷多種人員流動資訊,比如航空公司乘客資料、地理標記、社交媒體、旅遊情況等等,從而預測可能發生疫情的時間和地點,讓醫療機構早做準備。據說,該模型還可以用於預測萊姆病、埃博拉和瘧疾等人畜共生的疾病。

不過,儘管歐美國家更加長於演算法,由於隱私法案的影像,歐美許多地區禁止採集公眾資訊,對人臉識別等前沿技術的使用也出臺了相關限制,這在一定程度上保護了公眾資訊保安,而另一方面,由於社會智慧化的防範與遲緩,也使其在面對大型公共衛生事件時,展現出了應對能力薄弱、救災過程滯後、人員有限重複勞動等問題,在防疫效率上還有很大的提升空間。

一文了解大資料在國內外疾病監測與預防中的應用現狀

三、當前健康大資料所面臨的挑戰

繼大資料在抗疫過程中表現亮眼後,如今多個省份地區都將利用大資料、人工智慧實現現代化疾控作為發展計劃,可以遇見健康大資料將會快速應用到公共衛生領域,但同時也面臨了諸多挑戰:

1、健康大資料使用中的安全、保密、共享、開放等醫學倫理問題

健康大資料不可避免地涉及人群的隱私資訊,包括身體現狀、健康史、個人資訊、甚至基因、蛋白資料等。如若洩漏,極可能會使患者個體的日常生活受到難以預料的侵擾。2018年,《資訊保安技術個人資訊保安規範》中提出了保護個人資訊保安應遵循的原則,但缺少針對醫療隱私保護的詳細法律法規。而涉及到病人資料這類高保密級別資料,就對隱私保護、系統安全提出了更高的要求。

2、突破大資料的關鍵技術

如今,半結構化和非結構化的資料量在呈幾何級數量增長,傳統的分析技術面臨著較大的衝擊和挑戰。資料的廣泛存在性使得資料越來越多的以不同的形勢散佈於不同的系統和平臺之中。為了便於進行健康大資料分析,需要解決資料的多源異構性、資料的質量問題,各方面產生的大資料有待進行有效整合。此外,資料資訊孤島問題始終普遍存在,標準化難以實施等技術和非技術困難尚未得到有效徹底地解決。

3、甄別健康大資料中的使用誤差,提高精度

大資料疾病預警也有可能產生“大錯誤”,它就如同汽車報警器一樣,既容易觸發,也容易被忽略。一個主要的原因是,不同機構、不同平臺的資料都可能會阻礙演算法。哈佛大學(Harvard University)流行病學家Andrew Beam表示,掃描線上報告中的關鍵詞有助於揭示趨勢,但準確性取決於資料的質量。比如谷歌就高估了AI對流感的流行程度,偏差超出了實際值的50%。最後在2015年關閉了該網站,並將其技術交給了HealthMap等非營利組織。

4、健康大資料框架應有頂層設計

一直以來,公共衛生與預防學學科強調“三級預防”,但作為政府行為的“零級預防”非常關鍵。從星羅雲佈的大資料中透過分析快速獲得有效資訊,並及時為公共衛生決策提供依據,是一項基礎、長遠的工作,需要政府層面的長期鼎力支援。健康大資料框架需要國家層次進行頂層設計,擔負相應責任。政府可以加強科學引導,開放平臺邀請更多社會資本參與,整合力量共建國家健康大資料研究中心。

編輯:文婧

校對:龔力

—完—


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2710294/,如需轉載,請註明出處,否則將追究法律責任。

相關文章