文|楓葉松木木
通常大資料是指資料量和資料維度均很大,資料形式也很廣泛,如數字、文字、影像、聲音等等。在醫學領域,隨著資訊化的不斷深入,醫學資料也越來越豐富,其中醫學影像資料是一個十分重要的組成部分,而且,醫學影像資訊被數字化、資料化後形成了豐富多樣的、儲存量龐大的醫學大資料。今天,我們就討論一下利用醫學影像大資料推動智慧化醫療發展方面的話題。
IBM的智慧醫學影像分析專案-Watson計劃
據報導,IT巨頭IBM將以10億美元收購醫學成像裝置提供商Merge Healthcare,後者主要幫助醫生和醫院儲存和分析CAT斷層掃描、X射線以及其他醫學影像。IBM計劃將Merge的技術整合到自身的Watson人工智慧技術中去。IBM認為,Watson的認知計算能力在醫學造影方面完全可以辨別患者應該接受X射線、CAT還是核磁共振,現在獨缺的是客戶以及醫學影像資料,而這恰好也是Merge可以提供的資源。
目前醫療資料中有超過90%來自於醫學影像,但是這些資料大多要進行人工分析。如果能夠運用人工智慧技術分析醫學影像,並將影像與醫學文字記錄進行交叉對比,就能夠極大地降低醫學診斷上的失誤,幫助醫生精準診斷,挽救患者生命。
IBM 的Watson計劃想法很好,但是依然存在著諸多挑戰。最大的問題在於如何證明這個計劃的效果,如何向健康保險公司證明對於Watson的投資物有所值。具體地說,Watson計劃能否真正地讓患者得到準確的診斷,傳統的放射科醫師忽略的診斷方面的問題能否讓IBM的智慧技術發現。
中國人“數字肺”專案
我們再回過頭來看看國內。進入數字化時代,數字化、標準化、網路化、海量儲存和大資料的應用,已成為醫學發展的主流方向和重要標誌。大資料的發展要求醫院要改變傳統的醫療模式-把疾病的早預防、早診斷、早治療等服務放在第一位考慮。隨著人們期待更好的醫療衛生保健服務,從出生到死亡的全程醫療服務也已經成為了醫療管理新模式的發展方向。通過網際網路絡把預防、診斷和臨床作業過程納入到數字化網路中,實現這些重要任務的核心環節就是醫學影像資訊化,充分體現大資料、實時線上、多點傳輸與共享給現代醫療帶來的好處。
據報導,由北京醫院等國內知名大醫院聯合與合作,開展了中國人“數字肺”專案-“基於醫學影像大資料的呼吸系統疾病輔助診斷平臺”。專案以構建具有統計學意義的中國人“數字肺”,揭示支氣管、肺血管和肺實質結構與不同主要肺部疾病之間的關係,通過採用資料探勘與量化分析技術,分析、處理和量化COPD、支氣管哮喘、支氣管擴張、肺間質性疾病、肺栓塞和孤立性肺結節的評價體系和診斷標準。目前,該專案已經在健康成人支氣管樹不對稱分叉特性的研究、低劑量CT掃描的對支氣管定量測量的評價研究、吸菸對肺組織損傷的縱向研究、肺血管改變與肺氣腫定量的動態評估等方面取得了進展,獲得了一系列卓有成效的研究成果。
影像大資料-早期肺癌篩查平臺
在大資料盛行的今天,大型影像診斷裝置結合大資料分析提供更準確的診斷報告顯然是越來越可行和越來越可靠的事情。據報導,由上海多家大型醫療機構合作開展了“上海地區早期肺癌的影像學篩查及診斷研究”專案。該專案通過多家醫院多中心採集、共享並研究早期肺癌病例資料樣本,制定早期肺癌高危人群預警指標,進而建立一套肺癌篩查及早期診斷的最佳方案和標準流程。同時,在多中心研究基礎上,建立可擴充、可挖掘的上海市早期肺癌患者資料庫。該平臺涵蓋調查問卷、患者資訊管理、影像閱覽、肺結節CAD檢測、結構化診斷報告、遠端會診、病人隨訪、統計分析等篩查全過程,為研究專案提供堅實技術基礎。目前,該早期肺癌篩查平臺已實現上海多家三甲醫院資料互聯,支援多家醫院線上實時會診、資源共享;此外,通過人工智慧技術自動精準識別小肺結節,可幫助醫生減少漏診。
針對早期肺癌難以發現、容易漏診的問題,該早期肺癌篩查平臺融入了肺癌計算機輔助檢測(CAD)引擎,可自動精準識別影像中直徑更小的肺結節,計算並提供結節大小、密度等量化引數供醫生參考。同時,參考世界先進成熟的肺癌篩查平臺,採用結構化報告,實行“雙盲模式”—第一份報告不參考CAD檢測,作為初診,第二份報告參考CAD,完成終審報告,人機相互對照參考,改變以往早期肺癌篩查中醫生僅靠主觀診斷的篩查模式,以減少漏診機率。
影像大資料探勘
資料探勘從資料形式和相關技術上說,大致可以劃分為結構資料探勘和非結構資料探勘。所謂結構資料探勘是基於結構化的資料基礎上的知識發現,例如我們常見的關係型資料,包括數值型資料、字元型資料、日期型資料等等,應用相關的資料探勘技術對這些關係型資料開展分析。而所謂非結構資料探勘是基於非結構化的資料基礎上的知識發現,例如我們常見的自然語言文字資料、各種影像資料、各種音訊資料等等,基於這些型別的資料開展資料探勘分析。
醫學影像資料探勘就是非結構資料探勘的一種,它有如下幾個主要特點:
1. 影像資料一般具有相對的含義,而結構化資料一般具有絕對的含義。
2. 影像內容的理解具有主觀性的特點,對影像資訊可以有多種不同理解,並依賴於影像表示方法和應用領域專業知識。
3. 影像資訊中包含影像資料物件的空間關係資訊。
從目前的影像資料探勘技術的現狀來說,原始影像一般還不能直接用於影像資料探勘分析,必須進行預處理,以生成可用於高層次挖掘的影像特徵庫。影像資料探勘的一般流程通常包括影像的儲存、影像的預處理、影像的搜尋、影像的挖掘和展示等步驟。
影像資料探勘方案
目前,影像資料探勘方案主要有功能驅動型模型和資訊驅動型模型。
所謂功能驅動型模型是以不同的功能模組來組織,功能驅動的影像資料探勘是針對具體應用的特定要求來設計資料探勘方案的,通常包括:
1. 影像採集模組-從影像資料庫中抽取影像資料;
2. 預處理模組-提取影像特徵,並把特徵資訊存放在特徵資料庫中;
3. 搜尋引擎-利用影像特徵資訊進行匹配查詢;
4. 知識發現模組-對影像資料進行演算法分析,以發現資料的主題、特徵、關係等規律。
所謂資訊驅動型模型,是針對影像的原始資訊開展基於內容的影像資料探勘的方案。該方案基於原始特徵的物件或區域資訊,利用挖掘演算法和專業知識將整幅影像進行有意義地分割,然後開展高層次地計算與挖掘分析,從而推匯出具有高層次語義的、易用的、易於理解的模式。該方案將影像資訊劃分為四個層次:
1. 象素層-由原始影像資訊和原始影像特徵組成,如象素點、紋理、形狀和色彩等。
2. 物件層-處理基於象素層原始特徵的物件和區域資訊。
3. 語義層:結合專業知識從識別出的物件和區域中生成高層次的語義概念。
4. 知識層:可結合與某一專業相關的文字和數字資訊發現潛在的領域知識和模式。
在資訊驅動方案中,象素層和物件層主要進行影像處理、物件識別和特徵提取,而語義層和知識層主要進行影像資料探勘和知識整合。該方案可以在每個層次上以及不同層次間開展資料探勘分析。
影像資料探勘演算法
與結構化資料探勘的步驟和演算法相類似,影像資料探勘的技術主要包括:影像資料預處理技術:如去噪、對比度增強、影像分割等等;特徵提取和模式技術;如分類、規則提取、預測和聚類等等,既包括有監督學習也包含無監督學習。下面,我們就簡單介紹一下有監督學習的分類技術和無監督學習的聚類技術。
基於影像資料的分類技術流程主要分為三步:
1. 建立影像表示模型,對已進行類標記的影像樣本資料進行特徵提取,並建立每一影像的屬性描述;
2. 對樣本資料集進行訓練和學習,得到具有相當分類精度的分類模型;
3. 根據分類模型對未標記的影像資料集進行自動分類判別。
影像資料分類的挑戰性在於,如何建立低層可視特徵和高層語義分類間的對映關係。
基於影像資料的聚類技術,是根據沒有先驗知識的影像資料分佈,將無類別標記的影像資料劃分為有含義的不同簇,通常包括四個步驟:
1. 影像特徵提取和選擇;
2. 建立影像相似性模型;
3. 嘗試不同的聚類演算法;
4. 評估最佳的分組方案。
影像資料聚類的挑戰性在於,如何在分簇未知的情況下,如何科學地找到一個最佳的分類方案。
影像資料探勘應用
人腦是高度複雜的時空動力系統。基於神經影像大資料,群組獨立成分分析(ICA)作為一種資訊驅動型演算法,被廣泛應用於探索人腦系統的時空特性。據文獻報導,中國科學院心理研究所研發出一種在多被試神經影像資料中挖掘被試分組(亞組)的群組ICA方法-gRAICAR。模擬資料顯示,gRAICAR可以精確地揭示腦功能網路的個體間差異。進一步地,基於實際靜息態功能磁共振成像資料,gRAICAR不僅能夠估計每個腦功能網路的被試間的一致性,揭示被試間在腦功能上的相似關係,而且可以據此探測具有較高一致性的亞組。gRAICAR成為完全的資訊驅動方法,為科研人員基於資料產生進一步的科學假設提供參考,將為深入挖掘多被試神經影像資料,為建立與心理精神相關腦功能疾病的神經影像標誌提供有力工具,為“開放式神經科學”提供方法學支撐。
gRAICAR可以說是影像資料探勘在神經學領域中的一個應用。當然,影像資料探勘肯定會在更廣泛的醫學領域中發揮著重要的作用,必將成為現代醫學走向智慧醫療的一個利器!