資料探勘在醫學大資料研究中的應用

朗銳智科1發表於2018-06-04

資料探勘隨著計算機技術得到了廣泛應用,從而提高了資料利用效率,擴充了知識發現的廣度與深度。資料探勘已有較多成熟方法,並在醫學大資料探勘中取得了一定成果。資料探勘是指從資料庫中,提取隱含在其中的人們事先未知、潛在的有用的資訊和知識的過程。目前,醫院已積累了大量醫療相關資料。

資料探勘在醫學大資料研究中已取得了較多成果,通過文獻檢索,總結了三方面的應用現狀。

疾病早期預警醫療領域往往需要更精確的實時預警工具,而基於資料探勘的疾病早期預警模型的建立,有助於提高疾病的早期診斷、預警和監護,同時,也有利於醫療機構採取預防和控制措施,減少疾病惡化及併發症的發生。

疾病早期預警,首先要收集與疾病相關的指標資料或危險因素,然後建立模型,從而發現隱含在資料之中的發病機制和病情之間的聯絡。Forkan等採集日常監測的心率、舒張壓、收縮壓、平均血壓、呼吸率、血氧飽和度等生命體徵資料,以J48決策樹、隨機森林樹及序列最小優化演算法等建立疾病預警模型,用於遠端家庭監測,識別未曾診斷過的疾病發生,並將監測結果傳送到醫療急救機構,實現生命體徵大資料、病人及醫療機構的完整銜接,以降低突發疾病及死亡的發生率。Easton等利用貝葉斯分類演算法建立了中風後遺症死亡預測模型,認為中風後遺症死亡概率與中風發生後的時間長短成函式關係,有助於中風後遺症患者的後續監護。Tayefi等基於決策樹演算法建立了冠心病預測模型,該模型發現hs-CRP作為新的冠心病預測標誌物,比傳統的標誌物(如FBG、LDL)更具特異性。

慢性病研究糖尿病、高血壓、心血管疾病等慢性病正在影響著人們的健康,識別慢性病危險因素並建立預警模型有助於降低慢性疾病併發症的發生。Alagugowr等建立的心臟病預警系統,從心臟病大資料庫中提取特徵指標,通過K-means聚類演算法識別出心髒病危險因素,又以Apriori演算法挖掘高頻危險因素與心臟病危險等級之間的關聯規則。Ilayaraja等則以高頻項集尋找心臟病危險因素並識別病人風險程度,該方法能夠迴避無意義項集的產生,從而解決了以往研究中項集數量多、所需儲存空間大等問題。CH Jen等對慢性疾病併發症風險識別的研究分三個步驟,首先,選擇健康人群體檢資料和慢性病患者相關疾病資料,以帶有序列前項選擇的線性判別分析來尋找相關疾病的特徵變數;然後,以K-NN對特徵變數進行分類處理;最後,將K-NN演算法的分類結果應用於慢性疾病預警模型的建立。Aljumah等先後以迴歸分析和SVM用於預測和判斷糖尿病不同治療方式與不同年齡組之間的最佳匹配,為患者選擇最佳治療方式提供依據。Perveen等對糖尿病的預測研究,採用患者人口學資料和臨床指標資料,並分別用Adaboost整合演算法、Bagging演算法及決策樹三種演算法來建立預測模型,認為Adaboost整合演算法的精確性更高。

輔助醫學診斷醫學資料不僅體量大,而且錯綜複雜、相互關聯。對大量醫學資料的分析,挖掘出有價值的診斷規則,將對疾病診斷提供參考。Yang等基於決策樹演算法和Apriori演算法,對肺癌病理報告與臨床資訊之間的關聯性進行了研究,為肺癌病理分期診斷提供依據,從而可迴避診斷中需要手術方法獲取病理組織。Becerra-Garcia等應用SVM、K-NN和CART三種演算法對眼球電圖進行訊號預處理、脈衝檢測和脈衝分類,為研究臨床眼球電圖檢查中非自發掃視眼球運動的識別提供依據。彭玉蘭等對某醫院5年的乳腺超聲資料進行了關聯規則挖掘,建立乳腺病理診斷與超聲診斷之間的關聯規則,並開發了乳腺超聲資料庫資料檢索系統,便於醫生快速獲得超聲診斷和病理診斷的各種診斷資訊和病例資訊。

醫學大資料探勘已呈現廣闊的發展前景和巨大的應用價值,將為疾病研究、臨床及管理決策、醫療服務個性化及影像識別等眾多領域帶來更多支援。麥肯錫在其報告中指出,大資料分析可以幫助美國醫療服務業一年創造3000億美元的附加價值,而美國醫療協會也稱,改善醫療衛生事業的關鍵在於大資料。

目前,醫院大資料中心、區域性衛生資訊平臺、國家醫療大資料中心的建立以及衛生資訊互聯互通標準和共享規範的制定,為資料儲存和共享、推動醫學大資料的應用提供了更多支撐。未來,醫學大資料探勘將不斷更新,探索新的研究領域,推動研究成果轉化。

朗銳慧康(www.lrioh.com)認為,醫學大資料與資料探勘的結合,能夠幫助人們從儲存的大體量、高複雜的醫學資料中提取有價值資訊,加速醫學成果轉化,為醫療行業開拓一個新的時代。


相關文章