機器學習如何解決「看病難」?Jeff Dean等詳述機器學習在醫療領域的應用。

機器之心發表於2019-04-19

先來看兩個場景:

場景 1:

一名 49 歲的病人注意到肩膀上起了皮疹,因為不覺得疼痛,所以也沒有尋求治療。幾個月之後,他的妻子讓他去看醫生,醫生診斷出他患了脂溢性角化症。後來,當該患者在做腸鏡篩查時,護士注意到他的肩膀上有黑色斑點,於是建議他去檢查一下。又過了一個月,這位患者去看皮膚科醫生,醫生從病變的地方取了一些活檢樣本。結果顯示這是一種非癌性色素沉澱病變。醫生還是很擔心,建議二次檢測活檢樣本,最終診斷出了侵襲性黑色素瘤。之後,腫瘤科醫生用全身化療的方法治療這位患者。一位醫生朋友問病人為什麼不接受免疫治療。

場景 2:

一名 49 歲的病人用手機 app 拍了一張肩膀上皮疹的照片,app 建議他立即預約皮膚科醫生。他的保險公司自動批准直接轉診,app 幫他在兩天內預約了附近一名經驗豐富的皮膚科醫生,該預約和患者的個人行程自動交叉核對過了。皮膚科醫生對病變處進行了活檢,病理學家在計算機輔助下診斷出 Ⅰ 期黑色素瘤,然後皮膚科醫生進行了摘除手術。

對比場景 1 和場景 2,我們可以發現,在同樣的一個病例中,場景 2 的醫療流程實現了以下優化:1)患者可以直接用手機拍攝病變照片,由 app 進行初級診斷,系統可以根據 app 提供的建議合理分配醫療資源;2)皮膚科醫生和病理學家實現了有效的協作,相當於讓一位普通病人也得到了專家會診,提高了診斷和治療方法的準確性。這就是 Jeff Dean 等人為我們描繪的機器學習在醫療領域的應用藍圖。

如果重症監護人員或社群醫療人員每做出一個醫療決定,立刻就會有相關領域的專家組成的團隊對這條決定進行審查,判斷這條決定是否正確並對其進行指導,那會是什麼樣呢?最新診斷出沒有併發症的高血壓患者將會接受現有最有效也最對症的治療,而不是診斷者最熟悉的治療方法。這樣可以很大程度上消除用藥過量和處方錯誤的問題。患有神祕且罕見疾病的患者可以直接由相關領域的知名專家會診。

這樣的系統似乎離我們很遠。因為沒有足夠的專家可以配合這樣的系統。就算有,對專家們來說,不僅要花很長時間瞭解患者的病史,而且與隱私相關的問題可能也會成為阻礙。但這就是用於醫療領域的機器學習的前景——幾乎所有臨床醫生所做的診斷決定以及數十億患者的診斷結果組成的智慧結晶應該為每一位患者的醫療護理提供指導。也就是說,應該根據患者所有已知的實時資訊和集體經驗得出個性化的診斷、管理決策以及治療方案。

這種框架強調機器學習不僅是像新藥或者新的醫療器械這樣全新的工具,而是一種基礎技術,這種技術可以高效處理超出人類大腦負荷的資料。這種巨大的資訊儲存涉及到龐大的臨床資料庫,甚至單個患者的資料。

50 年前的一篇專題文章指出,計算將「強化,在有些情況下可以很大程度上取代醫生的智慧」。但到 2019 年初,由機器學習驅動的醫療保健幾乎還沒有取得什麼進展。我們在此不再贅述之前報導過的無數通過測試的概念驗證模型(回顧性資料),而是要說一些醫療健康領域的核心結構變化及正規化轉變,這對於實現機器學習在醫療領域的前景來說是必需的。

機器學習解釋

傳統上講,軟體工程師通過清晰的計算機程式碼形式提取知識,從而指導計算機如何處理資料並做出正確的決策。例如,如果病人血壓升高,而且沒有接受抗高血壓藥物的治療,那正確程式設計的計算機可以提出治療建議。這類基於規則的系統具有邏輯性和可解釋性,但正如 1987 年的一篇文章中所說,醫療領域「太過廣泛也太過複雜,因此難以(如果可能的話)在規則中捕獲相關資訊」。

傳統方法和機器學習之間的關鍵區別在於,在機器學習中,模型是從樣本中學習而不是按規則程式設計的。對於給定任務,樣本給定輸入(特徵)和輸出(標籤)。例如,將病理學家讀取的數字化切片轉換為特徵(切片畫素)和標籤(上面的資訊表明切片是否包含指示癌變的證據)。用演算法從觀測值中學習,然後計算機決定如何從特徵對映到標籤,從而建立泛化模型,這樣就可以在未曾見過的輸入上正確執行新任務(例如,從未被人讀取過的病理學切片)。圖 1 總結了這一過程,這就是所謂的有監督的機器學習。還有其他形式的機器學習。表 1 列出了用於臨床的案例,這些模型的輸入輸出對映基本上都是基於同行評審研究或現有機器學習的擴充套件。

機器學習如何解決「看病難」?Jeff Dean等詳述機器學習在醫療領域的應用。

圖 1:有監督機器學習的概念性概述

機器學習如何解決「看病難」?Jeff Dean等詳述機器學習在醫療領域的應用。

機器學習如何解決「看病難」?Jeff Dean等詳述機器學習在醫療領域的應用。

機器學習如何解決「看病難」?Jeff Dean等詳述機器學習在醫療領域的應用。

表 1:推動機器學習應用的輸入資料和輸出資料型別示例。

在實際應用中,預測準確性至關重要,模型在數百萬特徵和樣例中找出統計模式的能力絕對可以超過人類的表現。但這些模式不一定適應基本的生物學鑑定方式,也不一定能識別支援新療法的開發過程中可修改的危險因素。

機器學習模型和傳統的統計模型之間並非涇渭分明,最近有一篇文章總結了這兩者之間的關係。但複雜的新型機器學習模型(比如「深度學習」(一種利用人工神經網路的機器學習演算法,它可以學習到特徵和標籤之間極其複雜的關係,在諸如影象分類等任務上的表現已經超越了人類))很適合學習現代臨床病例中產生的複雜、異構資料(比如醫生寫的醫療記錄、醫學影象、來自感測器的連續監控資料以及基因組資料),從而做出醫學相關的預測。表 2 提供了簡單和複雜的機器學習模型分別適用於什麼樣的情況。

機器學習如何解決「看病難」?Jeff Dean等詳述機器學習在醫療領域的應用。

表 2:決定要用哪種模型時要問的關鍵問題。

人類學習和機器學習之間的關鍵區別在於人類可以從少量資料中得到普適且複雜的關係。例如,小孩不用看太多樣本就能區分獵豹和貓。在學習相同任務的情況下,和人相比機器需要更多的樣本,而且機器不具備常識。但從另一個角度上講,機器可以從大量資料中學習。用數千萬患者儲存在 EHR(Electronic Health Records,電子健康記錄)中的資料來訓練機器學習模型是完全可行的,這些數千億的資料點完全沒有任何重點,而人類醫生在整個職業生涯中都很難接診數萬名患者。

機器學習對臨床醫生的工作有何幫助

預後

機器學習模型可以學習患者的健康軌跡模式。它可以得到超出醫生個體經驗的資訊,幫助醫生以專家水平預測出未來可能發生的事件。例如,患者重返工作崗位的概率有多大?疾病發展的速度會有多快?相同型別的預測可以在眾多患者中可靠地識別出將出現高危情況或可能頻繁需要醫療護理的患者,這些資訊可以作為附加資訊幫助醫生。

大型綜合衛生系統已經在用簡單的機器學習模型了,它可以自動識別可能需要轉移到重症監護室的住院患者,回溯性研究表明,可以用 EHR 和醫學影象中的原始資料建立更復雜也更準確的預後模型。

構建機器學習系統需要用患者的縱向整合資料進行訓練。只有當訓練模型的資料集中包含結果時,模型才能學習到患者的情況。但資料現在都是獨立儲存在 EHR 系統、醫學影像存檔和互動系統、付款人、PBM(Pharmacy Benefits Managers,藥品福利管理)甚至患者手機上的應用中的。自然的解決方案是將資料系統交到患者自己手中,這也是我們長期以來一直倡導的解決方案,現在這一想法也已經通過快速採用患者控制的應用程式程式設計介面得以實現。

像 FHIR(Fast Healthcare Interoperability Resources,快速醫療互操作性資源)這樣將資料轉化為統一格式可以更有效地聚合資料。患者可以決定哪些人可以用他們的資料來構建或執行模型。儘管有人擔心技術的互操作性無法解決 EHR 資料中普遍存在的語義標準化問題,但 HTML(Hypertext Markup Language,超文字標記語言)可以索引 Web 資料,還可以用在搜尋引擎上。

診斷

每一位患者都是獨一無二的,但最好的醫生可以在正常範圍內確定患者特有的微弱訊號或異常值。可以用機器學習檢測出的統計模式幫助醫生識別診斷不到的病症嗎?

醫學研究所的結論是,幾乎每一位患者在他(她)的一生中都會遇到一次誤診,而正確的診斷是採用合適治療方法的基礎。這個問題不止在一些罕見的病症中會出現。在發展中國家,即便有充足的治療手段、檢查時間和培訓充分的醫護人員,也無法檢查出急性胸痛、肺結核、痢疾以及分娩期間的併發症。

常規醫療護理期間收集到的資料表明,可以在臨床診斷中用機器學習來判斷可能的診斷,這樣可以提高對以後可能出現的情況的認識。但這樣的方法有侷限性。生疏的臨床醫生可能無法正確提取模型必需的資訊,因而無法讓模型變得有意義。模型得到的結果可能建立在臨時或錯誤的診斷之上,可能建立在不能證明是病症的不良反應條件之上(從而造成過度診斷),可能受計費的影響,或者可能根本沒有記錄。但模型會根據這些實時收集的資料給醫生提出建議,這些建議在誤診率很高和臨床醫生不確定的情況中是很有用的。在臨床上正確的診斷和 EHR 中或報銷索賠中的記錄的不一致意味著臨床醫生應該從一開始就參與到產生資料的過程中來,這些資料會作為常規護理的一部分,而且之後還會用於自動診斷過程。

訓練成功的模型可以回溯識別各種影象型別的異常(表 1)。但將機器學習模型作為臨床醫生常規工作一部分的回溯試驗的數量非常有限。

治療

在數萬名醫生要治療數千萬患者的大型醫療系統中,患者在什麼時候為什麼就診以及情況相似的患者應該如何治療都是有差異的。模型是否可以對這些差異進行分類,從而幫助醫生確定首選治療途徑?

一個比較簡單的應用是比較定點照護(point of care)的處方和模型得到的處方,可以將差異標記出來後再次核查(例如,其他臨床醫生傾向於使用可以反映新方法的替代療法)。基於歷史資料訓練的模型只能學習醫生的處方習慣,但這並不一定是理想做法。為了瞭解療效最好的藥物和治療方法,需要精心收集資料並評估因果效應,而機器學習模型則不一定能(有時候也不能用給定的資料集)識別這些效應。

根據觀察資料比較療效研究和實用性實驗的傳統方法也提供了重要看法。但近期使用機器學習方法的試驗表明,和專家一起生成人工篩查過的資料集、更新模型以納入新發表的資料、根據不同領域的處方進行調整以及從 EHR 中自動提取相關變數都是很大的挑戰。

還可以用機器學習自動選擇患者,根據臨床記錄,這些患者可能適合進行隨機對照試驗;或者可以用機器學習自動識別可能用早期研究或新療法治癒的高風險患者或亞群。這些工具促使醫療健康系統研究每一種臨床情況,可以在降低成本和管理費用的同時進行更嚴格的研究。

臨床工作流程

EHR 的引入提高了資料的可用性。但這些系統也因費用過高、管理文件的核取方塊過多、使用者介面不夠友好、輸入資料花費的時間過長以及產生新的醫療錯誤等讓臨床醫生們灰頭土臉。

也可以將機器學習技術用在其他消費產品中以提高臨床醫生們的效率。驅動搜尋引擎的機器學習可以在無需臨床醫生多次點選的情況下找出患者資料的相關資訊。用機器學習技術(如預測型別、語音聽寫和自動摘要等)可以大大改進表格和文字資料的輸入。根據患者表格中的資訊自動授權支付的模型可以取代提前授權。使用這些工具不僅僅只是為了方便醫生。無障礙地檢視和輸入臨床上的有效資料對捕獲和記錄醫療健康資料來說至關重要,這反過來也可以在機器學習的輔助下為每一位患者提供最好的醫療護理幫助。最重要的是,這種做法提高了效率、簡化了記錄,而且改進了自動化臨床工作流程,這樣臨床醫生就可以把更多的時間花在患者身上。

在 EHR 系統之外,機器學習技術也可以用於外科手術的實時視訊分析,可以幫助外科醫生避免在關鍵結構解剖時出現問題或者患者身體有意料之外的改變,甚至可以處理更普通的任務——比如準確計算手術海綿的數量。檢查清單(checklist)可以避免手術錯誤,還可以自動監控手術過程,提高手術的安全性。

在臨床醫生的個人生活中,他們可能在自己的智慧手機上用到了所有這些技術的變體。儘管有將這些技術應用於醫學背景的概念驗證的研究,但主要的障礙不是模型的開發,而是技術的基礎設施——EHR 之上的法律、隱私和政策框架、衛生系統以及技術供應商。

擴大臨床專業知識的可用性

醫生不可能照料到所有需要治療的患者。機器學習是否可以在不需要醫生親自參與的情況下,擴大醫生診治範圍、提供專家級醫療評估呢?例如,剛剛發皮疹的患者可能只要用手機傳送一張照片就可以獲得診斷,從而避免掛不必要的急診。本身要去急診室就診的患者可能在自動診斷系統就能獲得診斷,並在適當的時候以另一種形式進行護理。當患者確實需要專業幫助時,模型也可以識別出專業最相關且處於空閒狀態的醫生。同樣,為了提高舒適度並降低成本,如果機器可以遠端監控病人的感測器資料,本身需要住院治療的病人就可以在家裡接受護理了。

世界上有一些地區,直接學習醫學專業知識的渠道有限,而且非常複雜,因而將機器學習的真知灼見直接傳遞給病人變得越來越重要。即便是在那些專家醫生充足的區域,這些醫生擔心他們的能力和努力無法及時且準確地解釋那些浪潮一般的資料,這些資料一般是從患者穿戴的感測器或活動追蹤裝置中得到的,並且由患者自己驅動。事實上,用數百萬患者的資料訓練得到的機器學習模型可以幫助專業醫護人士做出更好的決策。例如,護士可以承擔通常由醫生完成的醫療工作,初級護理醫生則可以承擔通常由醫療專家完成的工作,而醫療專家則可以將更多的時間投入到非常需要他們專業知識的病人身上。

不涉及機器學習的移動應用或網路服務已被證明可以改善藥物的依賴性,還可以控制各種慢性病。但正式的回顧性和前瞻性評估方法阻礙了患者直接應用機器學習

主要挑戰

高質量資料的可用性

構建機器學習模型的核心挑戰在於組裝具有代表性的多樣化資料集。理想做法是在使用過程中利用最接近期望資料準確格式和質量的資料來訓練模型。例如,對於打算用在即時護理中的模型而言,最好使用 EHR 在特定情況下所用的同一資料,即便已知這些資料不可靠或這些資料受到了不必要變化的影響。當資料集足夠大時,現代模型可以成功被訓練,以將嘈雜輸入對映到嘈雜輸出。使用人工篩查資料(比如那些在臨床試驗中從人工病例審查得到的資料)得到的更小資料集就不太理想,除非希望醫生根據原始實驗規範手動提取變數。這種做法對某些變數來說或許可行,但對於做出最準確預測所必需的、EHR 中數十萬的資料而言就太不可行了。

俗話說「垃圾進,垃圾出」(garbage in, garbage out),那麼我們如何協調噪聲資料集來訓練模型呢?要學習大多數複雜的統計模式最好還是有大資料集(哪怕是噪聲資料),以便對模型進行微調和評估,但具有人工篩查標籤的更小樣例集還是有必要的。當原始資料可能標記錯誤時,這種樣例集可以就模型對預期標籤的預測做出正確的評估。對成像模型來說,這通常需要生成由每張圖片的多個評分器判定的「ground truth」標籤(即由一位絕對可靠的專家指定給一個樣例的診斷或發現),但對非成像任務來說,如果沒能獲得必要的診斷測試,那可能也無法獲得「ground truth」標籤。

一般情況下,訓練資料越多機器學習模型表現得越好。因此,對於機器學習的使用而言,一個關鍵的問題是在利用大且多樣化資料集以提高機器學習模型準確率的同時,需要平衡隱私問題和監管要求。

從過去的失敗經驗中學習

人類的所有活動都會被意料之外的偏差破壞。機器學習系統的構建者和使用者需要仔細考慮偏差如何影響用於訓練模型的資料,並採取措施解決和監控這些偏差。

機器學習的優勢(也是劣勢之一)在於模型可以識別到人類無法找到的歷史資料模式。醫療實踐的歷史資料表明,人們能得到的系統性醫療護理是存在差異的,一般為弱勢群體提供的醫療護理較其他群體更差一些。在美國,歷史資料反映了一種支付系統,該系統會獎勵使用不必要護理和服務的人,這樣可能會錯過那些本該卻並未得到護理的病人(比如沒有保險的患者)。

監管、監督和安全使用的專業知識

衛生系統已經建立了可以確保將藥物安全傳遞到患者手上的複雜機制。機器學習的廣泛適用性也需要同樣複雜的監管結構、法律框架以及當地實踐以確保系統的安全開發、使用和監管。此外,技術公司必須要提供可擴充套件的計算平臺來處理大量資料和模型使用的問題,但到現在他們也不清楚自己的定位。

重要的是,使用機器學習系統的醫生和病人都需要理解其侷限性,包括模型並不能泛化到特定場景。做決策或分析影象時過度依賴機器學習模型可能會導致自動化偏差,而醫生可能已經降低其對這些偏差的警惕。如果模型的可解釋性不夠強,醫生可能意識不到模型給出了錯誤的建議,這時尤其會出現問題。在模型預測中表現出置信區間可能有所幫助,但置信區間本身或許被錯誤解釋。因此,需要對使用中的模型進行前瞻性的、真實的臨床評估,而不只是根據歷史資料集對模型效能做回顧性評估。

需要特別考慮直接針對患者的機器學習應用。患者可能無法驗證模型構建者所說的話是否得到高質量臨床證據的證實,也無法驗證模型建議的行為是否合理。

研究結果的出版與傳播

構建模型的跨學科團隊可能會在臨床醫生不熟悉的場所彙報結果。稿件通常會在 arXiv 和 bioRxiv 這樣的預印本服務網站上釋出,許多模型的原始碼則會在 GitHub 庫這樣的地方儲存。此外,許多同行評審的電腦科學稿件也並不會釋出在傳統期刊上,而會發表在 NeurIPS(神經資訊處理系統大會)和 ICML(國際機器學習大會)這樣的會議上。

結論

大量衛生保健資料的加速建立將從根本上改變醫療保健的性質。我們堅信,醫患關係將成為為患者提供醫療服務的基石,而這種關係會因機器學習的輔助而變得豐富。我們期望在未來幾年會出現一些早期模型和同行評審的刊物,它們的出現以及監管框架和基於價值醫療的經濟激勵的發展,都會成為對醫療領域應用機器學習保持樂觀態度的理由。我們期望在不遠的未來,數百萬臨床醫生在護理數十億患者時,可以在機器學習模型的幫助下根據所有醫學相關資料做出決策,從而為所有患者提供最好的護理方案。

原文連結:https://www.nejm.org/doi/full/10.1056/NEJMra1814259

相關文章