Nature觀點,人工智慧在醫學中的測試一片混亂,應該怎麼做?

ScienceAI發表於2024-08-22

圖片

編輯 | ScienceAI

基於有限的臨床資料,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。

當 Devin Singh 還是一名兒科住院醫師時,他曾在急診室照顧過一個因長時間等待救治而心臟驟停的兒童。「我記得,當時我給這個病人做心肺復甦,感覺那個孩子快要死了。」他說。Singh 對孩子的死感到十分傷心,他曾想過,如果能縮短等待時間,是否就能避免這種情況。

經歷了這件事,他想,如果將自己的兒科專業知識與電腦科學結合起來,看看人工智慧 (AI) 是否有助於縮短等待時間。Singh 利用自己目前工作的加拿大多倫多兒童醫院 (SickKids) 的急診室分診資料,他和同事們建立了一系列人工智慧模型,這些模型可以提供潛在的診斷,並指出可能需要進行哪些測試。

「例如,如果我們能夠預測一個病人很可能患有闌尾炎,需要進行腹部超聲檢查,那麼我們就可以在患者到達後幾乎立即自動安排檢查,而不是讓他們等待 6-10 小時才能就診。」他說。

一項研究使用 SickKids 77000 多次就診的回顧性資料,表明這些模型將加快 22.3% 的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近 3 小時。然而,人工智慧演算法在此類研究中的成功只是驗證此類干預措施是否會在現實生活中幫助人們的第一步。

圖片

利用機器學習醫療指令(MLMD)在急診科(ED)自主訂購測試的方法。(來源:jamanetwork.com)

正確測試用於醫療環境的 AI 系統是一個複雜的多階段過程。但釋出此類分析結果的開發人員相對較少。一項綜述顯示,2020 年至 2022 年期間僅發表了 65 項 AI 干預的隨機對照試驗。與此同時,美國食品藥品監督管理局 (FDA) 等監管機構已批准數百種 AI 驅動的醫療裝置供醫院和診所使用。

「醫療保健機構發現許多獲批的裝置沒有經過臨床驗證。」加利福尼亞州洛杉磯西達賽奈醫療中心 (Cedars-Sinai Medical Center) 的心臟病專家 David Ouyang 說。一些醫院選擇自己測試此類裝置。

儘管研究人員知道理想的 AI 干預臨床試驗應該是什麼樣的,但在實踐中,測試這些技術具有挑戰性。實施取決於醫療保健專業人員與演算法的互動程度:如果人類忽略了它的建議,一個完美的工具也會失敗。AI 程式對它們所訓練的人群和它們旨在幫助的人群之間的差異特別敏感。此外,目前還不清楚如何最好地向患者及其家屬介紹這些技術,並徵求他們的同意使用他們的資料來測試這些裝置。

一些醫院和醫療保健系統正在試驗在醫學中使用和評估 AI 系統的方法。隨著越來越多的 AI 工具和公司進入市場,各組織正在聚集在一起,就哪種評估最有效、最嚴格達成共識。

誰在測試醫療 AI 系統?

基於 AI 的醫療應用,例如 Singh 正在開發的應用,通常被藥品監管機構視為醫療裝置,包括美國 FDA 和英國藥品和保健產品監管局。因此,審查和授權使用的標準通常不如藥物標準嚴格。只有一小部分裝置(可能對患者構成高風險的裝置)需要臨床試驗資料才能獲得批准。

許多人認為門檻太低了。當費城賓夕法尼亞大學的重症監護醫生 Gary Weissman 審查其領域內 FDA 批准的 AI 裝置時,他發現,在他確定的十種裝置中,只有三種在授權中引用了已釋出的資料。只有四個提到了安全評估,沒有一個包括偏見評估,該評估分析該工具的結果是否對不同患者群體公平。「令人擔憂的是,這些裝置確實可以並且確實會影響床邊護理。」他說,「患者的生命可能取決於這些決定。」

缺乏資料使得醫院和醫療系統在決定是否使用這些技術時處於困境。在某些情況下,財務激勵措施會發揮作用。例如,在美國,健康保險計劃已經為醫院使用某些醫療 AI 裝置提供報銷,這使得它們在經濟上具有吸引力。這些機構也可能傾向於採用承諾節省成本的 AI 工具,即使它們不一定能改善患者護理。

Ouyang 說,這些激勵措施可能會阻止 AI 公司投資臨床試驗。「對於許多商業企業來說,你可以想象,他們會更加努力地確保他們的 AI 工具可以報銷。」他說。

不同市場的情況可能有所不同。例如,在英國,由政府資助的全國性健康計劃可能會在醫療中心購買特定產品之前設定更高的證據門檻,英國伯明翰大學研究人工智慧負責任創新的臨床研究員 Xiaoxuan Liu 說,「這樣,企業就有動力進行臨床試驗。」

一旦醫院購買了人工智慧產品,他們就不需要進行進一步的測試,可以像使用其他軟體一樣立即使用它。然而,一些機構認識到,監管部門的批准並不能保證該裝置真正有益。所以他們選擇自己測試。Ouyang 說,目前許多這樣的努力都是由學術醫療中心進行和資助的。

阿姆斯特丹大學醫學中心重症監護醫學主任 Alexander Vlaar 和同一機構的麻醉師 Denise Veelo 於 2017 年開始了一項這樣的嘗試。他們的目標是測試一種旨在預測手術期間低血壓發生的演算法。這種被稱為術中低血壓的狀況可能導致危及生命的併發症,如心肌損傷、心臟病發作和急性腎衰竭,甚至死亡。

該演算法由位於加利福尼亞州的 Edwards Lifesciences 公司開發,使用動脈波形資料——急診科或重症監護室監視器上顯示的帶有波峰和波谷的紅線。該方法可以在低血壓發生前幾分鐘預測到它,從而實現早期干預。

圖片

低血壓預測(HYPE)試驗中的參與者流量。(來源:jamanetwork.com)

Vlaar、Veelo 及其同事進行了一項隨機臨床試驗,在 60 名接受非心臟手術的患者身上測試該工具。在手術期間使用該裝置的患者平均經歷 8 分鐘的低血壓,而對照組患者平均經歷近 33 分鐘。

該團隊進行了第二次臨床試驗,證實該裝置與明確的治療方案相結合,在更復雜的環境中也有效,包括心臟手術期間和重症監護室。結果尚未公佈。

成功不僅僅是因為演算法的精確性。麻醉師對警報的反應也很重要。因此,研究人員確保醫生做好充分準備:「我們有一個診斷流程圖,上面列出了收到警報時應採取的步驟。」Veelo 說。另一家機構進行的臨床試驗中,同樣的演算法未能顯示出益處。在那種情況下,「當警報響起時,床邊醫生沒有遵從指示採取行動。」Vlaar 說。

人類參與其中

一個完美的演算法可能會因為人類行為的變化而失敗,無論是醫療保健專業人員還是接受治療的人。

明尼蘇達州羅徹斯特的梅奧診所(Mayo Clinic)測試了一種內部開發的演算法,用於檢測低射血分數的心臟病,該中心的人機互動研究員 Barbara Barry 負責彌合開發人員與使用該技術的初級保健提供者之間的差距。

該工具旨在標記可能患上這種疾病高風險的個人,這種疾病可能是心力衰竭的徵兆,可以治療,但經常無法診斷。一項臨床試驗表明,該演算法確實增加了診斷率。然而,在與提供者的對話中,Barry 發現他們希望得到進一步的指導,瞭解如何與患者討論演算法的結果。這導致建議,如果廣泛實施該應用程式,應包括與患者溝通的重要資訊的要點,以便醫療保健提供者不必每次都考慮如何進行這種對話。「這是我們從務實試驗轉向實施策略的一個例子。」Barry 說。

另一個可能限制某些醫療 AI 裝置成功的問題是「警報疲勞」——當臨床醫生接觸到大量 AI 生成的警告時,他們可能會對它們變得麻木。梅奧診所家庭醫學部主任 David Rushlow 表示,在測試過程中應該考慮到這一點。

「我們每天都會收到很多次有關患者可能面臨風險的疾病的警報。對於忙碌的一線臨床醫生來說,這實際上是一項非常艱鉅的任務。」他說,「我認為其中許多工具將能夠幫助我們。但是,如果沒有準確地引入它們,預設情況將是繼續以同樣的方式做事,因為我們沒有足夠的頻寬來學習新的東西。」Rushlow 指出。

考慮偏見

測試醫療人工智慧的另一個挑戰是臨床試驗結果很難在不同人群推廣。「眾所周知,當人工智慧演算法用於與訓練資料不同的資料時,它們會非常脆弱。」Liu 說。

她指出,只有當臨床試驗參與者代表了該工具將要使用的人群時,才能安全地推斷出結果。

此外,在資源豐富的醫院收集的資料上訓練的演算法在資源匱乏的環境中應用時可能效果不佳。例如,Google Health 團隊開發了一種用於檢測糖尿病視網膜病變(一種導致糖尿病患者視力喪失的疾病)的演算法,理論上準確率很高。但當該工具在泰國的診所使用時,其效能顯著下降。

一項觀察性研究顯示,泰國診所的照明條件導致眼部影像質量低下,從而降低了該工具的有效性。

圖片

患者同意

目前,大多數醫療人工智慧工具都可幫助醫療保健專業人員進行篩查、診斷或制定治療計劃。患者可能並不知道這些技術正在接受測試或常規用於他們的護理,而且目前任何國家都沒有要求醫療服務提供商披露這一點。

關於應該告訴患者什麼有關人工智慧技術的爭論仍在繼續。其中一些應用程式將患者同意的問題推到了開發人員關注的焦點。Singh 團隊正在開發的人工智慧裝置就是這種情況,該裝置旨在簡化 SickKids 急診室對兒童的護理。

這項技術的顯著不同之處在於,它將臨床醫生從整個過程中移除,讓孩子(或者他們的父母或監護人)成為終端使用者。

「該工具的作用是獲取緊急分類資料,做出預測,並讓家長直接批准——是或否——是否可以對孩子進行檢測。」Singh 說。這減輕了臨床醫生的負擔,加速了整個過程。但也帶來了許多前所未有的問題。如果患者出現問題,誰來負責?如果進行了不必要的檢查,誰來支付費用?

「我們需要以自動化的方式獲得家屬的知情同意。」Singh 表示,而且同意必須是可靠和真實的。「這不能像你註冊社交媒體時那樣,有 20 頁小字,你只需點選接受。」

在 Singh 和他的同事等待資金開始對患者進行試驗的同時,該團隊正在與法律專家合作,並讓該國的監管機構加拿大衛生部參與審查其提案並考慮監管影響。電腦科學家、SickKids 兒童醫學人工智慧計劃聯合主席 Anna Goldenberg 表示,目前,「監管方面的情況有點像西部荒野」。

圖片

尋找解決方案

各機構正在齊聚一堂,討論如何應對其中的一些挑戰。一些專家表示,最好的方法是每個醫療機構在採用醫療 AI 工具之前進行自己的測試。另一些人則指出,由於成本原因,這是不可行的,因此研究人員和醫療組織正在探索其他選擇。

「對於大型組織來說,這已經很困難了,對於較小的組織來說,難度會更大。」醫療 AI 專家 Shauna Overgaard 表示。Overgaard 是梅奧診所 AI 驗證和管理研究專案的聯合負責人,該專案旨在以標準化和集中化的方式測試醫療 AI 工具,以便它們可以在梅奧診所醫療系統下屬的社群醫療機構中使用。

Overgaard 還是健康 AI 聯盟的成員,該聯盟的成員包括來自行業、學術界和患者權益組織的代表。該聯盟由谷歌、亞馬遜、微軟和 CVS Health 等公司資助,提議建立一個健康 AI 保障實驗室網路,該網路將使用一套商定的原則以集中方式評估模型。

北卡羅來納州達勒姆市杜克健康創新研究所的臨床資料科學家 Mark Sendak 表示,這種集中式方法並不理想。「每個機構都需要有自己的內部能力和基礎設施來進行測試。」他說。

他是 Health AI Partnership 的成員,該組織由學術界和醫療保健組織組成。該合作組織已獲得帕洛阿爾託 Gordon and Betty Moore 基金會的初始資金,旨在為任何組織建立能力並提供技術援助,使其能夠在本地測試 AI 模型。

美國大型醫學影像機構 Radiology Partners 的放射科醫生兼臨床 AI 副首席醫療官 Nina Kottler 也認為,本地驗證至關重要。她希望這些研究得出的結論可以用來教育那些將要操作這些工具的專業人員。

Kottler 說,人為因素將是最重要的,「醫療保健領域幾乎沒有自主的人工智慧。我們必須開始思考如何確保我們測量的準確性,不僅是人工智慧,還有人工智慧和終端使用者的準確性。」

參考內容:https://www.nature.com/articles/d41586-024-02675-0

相關文章