社會的數字化意味著我們正在以前所未有的速度積累者資料,醫療方面也不例外。據IBM 估計,每個人一生中大約會積累 100 萬兆位元組的資料,全球醫療保健資料的總量每隔幾年就會翻一番。
為了處理這些大資料,越來越多的臨床醫生與電腦科學家和其他相關學科合作,利用人工智慧 (AI) 技術來幫助檢測有噪音的訊號。最近的一項預測顯示,醫療人工智慧市場的價值從 2018 年的 20 億美元將增長到 2025 年的 36 億美元,複合的年增長率將達到 50%。
AI 是一個創新和快速發展的領域,具有改善患者護理和減輕醫療服務沉重負擔的潛力。深度學習是人工智慧的一個分支,在醫學成像領域表現出了特別的前景。隨著越來越多的研究成果的發表,各界對醫學成像等領域的深度學習研究興趣日益濃厚。
AI超越醫生了嗎?
媒體的宣傳極大增加了公眾和商業對 AI+ 醫療的興趣,也催化技術加快實施。但實際上,這些標題背後的研究方法和偏倚風險尚未得到詳細的檢驗。
但《英國醫學雜誌》(BMJ) 的研究人員最近警告說,“許多研究和媒體聲稱人工智慧在解釋醫學影像方面達到與人類專家一樣的水平,甚至比專家還好,但實際上 AI 的質量很差,而且被誇大了,這對患者的安全構成了風險。”
他們的資料來源於 Medline、Embase、Cochrane 中央對照試驗註冊簿和世界衛生組織 2010 年至 2019 年 6 月的試驗註冊簿,包括了 7334 份研究記錄和 968 個試驗註冊。他們通過採用隨機試驗登記和非隨機研究方法,以公認的報告標準為衡量,對深度學習演算法在醫學影像像中的表現與多個臨床專家進行比較。
所謂的隨機試驗是對研究物件進行隨機化分組,設定對照組,以及應用盲法,讓研究者和受試者雙方均無法知曉分組結果。而 CONSORT(臨床試驗報告統一標準)是隨機對照試驗的報告標準,包括了各組受試者例數、接受已分配治療的例數等,有助於幫助醫務人員瞭解試驗背景、目的、干預措施、隨機方法和統計分析。而非隨機試驗則是將研究物件的分組按照研究者或患者意願進行分組,在本試驗中採用 TRIPOD 作為報告標準。
在隨機臨床試驗中,研究人員發現了僅有 10 項有關深度學習的記錄,其中有 2 項已經發表,分別是眼科和放射科,其餘 8 項正在或即將招募臨床患者進行試驗。
AI的表現被“誇大”
在第一項試驗中,招募了 350 名在中國眼科診所的兒科患者,這些患者分別在有無 AI 平臺的情況下接受白內障評估診斷,得到治療建議。研究人員發現 AI 診斷的準確率為 87%,而專家醫生的準確率達到 99%,這些結果明顯低於專家醫生的診斷準確性,但是 AI 平臺進行診斷的平均時間卻比專家的診斷速度快。
第二項完成的試驗招募了進行腸鏡檢查的患者,發現 AI 系統可以顯著檢測息肉,有較低的誤差風險,高度遵守報告標準。
而在 81 個非隨機臨床試驗中,他們發現只有 9 項研究具有前瞻性,其中只有 6 人在真實世界(real-world)的臨床環境中進行了測試。在 81 項研究中的 77 項的摘要包含了有關 AI 與臨床醫生表現之間的比較,有 30% 的研究表示 AI 優於臨床醫生。為了對研究的結果進行獨立審查,他們還對原始資料和程式碼進行訪問時,卻受到嚴重限制,僅有 1 項研究提供了原始標籤資料和程式碼。
通過利用偏倚風險工具對研究進行評估,研究人員還發現有超過三分之二的研究被判定有較高的偏倚風險,遵守公認的報告標準的情況較差。有四分之三的研究聲稱人工智慧的表現可與臨床醫生相提並論,甚至更優於臨床醫生,而只有 38% 的研究表明需要進一步的前瞻性研究或試驗。
不過研究人員也指出此次評估研究中的一些侷限性,比如遺漏研究的可能性,以及對深度學習醫學成像研究的關注,因此研究結果可能不適用於其他型別的人工智慧。
儘管如此,他們說道,“目前存在著許多關於與臨床醫生等價或優於臨床醫生的誇大說法,這在社會層面上對患者安全和人口健康構成了潛在風險。” 他們也警告道,“過分的承諾,會使研究容易被媒體和公眾曲解,結果可能不符合患者的最佳利益,也無法最大限度地保障患者的安全,而最好的辦法是確保我們有高質量和透明報告的證據基礎。”
參考資料:
[1] https://www.eurekalert.org/emb_releases/2020-03/b-co032320.php
[2] https://www.bmj.com/content/368/bmj.m689