AI比醫生厲害？BMJ發文擔憂AI的表現被 “誇大”

AMiner學術頭條發表於2020-03-30

原文網址 : https://www.jiqizhixin.com/articles/2020-03-30-3

社會的數字化意味著我們正在以前所未有的速度積累者資料，醫療方面也不例外。據IBM 估計，每個人一生中大約會積累 100 萬兆位元組的資料，全球醫療保健資料的總量每隔幾年就會翻一番。

為了處理這些大資料，越來越多的臨床醫生與電腦科學家和其他相關學科合作，利用人工智慧 (AI) 技術來幫助檢測有噪音的訊號。最近的一項預測顯示，醫療人工智慧市場的價值從 2018 年的 20 億美元將增長到 2025 年的 36 億美元，複合的年增長率將達到 50%。

AI 是一個創新和快速發展的領域，具有改善患者護理和減輕醫療服務沉重負擔的潛力。深度學習是人工智慧的一個分支，在醫學成像領域表現出了特別的前景。隨著越來越多的研究成果的發表，各界對醫學成像等領域的深度學習研究興趣日益濃厚。

AI超越醫生了嗎？

近一兩年，我們常看到一些媒體新聞出現諸如“研究發現，谷歌人工智慧比醫生早一年發現肺癌” 以及 “人工智慧比醫生更擅長診斷皮膚癌” 這樣的標題。

媒體的宣傳極大增加了公眾和商業對 AI+ 醫療的興趣，也催化技術加快實施。但實際上，這些標題背後的研究方法和偏倚風險尚未得到詳細的檢驗。

但《英國醫學雜誌》(BMJ) 的研究人員最近警告說，“許多研究和媒體聲稱人工智慧在解釋醫學影像方面達到與人類專家一樣的水平，甚至比專家還好，但實際上 AI 的質量很差，而且被誇大了，這對患者的安全構成了風險。”

AI比醫生厲害？BMJ發文擔憂AI的表現被 “誇大”

為了進一步研究這個問題，倫敦帝國理工學院的研究人員回顧了過去 10 年發表的研究結果，系統地檢查研究設計、報告標準、偏倚風險，並將深度學習演算法在醫學成像方面的表現與臨床專家進行比較。

他們的資料來源於 Medline、Embase、Cochrane 中央對照試驗註冊簿和世界衛生組織 2010 年至 2019 年 6 月的試驗註冊簿，包括了 7334 份研究記錄和 968 個試驗註冊。他們通過採用隨機試驗登記和非隨機研究方法，以公認的報告標準為衡量，對深度學習演算法在醫學影像像中的表現與多個臨床專家進行比較。

所謂的隨機試驗是對研究物件進行隨機化分組，設定對照組，以及應用盲法，讓研究者和受試者雙方均無法知曉分組結果。而 CONSORT（臨床試驗報告統一標準）是隨機對照試驗的報告標準，包括了各組受試者例數、接受已分配治療的例數等，有助於幫助醫務人員瞭解試驗背景、目的、干預措施、隨機方法和統計分析。而非隨機試驗則是將研究物件的分組按照研究者或患者意願進行分組，在本試驗中採用 TRIPOD 作為報告標準。

在隨機臨床試驗中，研究人員發現了僅有 10 項有關深度學習的記錄，其中有 2 項已經發表，分別是眼科和放射科，其餘 8 項正在或即將招募臨床患者進行試驗。

AI的表現被“誇大”

在第一項試驗中，招募了 350 名在中國眼科診所的兒科患者，這些患者分別在有無 AI 平臺的情況下接受白內障評估診斷，得到治療建議。研究人員發現 AI 診斷的準確率為 87%，而專家醫生的準確率達到 99%，這些結果明顯低於專家醫生的診斷準確性，但是 AI 平臺進行診斷的平均時間卻比專家的診斷速度快。

AI比醫生厲害？BMJ發文擔憂AI的表現被 “誇大”

第二項完成的試驗招募了進行腸鏡檢查的患者，發現 AI 系統可以顯著檢測息肉，有較低的誤差風險，高度遵守報告標準。

而在 81 個非隨機臨床試驗中，他們發現只有 9 項研究具有前瞻性，其中只有 6 人在真實世界（real-world）的臨床環境中進行了測試。在 81 項研究中的 77 項的摘要包含了有關 AI 與臨床醫生表現之間的比較，有 30% 的研究表示 AI 優於臨床醫生。為了對研究的結果進行獨立審查，他們還對原始資料和程式碼進行訪問時，卻受到嚴重限制，僅有 1 項研究提供了原始標籤資料和程式碼。

通過利用偏倚風險工具對研究進行評估，研究人員還發現有超過三分之二的研究被判定有較高的偏倚風險，遵守公認的報告標準的情況較差。有四分之三的研究聲稱人工智慧的表現可與臨床醫生相提並論，甚至更優於臨床醫生，而只有 38% 的研究表明需要進一步的前瞻性研究或試驗。

總而言之，在醫學成像領域，很少有前瞻性的深度學習研究和隨機試驗。大多數非隨機化試驗不具有前瞻性，存在較高的偏倚風險，並偏離現有的報告標準。大多數研究缺乏資料和程式碼可用性，而且人類比較器組通常很小。

不過研究人員也指出此次評估研究中的一些侷限性，比如遺漏研究的可能性，以及對深度學習醫學成像研究的關注，因此研究結果可能不適用於其他型別的人工智慧。

儘管如此，他們說道，“目前存在著許多關於與臨床醫生等價或優於臨床醫生的誇大說法，這在社會層面上對患者安全和人口健康構成了潛在風險。” 他們也警告道，“過分的承諾，會使研究容易被媒體和公眾曲解，結果可能不符合患者的最佳利益，也無法最大限度地保障患者的安全，而最好的辦法是確保我們有高質量和透明報告的證據基礎。”

參考資料：
[1] https://www.eurekalert.org/emb_releases/2020-03/b-co032320.php
[2] https://www.bmj.com/content/368/bmj.m689

誇一誇支付寶小程式的厲害之處
2018-12-12
【2020醫療AI報告】40多位被訪人，告訴我們2020醫療AI發生的5大變化
2020-09-28
AI
比CNN表現更好，CV領域全新卷積操作OctConv厲害在哪裡？
2019-04-23
CNN卷積
【細說遊戲 AI】這個 AI 好厲害，給我也整一個之狀態機 AI
2021-05-07
遊戲AI
中國最大的AI公司阿里巴巴，一文看懂他們的科學家有多厲害！
2019-09-29
AI阿里
使用者對生成式AI的擔憂，思科有哪些解法？
2023-11-10
AI
總是擔憂沒發生的事情，怎麼辦？
2024-11-20
大資料分析師，比資料分析師厲害在哪
2019-03-20
大資料
研究發現22%的AI生成醫療建議可能導致死亡或造成嚴重傷害
2024-10-14
AI
“房間裡的大象”暴露AI巨坑，AI視覺系統被誇噓過頭了？
2018-12-12
AI視覺
AI 醫生“戰疫”在前線
2020-02-14
AI
李飛飛最新訪談：我每天都在對AI的擔憂中醒來
2019-05-02
AI
比爾·蓋茨：AI應該被用來改善教育和醫療
2019-03-21
AI
暴雪設計大佬教出來的學生，就是厲害
2019-12-04
我真厲害
2024-10-07
Keras之父：我擔心的是AI被社交媒體操控
2019-08-02
KerasAI
Stack Overflow：僅12%程式設計師擔心被AI取代 62%開發者在使用AI工具
2024-08-11
程式設計師AI
《向上生長 -- 成為一個很厲害的人》
2021-11-13
AI不能「取代」醫生給我們看病，這並不是因為AI不夠強大
2019-04-30
AI
中國AI研發投資碾壓美國？最新報告顯示，這一數字被誇大了
2019-12-10
AI
我們都在說虛幻5厲害，但它究竟厲害在哪？
2020-05-18
ChatMoney：AI看病，私人醫生不是夢想！
2024-07-05
AI
AI醫生到底有沒有人在用？AI在健康領域如何發揮作用
2019-04-22
AI
CodeGeeX論文發表：揭秘AI輔助程式設計工具背後的大模型
2023-04-12
AI程式設計大模型
CVPR 2025有作者用AI生成審稿意見，被發現了，論文也被拒了
2025-02-27
AI
新火種AI|谷歌Gemini被曝誇大營銷？碾壓GPT4純靠“一張嘴”
2023-12-08
AI谷歌GPT
被熱議的Metaverse，被忽視的現狀、大機會與隱憂
2021-07-20
Metaverse
中國文化厲害在哪？
2020-11-30
英特爾AI生態兩大利器，讓AI開發更快更簡單
2018-11-30
AI
AI 大模型應用開發實戰(04)-AI生態產業拆解
2024-06-23
AI大模型產業
厲害！中國AI企業50強榜單！看完員工待遇，網友：我酸了
2020-02-28
AI
AI改變我們發現新藥的方式？哈佛醫學院團隊開發AI驅動的藥物發現平臺
2022-11-21
AI
AI能寫論文了！華人本科生發明AI論文生成器
2019-05-26
AI
康科迪亞大學：研究發現生氣比悲哀對老年人心理健康傷害更重
2019-05-12
BMJ Nutrition：研究發現吃素會影響大腦健康
2019-09-08
AI為癌細胞殺手“染色”，輔助醫生選擇治療方案 | 附論文
2018-04-18
AI
AI那麼厲害，那測試開發和自動化測試這些職位是不是就多餘了？
2024-11-20
AI
AI大模型在醫院門診應用
2024-08-07
AI大模型

AI比醫生厲害？BMJ發文擔憂AI的表現被 “誇大”

相關文章