約翰霍普金斯醫學院的娜塔莉·特拉雅諾娃(Natalie Trayanova)教授,剛剛度過了魔鬼一般的一年。
在外人看來,她的科研道路彷彿是一帆風順。她帶領的心血管造影技術團隊拿著來自美國國立衛生研究院(NIH)的研究基金,過去三年光論文就發表了50多篇;她的專案還頻頻在媒體上曝光,她本人甚至被邀請到TED Talk上做演講。然而,當她著手將這套“領域內前所未有的解決方案”向臨床應用推進的時候,卻遭遇了前所未有的困難。
不過等到心顫發生再採取除顫,還是稍微有點晚。醫學研究者開發出了一種心臟除顫手術,找到那些引發心律不齊的微小心肌纖維,把它們切除,從而根本上解決問題。麻煩的是,這些微小心肌纖維很難找,很大程度都靠醫生經驗,經常切不準地方還會誤傷正常的部分。
特拉雅諾娃實驗室就開發了一套結合了影像和人工智慧的心臟造影方案,構建出全息3D的心臟模型,重建每一束心肌纖維、模擬心臟動態,精確地找出病灶,讓手術“指哪打哪”。“我們還能順便用這個影像,給心臟做3D列印,送給病人做留念。”來自保加利亞、已經在這個領域摸爬滾打了三十多年的特拉雅諾娃談起自己的技術,仍然是一臉興奮。而最近興起的人工智慧技術,更是有希望為這個技術添磚加瓦——例如,使用機器學習提高影像精度,優化計算流程,把時間和成本大幅降低。
“希望如此”,成了她掛在嘴邊的口頭禪。在人工智慧計算能力大幅提升的今天,樂觀派們認為AI接管醫院只是時間問題,然而從實驗室到醫院的這段路,依然困難重重。
AI能對疑難雜症做出獨立診斷嗎?
“你拿一萬張貓的圖片訓練一個機器,機器能夠非常迅速地判斷眼前的圖片是否是貓,”約翰·霍普金斯生物工程教授傑弗裡·希維爾德森(Jeffrey Siewerdeson)給我打了個比方,“但你要讓機器從一張元素繁多的圖片裡找貓,難度就指數級增大了。”
他的實驗室曾經是約翰·霍普金斯醫院的病房,牆上還殘留著當年的病床支架和插座。如今的實驗室已經遠離了醫院的喧鬧,被各類計算機和影像儀器所佔據。生物醫學領域,基於機器和資料,而不用和溼漉漉的培養基或組織器官打交道的“幹科學”(dry science)逐漸成為了領域熱門。據醫藥研究機構 Signify Research 的資料預測,5年內光醫療影像和AI這一個細分領域的市場就將超過20億美元,其中深度學習技術更是佔據了半壁江山。
的確,影像識別是目前的AI最擅長的事情之一。大概從2013年開始,AI在這一個領域的能力就開始飛速發展;2015年,在谷歌ImageNet資料庫訓練下的機器,人臉識別能力已經超過了人類。這得益於機器能夠在相對短的時間內吃進海量的影像資料,並通過深度神經網路各個層級進行分析、學習,成為閱“片”無數、經驗豐富的“老醫生”。希維爾德森和特拉雅諾娃所做的事情,都是利用AI的這方面長處,給予醫生以診斷輔助,讓醫生“看”得更清楚、判斷更準確。
可這並不是我們平時想象的“AI看病”。AI是否能對疑難雜症做出獨立的診斷?
對於有的疾病,讓AI看到影像就做出相應判斷其實不那麼難。比如眼科教授尼爾·布萊斯勒(Neil Bressler)正在做的專案,是使用AI技術診斷糖尿病人的眼底病變。由於這種疾病十分常見,資料積累豐富,再加上對於病變的判定相對簡單,目前這個技術已經有了相對成熟的應用場景。然而,觸及到更難的領域,例如癌症、腫瘤等等,影像模式十分複雜,很難用一種或者幾種機械的模式概括,機器往往會卡在這種人腦依靠模擬(analogy)判斷的地方。而有的病變本身也十分罕見,根本無法形成值得信賴的資料庫。換句話說,現在還無法像訓練一個真正的醫生一樣訓練AI。
而更根本的矛盾還在後面:就算資料夠多、計算能力夠強,AI能夠取代人類判斷嗎?
人並不相信機器?
2011年12月,在美國馬薩諸塞州的一家醫院,急救車送來了一個暈倒的老年男性。他立即被安置在了急救病房,安插上體徵了監控裝置——如果他的生命體徵出現危險的波動,裝置就會發出警告,召喚護士。這樣一來,護士就不必時時過來檢視他的情況了。
然而,第二天,這個老人卻死在了病床上。死之前監控裝置的紅燈閃了一夜,但卻被路過的護士一遍接一遍地摁掉。疏於料理的護士當然難辭其咎,然而在深入的調查之後,另外一個問題浮出水面:包括這套系統在內,許多醫院用於自動化監控的裝置所發出的警報,很多是誤報。
通常此類自動化系統,會把極其微小的波動當做風險來處理,畢竟,萬一錯過了一個風險,責任就大了,所以廠商都傾向於把機器調得“過度靈敏”,併產生一系列大驚小怪的誤報;反過來,醫護人員則在接連不斷的誤報衝擊下產生了疲勞,忽略了真正的危險。這是一個現代版的“狼來了”。
“狼來了”問題本身看似是可以解決的:把自動化系統的敏感度調低就行(廠商無疑會不願這樣做,因為這樣意味著他們自己要直接擔負更多責任,不過這至少原則上是可解的)。但這是本質的問題嗎?人類同樣常常過度敏感,每一個醫生都無數次經歷過家屬大呼小叫、護士匆忙跑來報告異常但最後平安無事的場景,但卻無法想象有多少合格的醫生會因為假警報太多而從此對它們徹底無動於衷、像對待自動系統那樣一遍遍按掉。問題在哪裡?
在於人並不信任機器。
今天最火的AI路線——深度學習看起來有望打破這個限制,但它帶來了一整套新的問題。最近通過FDA審批的一個叫做“WAVE”的診斷平臺,能夠綜合病人各項身體指標,通過深度學習的演算法,給出“病人什麼時候會進入病危狀態”的預測。然而,《科學》(Science)2019年3月的一篇評論文章指出,不像是藥品或者其它醫藥裝置,機器學習為核心的演算法並非一個邏輯確定的系統,裡面涵蓋了上千個互相牽涉的指標,也會根據訓練資料的不同產生不同的效果,究竟是否存在確鑿無疑、讓人百分百信服的因果聯絡(就像你站在體重秤上的數字從不撒謊一樣),很難說清。
而治病救人的醫學,恰恰最需要穩定且可重複的證據支撐。
循證的過程需要控制變數,得出A和B之間確鑿的因果聯絡,例如病人吃了A藥之後,就是比吃安慰劑的效果要好,那麼A藥毫無疑問發揮了作用;而這種藥在一小部分病人中產生的作用,和大部分病人相似,是可以重複的。深層到藥物作用的機制和原理,則更需要有大量的動物實驗打底,釐清一個化合物和病菌、器官、神經之間的具體聯絡。然而,目前主流的深度學習的技術卻是吃進資料、吐出結果的 “黑箱”,很難照著這個方式循證。再加上機器學習的核心——資料本身就具有不確定性,更為人工智慧的普適性和可重複性提出了問題。
在2019年2月華盛頓美國科學促進會(AAAS)的年會上,賴斯大學(Rice University)資料科學教授吉內薇拉·阿倫(Genevera Allen)用一系列事例直擊了這個問題的核心。當下,有不少團隊都在癌症相關的基因上做文章,輸入癌症患者的基因組和病例資料,用機器學習的方式分析出幾個不同的亞型(Sub-type),並在這個基礎上開發靶向藥物。這也是承襲乳腺癌的成功先例——根據基因表達的不同,乳腺癌可以分為10多種亞型,每一種的具體治療方案和預後都不同。但是這種模式可以套到所有的癌症上嗎?把大量資料“喂”給機器,機器真的能依靠資料模式給出靠譜的分類嗎?
她表示,如果繼續這樣發展,醫療科學很有可能陷入“危機”。雖然有點悲觀,但也不無道理。畢竟,不靠譜的演算法在亞馬遜上給你推薦一本你不喜歡的書,你不買就好了;但是“推薦”一個療法,有時候卻是關乎生死的。當然,這並不是說人類醫生不會犯錯誤。但在面對錯誤的時候,醫學診斷的循證基礎,能夠給我們提供充足的條件覆盤錯誤、並探求避免的方法。而面對人工智慧的黑箱,我們甚至很難知道機器為什麼會錯,應該如何糾正。
一邊是人工智慧領域大幅提高的計算能力與不斷優化的演算法,另一邊卻是臨床醫學對於證據的謹慎。在不同的學科進行交叉和對話的同時,兩邊是否在使用同一套語言體系,成為了解決問題的關鍵。
AI要想治病救人,
必須符合醫學標準
這個年代最常聽到的一句話,是“什麼專業都得寫程式碼”。的確,像希維爾德森和布萊斯勒的實驗室裡,懂醫學和懂計算機同等重要,甚至還需要統計等資料科學。越來越多的研究者開始惡補相關知識,註冊線上課程,甚至去跟本科生擠教室。許多老教授也拉下面子,向年輕博士生和博士後取經。
而隨著大資料和人工智慧的廣泛應用,醫生們也要開始懂得怎樣刨資料,即使不會程式設計也必須明曉其中的原理。“(資料科學)就像另一門語言,或者好幾門語言,”英國惠康基金會桑格研究所的研究員蔡娜在接受 馬賽克科學(Mosaic Science) 採訪時的一席話,說出了生物、醫藥研究人員的心聲。“我不得不把之前大腦中的生化路徑、流程圖,轉化成程式設計程式碼。”
從某種程度上講,程式設計和資料成為醫學領域最重要的能力之一。然而,計算機領域和醫學領域的學科邏輯和評價標準,卻存在一些分歧。特拉雅諾娃說,“現在太多人醉心於技術細節的提升,你去參加一個學術會議,到處都是跟你吹噓自己的技術表現有多好,演算法效能有多棒,然後在核心期刊上發了多少論文——這是他們領域的‘語言’。但最後能達到什麼效果呢?” 說到這裡,特拉雅諾娃搖了搖頭。
“現有的大部分演算法,包括診斷和預測等,都不是在傳統的醫學正規化下研究出來的,不能直接體現醫學所需要的指標,即使一些已經投入應用了,但可靠度、可應用程度等,都需要進一步驗證。”賓夕法尼亞大學醫學院血液和腫瘤專家拉維·帕裡克(Ravi Parikh)在電話裡對我說。“他在《科學》期刊上發表的評論文章談及了這個問題:當下的許多醫療人工智慧相關的研究,都以計算能力、反應速度、概率分佈曲線等作為指標,比如一個演算法能夠把判斷某種徵兆的速度提高百分之幾之類。但是,這到底在臨床上意味著什麼?這對病人的治療效果有多大增益?速度提高了,但誤診率呢?病人接受了這個診斷,是否病程變短、返診率下降?這些所謂 “落腳點”(endpoint)才是醫學關心的指標,也是監管機構是否給某個技術放行的依據。
一言以蔽之,人工智慧想要治病救人,必須要接受醫學標準的審視。特拉雅諾娃深知其中的不易,前文提到的3D造影技術即將投入大規模臨床實驗,最終的評判標準並不是技術、效能,而是手術的成功率。“接受了手術的病人,究竟有多少不用返工重來?返診率是多少?”能夠讓臨床醫生徹底掌握這個技術,把除顫手術目前接近40%的返診率大幅降低,才是這個技術成功的標誌。
而且,我們必須誠實面對演算法的侷限。所有的藥物都有副作用和適用人群,同樣,做人工智慧的人也必須從“用演算法去解決普適性問題”的思維中跳出,重視應用情景、資料來源和資料質量等等,學會醫學語言的謹慎。監管也必須面對一些關鍵挑戰——例如,如何保證資料的多樣性,如何開啟人工智慧和機器學習的“黑箱”,確定一個演算法的具體原理與醫學證據之間的聯絡。 “目前可以做的是建立完善的事後審計機制(auditing system),追蹤演算法和資料之間的關係,以及可能出現的資料偏差。”帕裡克說,“但最後,一定還是落在臨床的表現上,保證效用和可重複性。”
AI和醫生的關係也許不是替代,
而是互補
我在希維爾德森的實驗室裡看到了一個比乒乓球略小的3D列印模型,質感柔韌,中間的裂痕用細密的針腳縫了起來。“這是一個有著先天心臟缺陷嬰兒的心臟的一部分。”希維爾德森對我解釋道,“我們用當前的造影技術,結合人工智慧技術為心臟建模,然後列印出來供進行手術的醫生練手。”
帕裡克也認為,我們不應該拿人工智慧和醫生相比。關鍵並不在於人工智慧本身的能力,而是人工智慧和現有的醫學條件結合,能夠發揮多大的功效。醫生多年所見、所識、所領悟的並不能完全被翻譯成資料、變成機器學習的資料;而人工智慧亦有更精準的觀察、更快的速度和永不疲倦的眼。談論“醫生+演算法”的效果,遠比談論如何替代、或者誰比誰好要更有意義。
未來的醫療場景,一定不是病人被送進機器人醫生的診所,進行全身掃描之後得到“智慧”的診療,而是可複製、可量產的機器,為醫生提供足夠多有價值的參考,節省更多人力物力,讓診療變得更普及、更平民、更快捷。醫療人工智慧領域的科技樹不是衝著天空、往高處長,而是伸開枝葉,為更多的人提供安全和健康的廕庇。
這個未來甚至並不遙遠,腳踏實地一定走得到。
參考文獻
[1].Allen, G. I. (2017). Statistical data integration: Challenges and opportunities. Statistical Modelling, 17(4-5), 332-337.
[2].Parikh, Ravi B., Ziad Obermeyer, and Amol S. Navathe. "Regulation of predictive analytics in medicine." Science 363.6429 (2019): 810-812.
[3].Razzak, Muhammad Imran, Saeeda Naz, and Ahmad Zaib. "Deep learning for medical image processing: Overview, challenges and the future." Classification in BioApps. Springer, Cham, 2018. 323-350.