去年 11 月的一個深夜,一位 Bronx 的 54 歲老婦來到哥倫比亞大學醫療中心,她說自己頭痛欲裂,視力已經開始模糊,左手也變得麻木且不聽使喚了。醫生進行初步檢查後決定對老婦的頭部進行 CT 掃描。

轉眼幾個月過去了,今年 1 月份的一個早晨,四位還在培訓中的放射科醫生擠在醫院三樓的一臺電腦前。放置這臺電腦的房間沒有窗戶,除了螢幕的光,裡面完全是漆黑一片,就像一片深海。四位醫生盯著螢幕看時,哥倫比亞大學的神經放射科主任 Angela Lignelli-Dipple 正拿著鉛筆和平板電腦站在他們身後。他們可不是在搞什麼祕密專案,主任只是在訓練這些菜鳥醫生如何看懂 CT 掃描而已。

“如果 CT 上大腦的區域變灰,我們很容易就能診斷出病人是否中風了,”主任說道。“要想取得較好的治療效果,就必須趕在神經細胞大量死亡前診斷出病因。”中風一般因堵塞或出血引起,神經放射學家有大約 45 分鐘的視窗期進行診斷,這樣醫生才能及時採取干預措施,如溶解正在不斷膨大的凝塊。“如果你們當時身處急診室,每分鐘都是極端寶貴的,因為大腦的某部分正在死亡,時間就是生命。”主任補充道。

時間一分一秒流逝,主任看了看牆上的掛鐘,問道:“找到問題出在哪了嗎?”

中風通常是不對稱發展的,畢竟腦部供血會分左右,繼而細化為細小分支。不過,一旦出現凝塊或出血,就會影響一個分支,使大腦部分割槽域出現異常。隨著神經細胞因為缺血而逐漸死亡,組織會略微腫脹,在掃描時,解剖結構之間清晰的邊界可能會變模糊,最終組織會皺縮,併產生乾燥的陰影。但需要注意的是,這塊陰影通常在中風後幾小時或幾天才出現,而這時醫生干預的視窗期已經結束了。主任表示:“在這之前進行掃描的話,你只能在 CT 影像上看到一些蛛絲馬跡。”而這就是中風的前兆。

好啦, 現在說迴文章開頭提到的 54 歲老婦,她的 CT 掃描是對頭骨的橫切面切割額圖,看起來就像從底部一劈到頂的甜瓜。坐在電腦前的醫生們瀏覽著圖層,把小腦、海馬區、島狀皮層、紋狀體、胼胝體、腦室等都分得清清楚楚。隨後,其中一名快 30 歲的男醫生在一張照片上停了下來,他拿鉛筆指著大腦右側邊緣區域說道:“這一塊有點不對勁,邊緣區域看起來有些模糊了。”不過,對筆者來說,從這張畫素不怎麼清晰的模糊照片怎麼能看出有用的資訊啊,但那位男醫生顯然看到了一些不同尋常之處。

“哪裡模糊了?”主任問道。“你能說清楚點嗎?”

這名醫生沒著急回答,他停下來在腦中組織了詞語,想想到底該怎麼解釋。隨後,他聳聳肩表示:“它確實不太正常,我也不知道有什麼毛病,只是看起來比較有趣。”

接下來,主任又拿出了第二張 CT 片,這是第一張拍攝後 20 小時後掃描的。剛剛那位醫生指出的部位在這張片子中已經腫脹的像葡萄那麼大了,而且顏色也暗了下來。隨後主任又拿了一系列的片子讓他們看,圖中慢慢出現了一個明顯的灰色楔形區域。

當那位老婦到達醫院時,神經科大夫試圖用溶栓類藥物幫她疏通動脈,但很遺憾,她來的太晚了。第一次掃描過去幾小時後,老婦就失去了意識,醫生趕緊將她送去 ICU 病房。兩個月後,老婦還是沒有好轉,她的整個左側身體(從左臂到左腿)都癱瘓了。

從小黑屋出來後,筆者跟著主任去了她的辦公室,我想知道醫生是怎麼學習的,機器也能學會這些方法嗎?

能力不是看書得來的

筆者涉足醫學診斷行業並不晚,1997 年就在波士頓開始了臨床輪轉。為了更好地完成工作,我讀了一本有關醫學教育的經典讀物,這本書將診斷行為明確分為四個階段:第一,醫生需要藉助病人病歷和最新的體檢來蒐集有關病人的疾病或身體狀況的事實;第二,整理以上資訊並總結出一份可能病因的綜合列表;第三,通過對病人的詢問和初步測試完成所謂的“鑑別診斷”,即排除某種疾病的假設並增強另一種疾病的可能性。這一步,還要對疾病是否常見下定義,並結合病人既往病史對風險和暴露情況進行判斷(謹記“不可掉以輕心”的臨床思維),這樣列表中的可能病因就減少了;最後,醫生需要重新通過實驗室檢查、X 光或 CT 掃描來確認假設。數十年來,這些步驟及實踐中出現的變體都如實出現在教科書中,我們也從一代代醫學院學生的身上看到了這幅圖景:他們從症狀中尋找病因。

不過,隨著從業經歷的豐富,我很快發現,真正的診斷可不像教科書上那麼簡單。我所在醫學院的主任是一個優雅的新英格蘭人,他總穿著拋光的便鞋,口音濃重,並以成為專家診斷醫師而自豪。在診斷時,他會要求病人表現出某種症狀,如咳嗽。隨後他會靠在自己的椅子上思考片刻,然後嘴中冒出一串形容詞,如“微弱但刺耳”,“底噪有點大”,彷彿是在描述一瓶陳年波爾多紅酒。對我來說,這些咳嗽聲聽起來都一個樣,但我會不自覺地應和這位主任,就像一個對品酒一竅不通但還要硬裝專家的傻瓜。

這位主任的做法確實有其依據,因為咳嗽分類學家會很快通過聲音來縮小可能的病因範圍。如醫生可能會認為“這聲音聽起來像一種肺炎”或“充血性心力衰竭的溼疹”,隨後通過一系列問題,醫生就能判斷病人的大致情況,最後藉助測試來證明自己的判斷,大多數情況下,醫院的“老司機”們準確率還是非常高的。

幾年前,巴西的研究人員研究了放射科醫生的大腦,為的就是理解他們到底如何做出診斷的。這些經驗豐富的醫師在看 CT 影像時是不是心裡有一份“對照表”?或者說他們使用了“模式識別或非分析推理?”

參與這次研究的放射科醫生共 25 人,他們被要求評估肺部的 X 光,而核磁共振成像機則會隨時跟蹤他們的大腦活動。X 光影像在他們面前一晃而過,其中一些包含很常見的單一病理性損傷,如肺炎時出現的棕櫚狀陰影或積聚在肺內襯層後面發暗且不透明的流體壁。第二組影像中鑲嵌了動物的影像來干擾,第三組則加入了字母表的字母輪廓。在測試時,這三組影像會隨即展示給參與的 25 位醫生,他們必須快速說出影像的屬性,而核磁共振機則一刻不停的監視著醫生的大腦。測試結果顯示,醫生做出診斷的平均時間為 1.33 秒,而在分辨三種影像時,大腦亮起的區域相同,即左耳附近的神經元寬三角洲以及顱骨後基上方的蛾形帶。

“我們的測試結果能支援這樣的假設:醫生發現一種特徵和已知病變的過程與日常生活中命名事物的過程相似。”研究人員總結道。也就是說,識別病變與為動物命名的過程非常相似,當你認出一頭犀牛,你不會再想想其他替代動物,更不會將犀牛與獨角獸、犰狳和小象等動物弄混。對你來說,辨認犀牛已經是一種模式,而放射科專家也是如此。他們不需要沉思、回憶以及區分,他們看到的是一個常規現象。對我的主任來說,那些咳嗽聲音也像叮噹聲一樣容易辨認。

“紙上談兵”與“實踐出真知”

1945 年時,英國哲學家 Gilbert Ryle 舉辦了一場影響力巨大的講座,其主題涉及兩大知識。一個孩子知道自行車有兩個輪子,輪子充氣,車通過踩踏腳踏板來獲得前進動力。Ryle 將這種知識稱之為“書面知識”。不過,學習騎自行車光懂得這些可不夠,一個孩子要經歷摔倒才能學會平衡,學會通過坑坑窪窪的路面。Ryle 將這種隱性的、體驗式的、基於技能的知識稱為“實踐知識”。

這兩種知識看起來是相互依賴的,因為你可以用書面知識來強化實踐知識,反之亦然。不過,Ryle 警告大家要抵制所謂“書面知識”可以轉化為“實踐知識”的想法。光看看自行車說明書孩子不可能學會騎車。Ryle 認為,只有當我們知道如何運用規則時,規則才能真正發揮作用,“規則就像小鳥,必須吃飽了才能生存。”一天下午,筆者 7 歲的女兒正騎著車爬上一個小山丘。她第一次嘗試時停在了斜坡最陡峭的部分,然後摔倒了。第二次嘗試時她屈身向前傾斜,最初角度很小,隨後越來越明顯;而當坡度減小時,她會向後增加重量。但是,我可沒教過她騎自行車爬上那座小丘的規則。我想,當我的孫女學習騎自行車翻過這座小丘時,家長也不會教她這些規則。我們會傳授一些與宇宙有關的規則,但是會將剩下的留給大腦來解決。

旁聽了 Lignelli-Dipple 的教程後,我與 Steffen Haider 交談了一番,他是個通過 CT 掃描就能發現早期中風的年輕人。他是怎麼發現病變的?靠的是“書面知識”還是“實踐知識”呢?

Steffen Haider 表示自己先要學習規則,在書中他得知中風往往發生在一邊,組織在 CT 中會輕微“變灰”,且常常伴有略微腫脹,造成解剖邊界模糊。“在某些部位,大腦的供血特別脆弱。”他說道。要想認出這些病變,他必須在大腦的一側尋找那些另一側沒有出現的跡象。

筆者提醒他忽視了影像中很多不對稱的情況。這個 CT 掃描與大多數情況一樣,在腦部左側存在其他灰色的波紋,但右側卻沒有,它們可能是婦女中風前大腦中的異常運動或潛在變化。他是如何把重點縮小到這片區域的?他停了下來,沉思了一會,隨後說道:“我也不知道,有一部分是存在於潛意識裡的。”

“對於一個放射學家來說,這是在學習和成長中自然習得的。”Lignelli-Dipple 說道。於是筆者開始思考,機器是否也能用同樣的方式進行“學習和成長”。

Thrun 的理想世界

2015 年 1 月,電腦科學家 Sebastian Thrun 開始迷上了醫學診斷這個課題。Thrun 在德國長大,他身材消瘦,剃了光頭,看起來就像漫畫裡的人物。Thrun 以前是史丹佛大學教授,領導該校的人工智慧實驗室,後來他離職建立 Google X,領導會自學的機器人和自動駕駛汽車的研發。但是,他發現自己對有著學習能力的醫療裝置有很大的興趣。Thrun 的母親因乳腺癌離世,當時她才 49 歲。“大多數癌症病人一開始沒有症狀。”Thrun 說道。“我母親就是這樣,但當她去看醫生時,一切都晚了。因此,我一直想找到一個能儘早發現癌症的方法,畢竟那時我們還能將病人從死亡線上拉回來。機器學習演算法在這裡能起到作用嗎?”

學界關於自動診斷的早期研究往往與教科書上的顯性知識緊密相關。以心電圖為例,過去的二十年來,電腦解讀的通常是這些系統的特徵,執行這些工作的程式也比較直接,特徵波形與多種情況相關,如心房顫動或血管阻塞。此外,還有識別這些特徵波形並輸入到應用中的規則。當機器識別到這些特徵波形時,它會把這種心跳標記為“心房顫動”。

乳腺癌的檢查與心電圖類似,眼下“計算機輔助檢查”的方式已經不再新鮮。在檢查中,模式識別軟體會標記那些疑似出現病變的區域,隨後醫生需要對這些可疑區域進行復查以確定診斷結果是否正確。不過,如今的診斷軟體大多數利用的還是基於規則的系統,它們沒有自行學習的能力。因此,一個看過 3000 張 X 光片的機器人其實水平跟只看過 4 張的差不多。2007 年的研究進一步證明了這種檢測方法的侷限性。人們通常認為機器介入後,準確率會明顯提高,但事實上機器產生的影響很複雜。在計算機輔助診斷組中,活體檢查的準確率上升,但腫瘤學家最希望檢測到的小型侵入性乳腺癌準確率卻有所降低(後續檢測中甚至出現了“假陽性”問題)。

Thrun 相信,他能將第一代診斷裝置上基於規則的演算法替換為基於學習的演算法,這樣一來裝置就拋棄了“書面知識”,學會了“實踐知識”。Thrun 的學習演算法還加入了現在最為火熱的“神經網路”技術,因為該技術的靈感源於大腦運作的模型,所以它能完成這一學習過程。在大腦中,神經突出會通過反覆啟用而遭到增強或削弱;這些數字系統旨在通過數學手段實現類似的目的,調整連線的“權重”向預期輸出靠攏。更強大的系統會與神經元層級相似,每個系統會分別處理輸入的資料並將結果傳送給下一層,而這就是我們所說的“深度學習”。

Thrun 首先拿皮膚癌開刀,特別是美國人非常容易罹患的角化細胞癌和黑色素瘤(非誠勿擾 2 裡孫紅雷得的,最恐怖的皮膚癌)。機器經過學習,能在圖片上分清皮膚癌和那些良性皮膚病(如痘痘、皮疹等)嗎?“如果皮膚科醫生能做到,那麼機器肯定也能搞定,而且可能會做得更好。”

通常情況下,關於黑色素瘤的教學會從基於規則的系統開始,就像皮膚病醫生入門一樣。學習過程中會有一系列便於記憶的符號,如 ABCD。這些符號有其特殊含義,如黑色素瘤通常是不對稱的(Asymmetrical),它們的邊界(Borders)參差不齊,顏色(Color)呈斑塊狀,而直徑(Diameter)則超過 6 毫米。不過,Thrun 查了醫書和網路上的標本後卻發現,一些黑色素瘤的的標本並不適用於這些固定的規則。

Thrun 找了史丹佛的兩名學生幫他搞研究。學生們的首個任務就是建立一個“教學集”:這是一個龐大的圖片庫,機器可以通過對圖片庫的學習識別出惡性腫瘤。在網上搜尋一番後,Esteva 和 Kuprel 找到了 18 個已經成型的皮膚損傷圖片庫,其中包含了近 13 萬張有關痤瘡、皮疹、蟲咬、過敏反應和皮膚癌等疾病的圖片,皮膚病專家將它們分為近 2000 種疾病。值得注意的是,這些圖片庫中有一個包含 2000 個病變的集合已經由病理學家切片檢查過了,因而它們幾乎可以算是已經確診的了。

隨後,Esteva 和 Kuprel 開始了對系統的訓練,他們並沒有依據規則對其進行程式設計,也沒有教系統“ABCD”的順口溜。相反,這套系統只是不斷將影像和醫生做出的診斷分類加入神經網路中。

Thrun 將這個神經網路的工作內容描述為:“如果用一個老舊的程式去識別狗狗,軟體工程師可能會寫一千行下定義的語句,比如如果它有耳朵,一個鼻子,並有頭髮,且不是一隻老鼠等。事實上,這並不是孩子學會辨識狗狗的方法。孩子會先通過觀察狗狗和大人的描述來學習相關的識別知識。如果她把狼當成了狗,家人會及時進行糾正,這時孩子就會改變最初的認識。機器學習演算法就像小孩子,它能從已經標註好準確資訊的訓練集中汲取資訊,隨後再從中汲取狗的特徵,接著它會自行用成千上萬的圖片進行對比測試並最終學會識別狗狗的方法,整個過程與孩子識別狗狗完全一樣。”通過這個過程,系統學會了“實踐知識”。

2015 年 6 月,Thrun 的團隊開始通過“驗證集”來測試機器從影像中都學到了什麼。這次測試中共包含了 1.4 萬張經過皮膚病專家診斷的圖片(並不一定經過活檢),機器的任務就是將這些影像分成 3 組:良性病變、惡性病變和非癌生長。結果顯示,該系統的準確率達到了 72%。兩位得到認證的皮膚病醫生也一同做了測試,但他們的準確率卻只有 66%。

隨後,Thrun 師徒三人將研究擴充套件到了 25 位皮膚病學家,而這一次他們使用了一個黃金標準——約 2000 張經由活檢證實的影像“測試集”,結果顯示,醫生們完全不是機器的對手,機器沒有錯過任何一個黑色素瘤。此外它還更加精確,不會將某個腫瘤錯診斷為黑色素瘤。

“在論文中,其實還有個關於網路的關鍵問題沒有重點強調。”Thrun 說道。在第一次涉足該領域時,Thrun 的團隊用的還是個“很傻很天真”的神經網路,不過他們發現如果用的神經網路已經會識別一些不相關特徵(比如狗和貓),它就會學的更快也更好,也許我們的大腦也遵循類似的原理。回想高中那些令人無語的枯燥訓練,如多項式因式分解、動詞變化和元素週期表,反而讓人記憶更加敏捷。

在訓練機器時,Thrun 的團隊需要對圖片進行處理。Thrun 希望有一天人們能通過智慧機圖片上傳獲得精確的診斷,不過這就意味著該系統必須適用於多種角度和照明條件。Thrun 也有擔心,因為“在一些圖片中,黑色素瘤的部位被用黃色記號筆標註了,因此他們必須將這些部位裁剪掉,否則 Thrun 的團隊可能就是在教計算機如何識別圖中的黃色標記。”

其實這難題古已有之:一個世紀前,德國公眾就被聰明的 Hans 深深吸引了,這匹馬靠的不是日行千里,而是可以做加減運算並用敲蹄子的方法給出答案。進行一番研究後人們發現,Hans 並不是什麼聰明馬,它只是能感受自家主人的表情和動作。當 Hans 回答正確,主人的表情和動作都會放鬆下來。因此,Hans 的神經網路並沒有學會計算方法,它只是學會了閱讀人類的肢體語言。“這就是神經網路的奇怪之處。”Thrun 說道。“你根本不知道它們用了什麼資料,它們自己搞了個黑箱,內部的工作非常神祕。”

“黑箱”問題是深度學習的專屬,這套系統並不是由醫學知識和診療規定引導的,相反它會有效的進行自我教育,通過大量內部調整(類似於加強和減弱大腦中的突觸連線),學會區分普通的痣和黑色素瘤。那麼它到底如何確定某個病變部位是黑色素瘤呢?我們也沒有答案,深度學習也無法解釋原因,一切的內部調整和處理方式都在我們的監視之外祕密發生著。當然,這樣類似的“黑箱”在我們大腦中也存在。當你控制自行車慢慢轉向時,身體會自動向相反方向傾斜,筆者的女兒也知道這個技巧,但她做出這些動作時自己根本就不知道。黑色素瘤診斷機器必須從圖片中看出所以然來,不過如果它不能將技巧告訴人類,會有什麼影響嗎?它就像微笑的知識之神,遇見這樣的機器,你就能得以一窺動物感知人類心靈的某種方式:無所不知但卻無法理解。

Thrun 設想的世界是這樣的:在這裡人類時刻處在診斷機器的監控下,我們的手機能通過語音模式的轉變發現老年痴呆症的先兆,而方向盤則能通過手部的遲鈍和抖動來確定人是否有可能患上帕金森症。在洗澡時,浴缸則會通過無害的超聲波或磁共振來執行掃描工作,並以此來判斷女性卵巢中是否有需要檢查的部位。大資料會注視、記錄並時刻對你的身體狀況進行評估,我們將在不同演算法的眼皮底下生活。一旦進入了 Thrun 設想的世界,就進了滿是診斷鏡的大廳,這裡的檢測專案一個接著一個。

這樣的願景確實讓人心生嚮往,不過這樣的醫學“全景監獄”能通過無死角甚至細小到細胞的掃描來提前探知癌症的出現嗎?它能為癌症檢測帶來什麼突破嗎?聽起來好像一如反掌,但這裡卻有個大坑:許多癌症都屬於自限性疾病,我們會與它們一起死去,而不是被它們害死。一旦這種診斷引擎誕生,醫生可能會突然多出數百萬不必要的活檢任務。在醫學上,早期診斷可以挽救或延長生命。但有時,你會陷入恐懼之中,根本無法享受最後的時光,因此人對診斷結果的接受程度根本無法精確拿捏。

當被問到這種系統對人體診斷的影響時,Thrun 表示:“我對放大人類能力方面感興趣。機械化的農業確實消除了一些傳統的農業形態,但它卻提高了我們的農業生產力。事情都有好有壞,不過新型態的農業確實能養活更多人了。”工業革命就增強了人類肌肉的力量,當我們用手機時,人類語言的力量也得到了放大。畢竟用肉嗓子喊,紐約的人可聽不到加州的聲音。”Thrun 和筆者當時就身處兩地。“你手中的這個小方塊讓人的聲音能快速傳遞 3000 英里,它替代人類聲音了嗎?當然沒有,它只是人類聲音的放大器。未來,認知革命將讓計算機將以同樣的方式增強人類的思維能力。就像機器使人類肌肉增強了一千倍一樣,機器也將令人類的大腦變聰明一千倍。”Thrun 堅持認為深度學習裝置不會取代皮膚病醫生和放射科醫生,它們會成為專家們的力量倍增器,為他們提供專業知識和必要的輔助。

Hinton:醫院不用培養放射科醫生了

Geoffrey Hinton 是來自多倫多大學的電腦科學家,他對學習機器在臨床醫學中的作用看的也很重。Hinton 是著名數學家 George Boole 的玄孫,後者發現的布林代數是數字計算的關鍵基石,有時人們甚至稱他為深度學習之父。Boole 在 19 世紀 70 年代中葉開始研究相關課題,他的許多學生都成了該領域的超級大牛。

“我覺得如果你是個放射科醫生,那其實你就像動畫裡的 Wile E. Coyote(歪心狼)。”Hinton 說道。“你已經衝的太快飛下了懸崖,但自己都不知道往下看看,下面已經沒路了。”專用於乳腺和心臟造影的深度學習系統已經完成了商業化開發。“毫無疑問,五年之內深度學習的診斷能力就會超過放射科醫生。當然,也可能需要花十年,我此前就曾亮明這一觀點,但許多人不願接受。”

當年 Hinton 的觀點很直率,他在醫院表示:“醫院無需繼續訓練放射科醫生了。”筆者拿這個問題詢問 Angela Lignelli Dipple 時她表示,放射科醫師可不是僅僅在做“是或不是”的分類工作。除了定位導致中風的栓塞,他們還在關注其它地方的小出血,這些小出血可能會令溶栓藥物的使用造成災難性的後果。他們在尋找一種意料之外的、或許依然處於無症狀狀態的腫瘤。

現在,Hinton 確實有資格說這話。“放射科醫生的職責將從完成感知任務變成解決認知任務。”他對醫學未來的預測是基於一個簡單的原則,即“如果你掌握某種舊式分類問題的大量資料,那麼就考慮去解決它吧,而深度學習就能完成這個任務。到時會有數以千計的深度學習應用程式出現。”他想用深度學習演算法來分析 X 光片,CT 掃描和核磁共振等醫學資料。不過這只是近期規劃,未來“深度學習演算法將做出病理學診斷。”它們能看懂 Pap 塗片,也能聽懂心跳或預測精神病患者復發的可能性。

隨後,筆者還與 Hinton 探討了黑箱問題。雖然電腦科學家也在努力找答案,但 Hinton 明確表示那些試圖開啟黑箱,或找出深度學習系統到底如何學習技能的努力都是微不足道的,誰要是說自己解決了黑箱問題,一定是在騙人。

不過,這個問題可以伴隨我們一起成長。Hinton 表示:“想象在某場比賽中,一名棒球運動員與一名物理學家比賽來猜球會在哪落地。棒球運動員在訓練和比賽中一次又一次的練習拋球,他可能不瞭解任何方程式,但是他知道球到底會有多高、能達到多大的速度以及它會落在哪裡。當然,物理學家也可以通過方程式來判斷同一件事物。雖然方式方法不同,但兩者能得到同樣的答案。”

雖然前途光明,但在此前的乳腺 X 射線檢測中,計算機輔助系統的表現卻非常令人失望。因此,任何新系統都必須通過嚴格的臨床測試完成評估。不過,Hinton 也強調,新的智慧系統是為了從其錯誤中吸取教訓,從而隨著時間的推移而不斷改進。“我們需要搭建一個能蒐集每個錯誤診斷的系統,並將其反饋到機器學習系統中。到時我們就能詢問機器,這裡你遺失了什麼?能改進下自己的診斷結果嗎?放射科醫生現在還享受不到這樣的系統。如果你遺漏了某件事,導致 5 年後你的一個病人患上了癌症,這時沒有系統的例行程式來告訴你如何糾正自己,但你可以在系統中建立這種機制來教計算機完成這一任務。”

眼下,一些野心最大的機器學習診斷演算法在試圖整合自然語言處理技術(好讓計算機能讀懂病例)和從教科書、期刊和醫學資料庫獲得的醫療方面的百科知識,著名的 IBM 和 DeepMind 都是其中的佼佼者。筆者見過多個系統的演示,但它們的許多功能,特別是與深度學習有關的,都還在開發中。

Hinton 對未來的深度學習診斷充滿熱情,這份熱情的來源有一部分就是他自己的經驗。在 Hinton 開發此類演算法時,他的夫人被發現得了晚期胰腺癌。禍不單行,Hinton 的兒子也被查出得了惡性黑色素瘤,但隨後活檢結果顯示該病變是一個基底細胞癌,並沒有想象那麼嚴重。“在這方面我們還有很多要學。”Hinton 說道。“儘早儘快的診斷非常重要,為什麼不讓機器幫我們一把呢?”

手藝出神入化的 Bordone

早春三月一個寒冷的早晨,筆者拜訪了位於曼哈頓第一大街 50 號的哥倫比亞大學皮膚診所。診所的主治醫師 Lindsey Bordone 當天共有 49 個病人預約,才早上十點,他的候診室就已經人滿為患。一位 60 歲左右留大鬍子的男子坐在角落,用羊毛圍巾把脖子上的疹子擋了起來,而另一對心神不寧的夫婦則在看著自己手中的《時代週刊》。

Bordone 眼看病人快速湧來,在一個由熒光燈照明的裡屋內,一個護士坐在計算機前對病人的病情做了簡單總結:“55歲,無既往病史,但其皮膚上卻有可疑點。”隨後,Bordone 進入化驗室,她的金髮甚至因為跑的太快而飄了起來。

隨後,Bordone 又看了一個 30 多歲的男病人,他臉上起了紅色的疹子。在檢查過程中,這個病人的皮膚甚至開始從鼻子上掉了下來。Bordone 讓他躺在燈下並細細觀察他的皮膚,最後又拿起了手持皮膚鏡對病人進行檢查。

“你頭髮裡有頭皮屑嗎?”Bordone 問道。病人有點懵,他回答稱“當然有。”

“這是面部皮屑,”Bordone 告訴他。“你遇到的情況有些糟糕,但問題是它現在為什麼會出現並且情況變得越來越糟了呢?你在頭髮上使用過什麼新產品嗎?或者你家人會給你一些比較大的家庭壓力嗎?”

“壓力肯定有的。”病人說道。最近他丟了工作,需要處理一些經濟上的問題。

“以後你著手寫日記把。”Bordone 建議道。“通過日記我們能找到你的病情是否與生活壓力有關。”隔壁房間是一個年輕的律師助理,他的頭皮上起了一片發癢的疙瘩。Bordone 摸他的疙瘩時他趕緊避開了。“只是脂溢性皮炎而已。”她迅速完成了這個檢查。

另一個房間的女病人則換上了病號服,她過去被醫生診斷為黑色素瘤,因此非常注意自我保護,以防惡化。Bordone 詳細的掃了一遍她的皮膚,每個可能的部位都看了看,整個過程花了 20 分鐘。結果相當喜人,只有一些痣和角化病,並沒有黑色素瘤或者癌。

“看起來一起都很好。”她高興的說道,女病人心裡的擔子也終於落下了。

整個過程就像凱撒大帝的名言,只不過人物換成了 Bordone:她來、她看、她診斷。與 Hinton 這樣的“草原狼”不同,她更像是瘋狂的尋路者,試圖用接二連三趕來的病例來跟上時代的步伐。Bordone 在屋裡寫筆記時,筆者詢問了她對 Thrun 未來診斷願景的想法:就像一張 iPhone 拍的照片通過 email 發給外部網路,召集了一群專家來評價。

像 Bordone 這樣的全職皮膚科醫生,一生中會看到約 20 萬個病例。史丹佛的機器演算法卻在 3 個月內獲取了近 13 萬的病例。與其相比,每位新晉的皮膚科醫師都需要從零開始,但是 Thrun 的演算法卻一直都處於獲取病例、成長和學習的過程中。

Bordone 聳聳肩表示:“如果它能提高我診斷的準確度,我很歡迎機器的到來。我的病人可以直接將患處的照片發給我,這樣我能幫到的病人就更多了。”

Bordone 的回覆聽起來合情合理,讓我想起了 Thrun 的所謂“增強”理論。不過,機器學得越來越多,人的知識量是不是會越來越少呢?這種擔心父母就有,孩子經常用手機中的拼寫檢查功能,是不是慢慢的忘記字母拼寫呢?這種現象被稱為“自動化偏見”。當汽車有了一定的自動駕駛能力後,司機就容易開小差,這樣的情況在醫療行業也會出現。

當然,Bordone 可能是新時代的 John Henry(美國民間傳說中的黑人英雄,對抗蒸汽機),但無法忽視的是,她的心確實在自己的工作上,檢查每塊皮膚時她都是那麼認真。如果機器來幫忙,Bordone 還能維持自己的優良作風嗎?

除了檢查認真,Bordone 與病人間還有其他互動模式。舉例來說,病人離開診室時心情看起來都不錯,Bordone 認真撫摸和檢查過他們的皮膚,且願意與他們友好交談。因此即使話語中會出現類似“痣”和“角化病”這樣的名詞,人們心中也會稍感欣慰。

除了豐富的人文關懷,Bordone 在診斷技術上也出神入化,她能在短時間內認出患者皮膚病的型別。巴西研究人員認為,當 Bordone 識別出某一模式時,你幾乎可以看到她大腦後下方的神經元角錐狀物所迸發出的火花。不過送走病人並不意味著 Bordone 工作的結束,她還會花大量時間來研究病人出現病變的原因。是因為壓力嗎?還是洗髮水有毒?難道是因為對游泳池中的氯過敏?為什麼在這個季節患上皮膚病?

筆者認識到,原來臨床實踐中的最有力的因素,不是瞭解它或是知道如何去掌握案例的事實情況,或是識別出醫生們所構建的模式,而是那存在於知識第三個領域中的“瞭解原因”。

機器是否會讓醫生丟掉初心?

對問題的解釋可淺可深。舉例來說,你手指上出了一個紅色的水泡可能是因為你碰到了一塊熱鐵,也可能是因為燒傷激發了前列腺素和細胞因子的一個炎症級聯反應,但其中的調控過程依然讓人摸不著頭腦。因此,知道為什麼、提問為什麼,是我們通向各種解釋的關鍵渠道,而解釋正逐漸成為掌控醫學進步的核心。Hinton 還曾談到棒球運動員和物理學家,他認為醫師、人工智慧或普通人都能成為棒球運動員,但習得球技後恐怕大家都說不出到底如何打好棒球。醫學研究者也能成為物理學家,就像棒球場上也能出理論家,但他們有知道“為什麼”的渴望。這是一個方便的職責分工,但是否也意味著損失?

“深度學習系統可不會自我解釋。”Hinton 直截了當的說道。既然是黑箱,就意味著原因無法調查。Hinton 表示:“深度學習系統越強大,就會變的越不透明。由於掌握了更多病因,診斷將變得越發準確,但為什麼這些特徵會從數以百萬計的其它特徵中被提取出來,仍然是一個無法回答的問題。”演算法能解決一個病症,但它卻無法建立病症。

在筆者從事的腫瘤學領域,那些技術高超的大牛們通常也是喜愛鑽研之人。事實上,在過去幾十年間,有 夢想的醫生曾經努力想成為上面所提到的棒球運動員和物理學家:他們試圖用敏銳的診斷來理解疾病的病理生理學。為什麼皮膚病變後的不對稱邊緣意味著黑色素瘤的出現?為什麼有些黑色素瘤會自然消退?為什麼黑色素瘤的案例中會出現皮膚變白的情況?有趣的是,醫生們在臨床上觀察到的情況,最終都與如今臨床使用的特效免疫藥的發明息息相關。這就意味著,臨床是許多疾病治療藥物的起點。如果越來越多的臨床實踐被黑箱所取代,我們是否會逐漸退化,變成只把能做的做得更好的人,但對於重新審視我們所應該做的事情或跳出黑箱進行思考時卻變得無能為力?

關於人類自動化的未來,筆者還與哥倫比亞大學皮膚病專家 David Bickers 進行過深入的交談。Bickers 表示:“相信我,我已經試著理解了 Thrun 論文的相關知識。雖然不理解其背後的數學思維,但他提到的演算法確實能改變皮膚病學的實踐。皮膚病專家會因此失業嗎?我看難,不過我認為學界應該多思考怎樣將這種技術引入醫療實踐。我們該怎麼為這樣的協助付費?如果機器診斷錯誤,誰該負這個法律責任呢?如果依靠這樣的演算法,是否會削弱我們的實踐,或者作為診斷專家的自身形象?最終,我們訓練的是否會成為技術人員而不再是醫生?”

談了一段時間後,Bickers 看了看時間,稱病人在等他,所以要先走了。“我這一輩子只從事了診斷學家和科學家兩個職業。我瞭解病人對我的依賴,我也知道醫學知識來源於診斷。”Bickers 說道。

英語中“診斷”一詞,其實是來源於希臘語中的“知道如何區分”,機器學習演算法在疾病的區分上確實會越來越強,從全域性來看它也會超越那些專注於解決任務的單一演算法。在醫學領域中,也許只有獲得整體理解的能力,才能拿到終極回報。

原文:紐約客

編譯:雷鋒網