本文編譯自長期關注醫學領域的知名部落格lukeoakdenrayner,作者盧克·奧克登-雷納(LukeOakden-Rayner)在引言裡說道,自己在推特上就相關話題和網友做了大量的討論,早就想列這樣一個清單了,同時盧克也表示這十個觀點一定會引起反駁,和已有的主流觀點也會有出入和衝突。作為該領域極為出色的作者,盧克究竟對哪些主流看法提出了挑戰呢?
1.開放資料並不一定是好事
第一條就是重炮!花費大量真金白銀才拿到的獨家資料是公司將新產品推向市場參與競爭時的重要籌碼。沒了這個籌碼,那麼公司的投資回報率就沒那麼有保障了。為什麼要花費巨資研發一款日後誰都可以坐享其成參與生產的新產品呢?從這個角度說,開放資料反而阻礙了行業的進步。雖然資料共享有助於產出更多的研究論文,但卻不會有新產品的誕生。開放資料對於差異化也是巨大的災難,大家會拼命向著公開資料中最好的那部分做過擬合(過擬合,或稱過度擬合,是指在擬合一個統計模型時使用過多引數。即使是一個荒謬的模型,只要足夠複雜,引數足夠多,都可以做到完美匹配資料,譯者注。)
2.對於訓練模型來說,正常和反常資料交織在一起是巨大的挑戰
反常資料,或者俗話說的黑天鵝是無處不在的,以至於你收集的資料永遠不可能覆蓋所有情況,而且你發現異常資料的嗅覺通常不會那麼靈敏(更何況你根本拿不到異常資料)。我猜想,要是一款“正常胸片檢測器”上市,那麼就會有大量的骨骼腫瘤被漏診。
3."人工智慧"是一個偉大的概念
我們都明白“人工智慧”這個詞意味著什麼,它為這個行業帶來了諸多利好和資金,而且坦率來說我們所做的事情就如同魔法一樣(就像那句著名的“科技發達到一定程度就是魔法”所說的),你要是認為“AI沒什麼神奇的”,那你就需要一點孩子般求知慾了:我們可是用數學把聲音轉化成了意義、把影象轉化成了決策的。所以就讓我放手去幹吧。
4.深度學習對於電子健康檔案(Electronic Health Record, EHR)是相當無能為力的
這麼說不僅僅是因為深度學習對於EHR非結構化的資料不太靈光(有一件事我很困擾:就因為它們排成了幾行幾列,就常常被說成是“結構性資料”。其實它們並沒有什麼可以利用的內部結構!),而且我看不到任何技術突破的跡象。深度學習在影象、文字、聲音等等領域大展拳腳,是因為所面對的是特徵子集非常有限(也就是說存在空間關係)。EHR 資料就不一樣了,毫無內在結構可言(唯一的例外是EHRs的時間序列資料,它們確實有時間結構,或許可以為深度學習所利用)。所以深度學習並不比更簡單的機器學習模型效果更好。
5.使用者的資料可解釋性(資料解釋性是一個專業名詞,這裡可以理解為對資料解釋工具的需求)被高估
如果你的模型有效,大多數醫生會樂於將所有的相關決策交給人工智慧來做,而不需要配套的資料解釋工具。可解釋性方法充其量給臨床醫生提供了虛幻的安全感(在我看來,可解釋性方法其實非常重要,但不是對技術員來說。這些方法大可以成為工具,讓我們這些做品質保證的書呆子用來監控和檢修AI,以保證系統持續安全)。儘管如此,對於視安全性高於一切的資訊長(CIO,通常是公司內資訊系統的最高負責人)來說,人為的資料解釋工作才更有吸引力。因此,目前普遍以熱點圖的方式做註釋的做法多少有些諷刺意味。
6.如果一支團隊只會為任務建立花哨的新模型,它在醫學上就取得不了任何進展
如果有人自制了一個模型,而不是利用現有的密集網路/殘差網路/卷積網路/初始網路等等,那麼他從事的就是機器學習研究,而非醫學研究。建立並除錯你自己的模型,這個過程意味著你十有八九會對特定的資料做過度擬合,這對良好的醫療系統是一道詛咒。對於使用新穎架構在醫學資料中得出的結果,我是相當懷疑的。
7.釋出公共程式碼對醫學人工智慧研究沒有多大意義
它並不能提升高效能系統的重現性,因為若沒有一個同樣優秀(但內容不同)的資料集,我們就無法驗證結果。就算有了共享的資料,在同樣的資料上執行同樣的程式碼,也只能證明結果不是編造出來。
8.視覺識別已經相當完善
計算機視覺模型在效能上已經不會再有大的改進。我們會看到資料利用率和半監督學習方面的緩慢進步,但是只要投入足夠的努力和資料,AI就能在幾乎任何一項資料任務上達到人類水平,甚至超越人類。我們已經達到了最小誤差。
9.無監督學習沒有臨床意義
目前來看,所有可能為臨床增添價值的AI都是受到監督的,因為以現在的輸入而言,人類的表現已經接近最佳。無監督學習的表現越來越好,但它遲早會出差錯,而且那肯定比人類的差錯嚴重。當然,在有些情況下,無監督學習能對監督學習起到補充作用,但是要用巨量未標記的資料來解決醫學問題,現在還為時過早。
10.任何AUC(Area under the Curve of ROC,一種模型評價指標)指標低於0.8的系統都不要信任
因為這個數值大致代表了醫療AI系統對非病理性影像特徵過度擬合時的表現,這些特徵包括X光掃描器採用了什麼模型,或者是哪個技術員拍攝的影像(這些在影像中多少都可以辨認出來)。這些系統多半會成為失敗的臨床AI系統,因為它們沒有概括能力。顯然,把這條線劃在0.8是把問題過度簡化了,但是對於許多普通的醫療任務,這還是一條好用的經驗法則。