為什麼醫學影像AI已進入「後深度學習時代」?

dicksonjyl560101發表於2019-05-15


“深度學習正走向兩極化,大部分研究深度學習的人員會偏向於工程化,包括建立更加全面、便捷、快速、視覺化的深度學習平臺,'暴力'地將深度學習應用到更加多的領域。小部分的深度學習研究者會偏向於理論化,解決深度學習的理論瓶頸包括可解釋性等問題。”

密歇根州立大學湯繼良教授曾如此總結到。

醫療AI熱潮,無疑離不開這波深度學習的發展,但由於深度學習的天然侷限性和醫療領域的特殊性,使得醫療AI這一交叉的領域,也在進入瓶頸期。

隨著深度學習即將觸及天花板,醫學影像分析科研人員也隨之分為兩大派別:理論派和工程派。

理論派的初衷,是解決深度學習“短缺”的部分,強調人工設計和數學論證,透過預先構建先驗知識,在不過度依賴大資料的前提下,開發出一個可解釋的、高精度、可解決諸多長尾問題的“智慧模型”。不少專家認為,醫療AI中有大量Mission Critical和長尾問題,這對研究人員的整體系統設計能力要求非常高,因此人的作用就顯得尤為重要,而基於黑箱統計模型的深度學習,顯然存在太多的弊病。

工程派的做法,則是進一步發揮深度學習自身的優勢,揚長避短,獲取更多標註資料,設定更多引數,用更強大的算力,訓練出一個能夠學習更多維度特徵的“經驗模型”。其本質是建立某種學習和搜尋的Meta Method,依靠摩爾定律帶來的指數增長的算力,讓機器自行構建複雜的知識系統。

前者強調人工設計,後者依靠機器自主構建。

後深度學習時代的醫療AI研究走向,正朝著這兩個看似極端的方向發展,工者愈工,理者愈理。

前者的難度在於理論的突破,從某種程度上取決於個別人的開創性研究成果;而後者在很大程度上取決於整個行業的資料標準化、開放化和監管進度。

二者雖殊途,但目的是同歸。

深度學習+醫學影像的瓶頸

電子科技大學教授李純明曾在接受雷鋒網AI掘金志採訪時談到,深度學習吸引人的地方在於,原則上它在不同的應用中均可以使用同樣的訓練演算法框架。

只需替換訓練資料和相應的標註進行訓練,即可得出一個具有某種輸入輸出關係的多層神經網路。

輸入一個資料,系統就輸出一個結果,應用過程可以做到全自動。

但這種看起來一勞永逸的框架,在實際應用中還有一些侷限。

以醫學影像分析為例,由於醫學影像資料複雜多變,不同器械商的成像裝置、不同的成像引數選擇、成像裝置的更新換代等因素,都會導致影像性質(如訊雜比、解析度和偽影等等)的變化,以及不同病人與病情的差異也會導致影像特徵的變化。

訓練資料如果不夠“大而全”,一旦遇到跟訓練資料有一定差異的資料,加入一點噪音,神經網路輸出的結果可能就會出很大的錯誤。

但訓練資料要多“大”多“全”?也並未有一個客觀的量化標準。

深度學習需要用醫生手工標註的資料,還要求訓練資料和手工標註符合一定的標準。

但資料的標準化,還尚未提出通用的法則遵循。而在演算法層,深度學習的調參也並沒有規律可循,調參難題至今未得到實質性解決。

這些都可能會給深度學習的應用帶來諸多不確定性,致使其在不同資料集上的效能可能會截然不同,魯棒性較差。

在醫療領域的應用上,深度學習的不可解釋性也是個無法迴避的問題。

醫生和病人都很難接受這種不可解釋的診斷結果和治療方案,而當前工科會議的論文,基於不可解釋的深度學習研究成果幾乎是主流。

“資料驅動的深度學習只是資料處理的工具之一,它在醫療領域離真正的落地還有相當大的距離,還需在理論和技術上有所突破。學術界研究深度學習不應太工程化,應該多研究一些基礎性的理論問題,提出更有原創性的演算法。”李純明談到。

“我認為,從眼前來講,不應該一窩蜂都用資料驅動的深度學習。一些醫學影像演算法的開發也應該針對不同的應用,去設計不同的演算法,開發者儘可能在演算法中融入領域知識,設計出針對特定應用的個性化的方法,而不是對每個病種都在TensorFlow或Pytorch等開源框架上用不同的資料進行訓練和調參。由於深度學習這種資料驅動的學習過程,是一種較少利用領域知識的機制,因此技術的開發也就幾乎不需要開發者與醫生的交流。醫生在技術開發的過程中只起到了對訓練資料手工標註的作用,也就是說醫生被當作人工智慧背後的‘標註工人’來用。”

“從長期來講,資料為王的醫學影像AI研究方法,在未來遇到的問題將會越來越多。當前多數學者更多停留在簡單的工程問題,缺乏在基礎研究上的突破性進展,企業界的技術開發也因此遭遇瓶頸。”

與此同時,現在的深度學習其實是一個有問題的框架,用大量標註資料做訓練的方法,在過去幾年很成功,但在解決醫療這類擁有諸多“非封閉”和”長尾”問題的領域,當前的深度學習主流研究,並不代表是正確的方向。

現階段,計算機視覺系統是一個Training System,而不是一個Learning System,我們需要從Training System變成Learning System,讓機器主動,並結合資料的結構、時間空間結構去學習,而不是被動地用人工訓練來標註它。

目前行業走的是粗放型發展路線,是靠堆積資料和計算資源來換取高效能,這是資源而不是效率的競賽。在大家把醫學影像分析聚焦於Data Set的大環境下,雖然在工業界已有一定的成果,但理論派認為,原創性技術和基礎研究,更值得工科人去關注和投入。

AI理論創新之外的解決方法

正是由於深度學習遭遇的種種問題,也促使優秀科學家加大了對基礎理論的研究。

而另一方面,在部分臨床問題中,也可透過在非技術層的行業標準構建等方法,來逐步推動醫學影像AI輔助診斷的發展。

第一步,則需定義好要解決的問題。

上海長征醫院影像醫學與核醫學科主任劉士遠在2018中國醫學人工智慧大會的演講中指出,現在的AI醫療產品遇到的首個問題便是實用性差,如現在常見的影像AI產品大多是基於單病種影像標註形成的模型,尚未符合臨床實用場景的產品,而且大多數產品效能的自報資料與實際檢測資料不符,魯棒性有待提高。

AI產品往往只是集中在少數幾個病種,難以覆蓋全部醫學影像問題。

其次,行業現在普遍缺乏標準化高質量的訓練資料,國內外雖然有很多公開的資料庫,但是存在同質化和人種差異等問題。

而且眾多人工智慧企業和機構採用的訓練資料集標準多樣,系統偏差較大,行業缺乏醫學影像和疾病徵像的統一認識。

整個行業的醫療資料保護和監管措施也有一定的缺失,資料不能被溯源,缺乏合法性和可分享性。

同時業內也缺乏對資料使用標準的判斷依據,在現有的法律基礎上尋找合規使用和分享資料的渠道,也是迫在眉睫的一件事情。

劉士遠建議到,構建標準庫,離不開醫生的參與。

要形成與AI研發相關的標準和資料,需要在影像採集環節、標準庫構建環節、病種的分佈以及各種描述術語等層面,都要達成一定的共識。

2018年9月,國家頒佈了《國家健康醫療大資料標準、安全和服務管理辦法(試行)》。此外,在肺結節領域,中檢院肺結節AI檢驗資料庫標定專家組已經完成肺結節標準資料集建設。

這些均為標準的建設,做好了鋪墊。

當然,影像標註環節也存在很多問題,以肺結節標註過程為例,其主要存在以下問題:標註者隊伍混亂,資質不一;影像徵象認識不統一;影像標註方法不統一;影像分割方法不統一;影像量化方法不統一。

據瞭解,中檢院在構建肺結節標準庫的過程中,從全國招了250名5年以上經驗的影像科醫生志願者,對他們進行了簡單的測試,使用了30例結節,結果準確率只有30%,說明如果沒有共識和基礎培訓,醫生的標註準確率很低,非影像科醫生甚至不是醫生的準確率更難以想象。

而標註的方式,有緊密包裹法、區域標註法等,不同的標註方法輸出的結果也不盡相同。

“影像分割如果沒有統一的標準,結論的差別也會非常巨大。

還有量化的方法,到底是測直徑,還是測體積,還是測質量,怎麼測,行業都需要形成一致意見。

在醫學影像AI模型檢測階段,也會存在生產過程不規範,模型效果和安全性缺乏公正評價,缺乏產品檢測標準庫和評價體系,缺乏相關法律法規、質控檢查和管理制度等問題。

在AI模型使用階段,受歡迎程度,對醫生的影響,過多的假陽性,倫理和法規,是否匹配醫院和醫生的需求等問題也尚待解決。”

另外,也需考慮其他問題:

產品應遊離於資訊系統之外,還是融合於資訊系統之內?

年輕醫生對AI產品產生依賴之後,是否會導致業務能力下降?

資料的倫理和產品的倫理問題:資料的倫理就是資料的所有權、許可權和隱私權都需要制定規範,現在衛計委已經發布了相關標準和規範。第二個則是產品的倫理問題,隨著產品的逐漸落地,產品的責任和影響都需要倫理的相關準則來考慮。

劉士遠教授還強調,影像診斷是全鏈條、多維度的工作,工作內容不僅僅是影像識別,需要充分發揮醫生在醫學影像AI研發過程中的作用。

在資料上,醫生可以建立大樣本的單病種資料庫,提高訓練資料質量,並在此基礎上規範化標註,形成高質量訓練集,還要學會在法律法規下分享和使用資料。

醫生還應當成為質量控制和標準的制定者和執行者。如制定影像採集和影像質量的標準,制定資料庫建設的構成比例、病種分佈、病灶型別等專家共識,並形成各單病種影像徵象和描寫屬於以及單病種AI模型資料標記專家共識。建立一套正確的基本倫理準則來指導AI的設計、管理和應用。

醫學影像AI的未來

無論是AI理論創新,或是非理論層的行業標準建立,其均是醫學影像AI成功的必備條件。

2019年7月13日,由中國計算機學會、雷鋒網、香港中文大學(深圳)聯合舉辦的CCF-GAIR全球人工智慧與機器人峰會,將開設“AI醫療”論壇。

本論壇以“後深度學習時代的醫療AI”為主題,邀請全球最具代表性的理論派、工程派專家以及知名企業家,在大會上分享最新醫工交叉與產學融合研究成果與應用案例。

目前,計算機視覺與醫學影像分析界泰斗級人物Demetri Terzopoulos院士已確認出席,與此同時,雷鋒網也在邀請世界級醫療集團高管,CVPR、MICCAI等頂會 ZX 參會。

在上一屆CCF-GAIR的醫療論壇中,中科院自動化所研究員田捷、飛利浦中國CTO王熙、MICCAI大會沈定剛、微軟亞洲研究院副院長張益肇、美國科學院候選院士邢磊等專家均針對2018年醫療AI遇到的難題,提出了自己的見解。

2019年7月13日,我們將進一步揭開“後深度學習時代”醫療AI的走向。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2644440/,如需轉載,請註明出處,否則將追究法律責任。

相關文章