專訪北京協和醫院陳有信主任:兩年而立,樣板第三方測評資料庫重塑AI測評

动脉网VCBEAT發表於2020-08-06

建立AI標準資料庫這一設想早在2017年便已有有識之士提出,最早的標準資料庫圈定在了彩色眼底影像和肺部CT影像兩個範圍內,當時主要以《醫療器械軟體註冊技術審查指導原則》、《移動醫療器械註冊技術指導原則》和《醫療器械網路安全註冊技術審查指導原則》三個指導檔案作為建庫基準,建立了包含6327例資料的眼底影像標準資料庫與包含623例資料的肺部影像標準資料庫,其標準化流程可以說走到世界前列。藉助標準資料庫與相關標準流程,就可以對AI產品進行審評審批。

不過,這個資料庫並沒有沿用太久,原因主要有以下幾點:

  • 其一,資料來源於醫院與企業的共同標註,由於缺乏資料行業標準,各家企業提交的資料差異太大,與真實世界情況發生偏移;

  • 其二,在測評過程中,企業既是資料提供方,又是資料考核方,其結果難以保證絕對的公平公正;

  • 其三,由於資料庫缺乏嚴謹的質量控制體系,資料質量的不可控以及不可溯源同樣存在安全隱患。當然,資料量、資料安全、資料利益歸屬等問題也一定程度上阻礙了這項工作的後續發展。

期間也有醫院、機構嘗試建立自己的測評資料庫,但一直沒有產生太大的波瀾。歸根結底,標準資料庫的建立不僅需要權威機構主導、政策助力,還需要資料標準的確定、測評平臺的建立……多條件的疊加,標準資料庫才建得起來,跑得起來。 

時至今日,距當年的兩個資料庫建立已經過去約30個月,醫療AI產業發生了巨大變化,大家對於醫療AI發展的桎梏與解決方案已經逐漸清晰。在這個時間節點上,北京協和醫院重磅釋出了按《深度學習輔助決策醫療器械審評要點》構建的糖尿病視網膜病變常規眼底彩色照相AI標準資料庫(簡稱“糖網AI標準資料庫”),重啟標準資料庫建設,預示著醫療AI的第三方檢驗迎來突破性進展。

據動脈網瞭解,工信部、信通院、各大醫院、高校等機構對此合作了一年多時間,才有今天的成果。

糖網AI標準資料庫是如何建立的? 

2019年6月起,國家藥監局開始頻繁在醫療AI的標準制定上展開動作。6月29日,藥監局正式向AI企業釋出《深度學習輔助決策醫療器械軟體審批要點》,將審批相關的具體指標確立下來。

檔案下發僅半月後,藥監局再次開展了AI器械審批相關的大動作。7月17日,國家藥品監督管理局醫療器械技術審評中心、中央網路辦國家計算機網路與資訊保安管理中心、中國資訊通訊研究院等14個機構、高校聯合成立了人工智慧醫療器械創新合作平臺。

專訪北京協和醫院陳有信主任:兩年而立,樣板第三方測評資料庫重塑AI測評

人工智慧醫療器械創新合作平臺結構

在這一組織之中,北京協和醫院負責真實資料應用工作組的管理,主導推進組內各單位學科的真實資料研究工作,承擔“中國糖尿病視網膜病變人工智慧眼底影像標準資料庫”影像收集、標註與檢測平臺搭建,這便是糖網眼底AI標準資料庫的由來。

截至2019年末,北京協和醫院陳有信主任領導的團隊便已完成了眼底資料的標註,大半年過去了,為何直到近日才公開發布資料庫?究其原因,單一的第三方測評資料庫難以進行流程化的監測,要實現規模化和標註化,還需要第三方測評平臺與病種對應的測評標準。

在2020年WAIC大會上,人工智慧醫療器械創新合作平臺總計釋出了包括醫療人工智慧測評公共服務平臺、糖尿病視網膜病變常規眼底彩色照相AI標準資料庫、《基於胸部CT的肺結節影響輔助決策產品效能指標和測試方法》、《基於眼底彩照的糖尿病糖尿病視網膜病變輔助決策產品效能指標和測試方法》等多項成果。本次釋出一次性涵蓋了資料庫、平臺、標準三個要素,第三方測評從結構上看已經可以實現,AI審評審批的推動力發生了質變——醫療人工智慧測評公共服務平臺是基底,在保證資料、軟體的安全性的前提下安裝第三方資料庫與測試產品,並予以修正後的、符合AI產品迅速迭代特徵的測評體系。而在這之中,第三方資料庫將為其提供核心支援。 

對於其中的意義,陳有信主任表示:“AI是一個新生事物,它被劃為器械,卻與傳統器械不同,我們必須用全新的眼光審視它,透過創新手段驗證它的安全性和有效性。因此,我們協和醫院領導的真實資料應用工作組便要為這樣的創新驗證打下基礎。這項工作我們從18年便開始努力,如今終得以成型。”

糖網AI標準資料庫內涵

這個資料庫的終極意義在哪裡? 

從量上看,該資料庫一共包含了1.5萬張糖尿病患者後極部眼底彩照,資料來源於全國14個地區的真實世界資料,涵蓋了目前市場上主要眼底相機機型,且每個資料在入庫時都經過了嚴格的倫理審查和清洗脫敏。

專訪北京協和醫院陳有信主任:兩年而立,樣板第三方測評資料庫重塑AI測評

從資料的採集來看,該資料庫資料包含了早期病變、中期病變和晚期非增殖型病變等不同時期、不同種類的糖尿病視網膜病變。同時,北京協和醫院對各病例分為了“無其他疾病”與“合併其他病症”兩類,使其儘可能的符合真實世界情況。 

“在建庫時,我們曾詳細考慮過糖網資料庫的資料來源,希望能夠讓資料庫的病歷構成與我們世界中的實際情況高度貼合。這意味著這個資料庫既要包含各種時期的糖網病變資料,又要包含存在多種眼部疾病的資料,當然,這裡面也得有無病症患者的資料。從最後的結果來看,31%的圖片包含其他合併病變,這與真實世界的情況高度相符。” 

專訪北京協和醫院陳有信主任:兩年而立,樣板第三方測評資料庫重塑AI測評

AI標準資料庫資料分佈情況

在資料標註方面,所有閱片工作都由北京協和醫院眼科閱片團隊進行標註,標註後的資料將交由國內同行權威專家進行外部評審,保證了標註過程的高準確性。此外,協和醫院還書寫了完整的建庫檔案,提供資料說明檔案,實現了測評的可溯源性,防止實際過程中發生問題時的責任糾紛問題。

另一方面,為了滿足實際過程中的多樣的檢驗需求,北京協和醫院對AI標準資料進行了進一步的劃分,建立了“需要轉診/不需要轉診DR”、“國際分期DR”、“有/無DR”、“合併/不合並其他病變”、“畫面質量良好/差”五大子資料庫。 

資料庫質量管理體系是如何建立的?

資料的管理水平在一定程度上決定著資料庫的“質量”。據悉,為建設一個高質量的糖網AI標準資料庫,建設團隊開創性地引入了ISO9001質量管理理論,按照體系中人、機、料、法、環的要求對資料的收集進行質量控制(見圖1 質量管理理論用於AI資料收集的質控)。

據參與資料庫質量管理體系設計和建設的上海博方負責人馮慶宇介紹,由於資料庫建設包括資料採集、預處理、標註及構建等諸多環節,所以在整個體系建設過程中,對資料的質量管理一一對應ISO9001質量管理體系中人、機、料、法、環的要求,將醫療環節中的要素以及管理要求予以明確,其中:人——實施者、相關參與人員及相應的資質,如醫生、專家、演算法工程師及資質要求;機——實施的裝置,如具體的醫療器械、採集通訊裝置、儲存裝置;料——影像資料,如醫學影像、生理訊號、患者資訊;法——法規標準及操作規程,如臨床指南、人員管理SOP、人員操作及裝置操作SOP;環——環境要求,如閱片環境、計算機執行環境、網路環境。

專訪北京協和醫院陳有信主任:兩年而立,樣板第三方測評資料庫重塑AI測評

圖1 質量管理理論用於AI資料收集的質控 

6大特徵奠定糖網AI標準資料庫的開創性地位

在上述設計下,糖網AI標準資料庫由此具備了諸多特性。具體而言,陳有信主任將這些特性歸納為了權威性、多樣性、科學性、封閉性、動態性和規範性6個方面。 

權威性:本次資料標註團隊中的14名醫生均來自於北京協和醫院眼科,且擁有至少兩年的臨床經驗。標註過程分為兩人標註與三人標註,兩人標註時要求意見完全一致,三人標註時要求意見一致,以確保資料標註的有效性。

標註後的資料首先會經由陳有信主任領銜的團隊進行內審,而當時的、標準一致性Kappa值達到了0.9427。完成內審後的資料會交至10名三甲醫院主任醫師團隊進行外審,這一團隊由北京同仁醫院張風教授領銜,結果顯示,標準一致性Kappa值達到了0.9677。 

多樣性:具體表現為資料來源的多樣性、裝置的多樣性、人口資訊分佈多樣性,疾病構成的多樣性。具體而言,資料庫的資料分別來源於14家臨床機構,覆蓋華東、華北、華中、西北、東北五大區域;由多種影像裝置產生,涵蓋了Zeiss VISUCAM 500、Kowa Nommyd、α-DⅢ、Kowa Nonmyd D7、Canon CF1、Daytona P200T、Topcon 50IX 6種主流眼底相機型號;覆蓋20歲到80歲年齡段,包含52%的男性患者與48%的女性患者;31%的圖片包含其他合併病變,以符合真實世界情況。 

科學性:來源於資料庫本身。15000張圖片量創造了行業中第三方資料庫資料量的紀錄,同時,這些資料在採集之時便經過了嚴格的篩選,以覆蓋DR國際分級、鐳射術後、合併其他病變、影像質量識別等多種臨床實際場景,這賦予了資料庫生命——並非簡單的資料合集,而是真實世界的縮影。 

封閉性:包含資料庫的封閉管理與測評過程的封閉管理兩個維度,尤其是後者,企業未來在參與測評,與公共服務平臺合理助力產品測評時,兩者間的VPN通道需遵守“加密”和“只進不出”原則,以保證資料庫內資料的安全性與測試過程的公正性。 

動態性:雖然資料庫處於封閉管理之下,但並不意味著資料的一成不變,在陳有信主任的計劃之中,這一資料每年會對5%的資料進行流動管理,即淘汰部分舊的資料,並在每年新增同一型別的新資料。

 “如果不作動態更新,那麼測試過程中似曾相識的照片就會逐漸增多,反覆測試說不定就會出現記憶的現象。此外,醫院使用的裝置、影像處理軟體會隨著時間的推移而發生變化,我們的資料庫也需隨著資料產生環境的變化而不斷變化,這樣才能保證資料庫的有效性。” 陳有信主任描述道。 

規範性:“從資料庫採集原始資料庫到我們資料處理的規範,到資料標註的規範,工作組有一系列的資料SOP規範,包括標註質量內部的評估規範、標註質量外部的評估規範、包括新注入的新資料、淘汰的資料,這些SOP我們寫了若干的檔案。”透過建立這些規範,使得整個資料庫建立在SOP的基礎上,同時能夠幫助我們完好的溯源。 

專訪北京協和醫院陳有信主任:兩年而立,樣板第三方測評資料庫重塑AI測評

作為我國首個擁有超過萬例資料的第三方影像AI標準資料庫,北京協和醫院建立的糖尿病視網膜病變常規眼底彩色照相AI標準資料庫能夠一定程度上代表現有市場上,企業對於第三方資料庫的需求。

更多第三方資料庫即將建立 

糖網AI標準資料庫無疑為第三方AI測評開啟了新的大門,包括肺結節、冠脈CTA、心電、腦MR等等AI軟體,都需要這樣的第三方資料庫,進而連線公共服務平臺進行創新測評。

 “我們走出了第一步,但要推動整個醫療AI影像的發展,更多醫院應該參與進來。我們希望能把這種模式推動到每一個AI領域。”陳有信主任表示。“藉助於協和糖網AI標準資料庫的經驗,這件事在未來可以推進得更快。” 

因此,糖網AI標準資料庫不僅在於它對於眼底AI產品審評審批的推動作用,更在於它開啟了一種新模式,能夠幫助AI產品透過一種創新性、權威性的方式透過審批,並在後續的迭代之中迅速完成稽核。 

陳有信主任同時表示:“資料收集、資料標註、SOP規則制定、資料安全問題……要建這樣一個資料庫並不簡單,需要大量優秀的醫生耗費大量的時間才有可能完成。所以,我們也在探索建立合理的激勵機制,以鼓勵更多的醫生參與到AI的建設之中,這條路任重道遠。” 

眾所周知,AI產品生產企業需要不斷提高自己AI產品的效能,那麼,AI標準資料庫能夠透過提供不同的測試資料集,用以訓練產品的演算法、測試產品的效能,進而推動產品的後續迭代。同時嚴謹的質量控制體系的建立,也保證了標準資料庫的安全有效性和可追溯性,從這個層面講,AI標準資料庫為醫療AI產品上市監管的安全有效性提供了可溯源的證據鏈,必將是醫療AI產品商業化程式的有力助推器。 

雖說醫療AI標準資料庫的推進阻礙仍然存在,但糖網AI標準資料庫的釋出無疑是對產業的一劑強心劑。前路漫漫,已見微光。無論是AI企業、醫院,還是相關政策方和監管機構,都在多年的摸索中基本達成共識。

方向有了,就能夠避免彎路。當第一個AI產品透過公共服務平臺及糖網AI標準資料庫完成測試時,醫療AI的下半場便真正開始了。

*封面圖來源:123rf。

相關文章