首次揭秘!這份白皮書公開了AI模型的醫院全部訓練過程……

動脈網VCBEAT發表於2018-12-25

失眠已經成為一項通病,它難以治癒,也很複雜,研究起來非常困難。美國疾病控制和預防中心的資料顯示,有超過三分之一的美國成年人睡眠不足。

通常,醫生會透過在患者身上佩戴胸帶、鼻探針和腦部電極等傳統感測器,對患者進行睡眠監測。這些令人不舒服的方式本身就會導致失眠,因此收集到的資料不具有代表性。

為了給患者提供更好的睡眠,麻省理工學院和麻省總醫院的研究人員聯合英偉達公司,使用AI和類似Wi-Fi的訊號來監測病人,且無需佩戴任何感測器。

研究人員在臥室安裝了特殊的無線裝置,因此受監測人員可以在家中睡覺。該裝置收集從監測物件反射回來的訊號,並透過雲將資料發回給研究人員。

透過了解臥室內人員對射頻的影響方式,並對脈搏、呼吸頻率和運動這些測量資料的分析,研究人員可以確定不同的睡眠階段:輕度睡眠、深度睡眠、快速眼動或清醒狀態。

此外,研究人員還對25名人員在100個晚上的睡眠進行了研究。每隔30秒進行一次睡眠標記,並將用於訓練的資料與用於測試的資料互相分開。其基於雲的服務可以遠端收集訊號並執行演算法模型。

麻省理工學院的研究人員使用NVIDIA GPU進行模型訓練以及後端雲服務上的推理。此外,他們還使用了NVIDIA的cuDNN庫和TensorFlow深度學習框架。

睡眠階段的研究具有廣泛的應用價值,這種睡眠階段檢測技術可用於監測諸如抑鬱症等疾病。這一應用案例,讓人們看到了“AI+醫療”的全新應用場景。

從研究到臨床的AI應用

如今,深度學習技術在醫療領域正逐漸從研究發展到臨床應用。其涉及的資料型別,也從放射學和病理學資料,逐步擴充套件至其它型別的臨床資料,如電子病歷、醫院運營和遺傳學資料等。

然而目前在醫院,AI演算法的訓練和使用依然不夠成熟。原因在於,用深度學習方法打造臨床影響,需要的不僅僅是前沿的演算法,還包括這樣一些關鍵的組成:

• 臨床醫生需要從專案開端即參與其中,以明確AI模型的使用情況;

• 可訪問帶註解的臨床資料集;

• 開發機器學習模型;

• 整合到臨床工作流中;

• 模型部署的基礎設施;

• 在真實世界臨床環境中進行驗證。

基於此,全球頂尖GPU公司NVIDIA(英偉達)聯合美國馬薩諸塞州波士頓 MGH & BWH 臨床資料科學中心(下簡稱:CCDS中心),總結出了一套科學的AI專案訓練週期。據悉,CCDS 的典型專案週期,是以放射科醫生的持續輸入以及對近期研究的頻繁評估等臨床反饋為基礎。

首次揭秘!這份白皮書公開了AI模型的醫院全部訓練過程……

在CCDS 的典型專案週期中,專門的硬體基礎設施,對於AI模型的訓練可謂至關重要,因為它是整個模型開發和部署的基礎。

醫院的臨床系統對計算能力的要求有限,於醫院而言,更傾向於使用可靠度高、正常執行時間長的系統,以滿足適度的計算和資料訪問要求。而高效能 GPU、高速網路連線、高效能儲存和訓練神經網路所需的寬頻接入模式,遠遠超出了醫院 IT 團隊的能力範圍。

深度學習的臨床應用,硬體基礎設施必滿足其計算要求。大部分醫院在高效能運算基礎設施方面的缺陷,正嚴重阻礙著AI專案實施的程式。

本篇文章,摘錄自英偉達公司的《開發醫院深度學習模型:關於臨床資料科學中心的案例研究》白皮書。從中,你將瞭解到英偉達是如何與CCDS中心合作,利用自身高效能運算優勢,解決AI模型訓練過程中影像加工和初始模型開發、大規模模型訓練、臨床驗證過程中的種種難題。

想要了解AI模型訓練的完整過程,請掃描下方二維碼,獲取英偉達正版授權白皮書:

首次揭秘!這份白皮書公開了AI模型的醫院全部訓練過程……

影像加工和初始模型開發

一旦對研究進行標註後,CCDS 團隊便開始進行早期模型開發。

該過程的第一步,是將研究轉化成易於使用的檔案格式。透過研究供應商中性存檔,從臨床 PACS 複製影像,以將臨床系統的風險降至最低。然後,將影像儲存在網路儲存解決方案的目錄中,許可權僅限於已獲批的 IRB 申請上所列的人。

容量資料(例如,MR、CT 等)通常從 DICOM(PACS 使用的標準醫學成像格式)轉換成 NIFTI(一種檔案格式)。

首次揭秘!這份白皮書公開了AI模型的醫院全部訓練過程……

透過定製開發的網頁應用程式,CCDS 團隊對來自放射學報告的研究進行標記。透過基於短語的匹配首先分配軟標號(頂部),對短語重新設定優先次序並進行質量評估(中間)。最後,CCDS 團隊會逐個研究手動確認軟標號(底部)。

模型開發的初始階段也遵循互動式工作流。在這些互動式會話中,CCDS 團隊對模型進行開發並進行一定時間的訓練,以確保功能上的正確性。由於 PHI 顧慮問題,因此CCDS 團隊必須在合作伙伴的資料中心遠端啟動這些互動式會話,以確保 PHI 被本地儲存在易於移動的硬體上。

該環境旨在用作縮小版的 CCDS 計算叢集。因此,CCDS 團隊會為每位機器學習科學家分配兩個至四個高效能 GPU(NVIDIA Tesla P100 或 Tesla V100),支援適用於高效節點內通訊的 GPUDirect P2P 和適用於節點間通訊的 GPUDirect RDMA。 

在容量資料上訓練模型時,這些特點非常有優勢,已經證明同時屬於高度計算型和記憶體密集型。16GB 的高速HBM2 記憶體, 支援半精度浮點操作,以及 TensorCore 混合精度矩陣相乘/相加(僅適用於Tesla V100)大幅度減少相對於消費者 GPU 所需要的硬體。

在整個CCDS 的基礎設施中都體現了這些益處。雖然在早期模型開發階段,高效能並非必要要求,但在叢集工作期間,開發環境中必須具備這些特點,以確保模型的正確性。目前,CCDS 團隊正在探索兩種方法,以支援該工作流: 

1.靜態硬體分配:每位機器學習科學家均配備有專用機器,實體機或虛擬機器,在機器上可進行對影像歸一化技術和初始模型開發的所有探索。

2. 動態硬體分配:透過叢集的排程器從高優先次序佇列分配節點。相對於首個請求,個人對第二個節點的請求會非常不被優先考慮。

大規模模型訓練

一旦確定了一組候選架構後,CCDS 團隊便使用 CCDS 的計算叢集大規模進行訓練。雖然使用的是相同的硬體,但這些操作大部分是分兩步進行:

1. 超引數搜尋:用各種各樣的超引數配置測試候選架構,以確定最佳模型配置。這取決於科學家的偏好,或透過隨機搜尋或貝葉斯最佳化 (Bayesian Optimization) 來決定。透過利用叢集的過剩能力,大量配置可以平行進行測試,將之前測試各種架構和配置的系列任務轉化成一項平行的任務,這讓AI模型能夠快速迭代和最佳化。

 2. 大規模訓練:一旦確定了有限的一組模型架構和超引數配置後,訓練每個模型達到匯聚融合,設法確定組群中的最佳模型。成功的大規模訓練依賴於:在具有高效節點間通訊的GPU 中對模型進行並行化。

對此,CCDS團隊將叢集設計為容納該工作流的需求。計算節點儲存於 IBM 的 LSF 排程器之後,將已經提交的工作委派至可用的資源並確保節點的合理分佈。

透過 Docker 容器提交工作,以管理開發環境和確保一致性,簡化對叢集和安裝在每個節點上的程式包數量管理。首次揭秘!這份白皮書公開了AI模型的醫院全部訓練過程……

CCDS 團隊最近收到了全世界首臺 Volta 型 DGX-1 系統

憑藉便於使用的容器化環境,CCDS 已能夠非常容易的在多個節點和利用 TensorFlow 透明同步化操作的 GPU 以及定製的內部庫對工作進行並行化。CCDS團隊也深度依賴於NVIDIA 的 NCCL 庫,該庫被整合到框架中,用於高效的多 GPU 操作。該工具可以讓團隊減少訓練的時間並縮短模型的開發週期。

臨床驗證

模型和工具的臨床驗證是CCDS團隊開發過程的關鍵步驟。在學術背景中,如果某個模型能夠在測試集上的表現超過三到四位放射科醫生,則該模型被視為成功的。

CCDS團隊專注於打造可供臨床醫生診斷患者的工具,對此制定了嚴格的驗證過程,用於確保模型在臨床上可行。

1、部署前驗證

在模型開發期間即開始模型驗證。CCDS團隊與臨床醫生合作,建立群組和訓練集。

CCDS團隊與醫生共同收集了海量的訓練集,該訓練集不僅僅是針對特定疾病陽性或陰性的清晰理想影像,團隊還確保解釋說明質量較低的研究(例如,掃面器移動或影像偽影)和被認為較“難以”讀取的研究(例如,模擬、非典型解剖和手術後隨訪)。

為了對模型進行進一步應力測試,CCDS團隊從醫院掃描器獲取的連貫研究上對其進行評估。由於每天均能獲取大量影像,所以CCDS團隊能夠在整個開發週期內持續測試模型。

2、部署後驗證

與醫院的臨床系統整合完成後,CCDS團隊需要在臨床醫生的日常運作中評估該模型。該過程幫助評估:

模型效能:該模型在讀取室中是否表現良好,是否滿足放射科醫生的預期?

易用性: 該模型及其使用者介面是否提高了臨床工作流的有效性和效率?

對此,CCDS團隊與臨床合作伙伴一起,在高度協同和迭代的過程中測試了模型的效能和工具的易用性。

CCDS團隊的軟體和使用者介面開發人員持續觀察臨床醫生的情況,目的是為了瞭解工具在整個讀取室的採用情況。由於不同的臨床醫生有不同的細微工作流差異,因此CCDS團隊針對部門而非特定的放射科醫生作出改變,以最佳化易用性。

這不僅提高了模型改進臨床醫生的表現而非抑制其表現的可能性,還有助於推動採用情況。隨著更多放射科醫生使用該工具,獲取更多的反饋,團隊能進一步改進模型,打造良性迴圈。 

掃描器、其序列、其影像解決方案及其重建演算法均不斷髮生變化,且團隊無法始終察覺到這些軟體或硬體的升級。

因此,需要連續監控,以確保模型效能不會下降。雖然可以應用手動反饋環路,但這樣的程式易於出錯且會增加放射科醫生的工作負擔和額外責任。

為了消除該依賴關係並將臨床醫生工作負擔減至最小,CCDS團隊將該過程自動化;所有模型輸出均連同放射科醫生的報告一起記錄。透過執行分析,以評估模型隨時間變化的效能並標記顯著的變化。

鑑於停機時間對患者治療的潛在重大影響,醫院打算在採用新技術方面保守一點。因此,非常關鍵的是,任何新解決方案在整合之前均需徹底驗證,且該解決方案符合現有工作流是非常有益的。雖然深度學習醫學的出現給前線工作帶來了許多新挑戰,但是CCDS團隊發現,適當結合創造性、警覺性和仔細挑選供應商解決方案,能克服這些困難。

英偉達提供了哪些技術支援?

在整個CCDS的專案中,英偉達提供的AI技術起到了至關重要的作用,包括以下幾項重要技術:

1、高效能 GPU(Nvidia Tesla P100 或 Tesla V100),支援適用於高效節點內通訊的 GPUDirect P2P 和適用於節點間通訊的 GPUDirect RDMA。

2、叢集基礎設施:高效能 DGX-1 提供了強勁的計算平臺。當與高速 Infiniband 連線起來時,個人能夠高效地在容量醫學資料上訓練合理批次的大模型。

3、Nvidia-docker 可實現 GPU 無縫整合至容器最新的 2.0 釋出版,進一步減少摩擦。CCDS 已實現的其它好處包括易於選擇 Tensorflow 釋出版,這通常需要特別版的 Nvidia 高度最佳化 cuDNN 庫;選擇基部容器的靈活性,包括非 Nvidia 容器(如需);以及GPU分離的簡單方法。

如果您是醫療AI領域的創業者或投資人,我們強烈推薦您下載這份白皮書,詳細瞭解英偉達是如何基於高效能運算,解決AI模型在醫院訓練全週期中所遇到的種種難題。

相關文章