Rick Stevens 表示,首個先進癌症計算解決方案的聯合設計(Joint Design of Advanced Computing Solutions for Cancer,JDACS4C)「成果」將於 2017 年第二季度的某個時間公開。JDACS4C 一共有三個試點專案,Rick 領導了其中之一,將深度學習(DL)應用到癌症治療中去。這些專案不僅可以推進癌症研究和治療,而且可以提高深度學習的能力和基礎架構,最終著眼於百億億次計算機的研究,DOE 將對這些專案提供部分的資金支援。
無論以哪種標準,美國對抗癌症(U.S. War on Cancer)和 Precision Medicine Initiative(精準醫學計劃,PMI)都頗具野心。過去,對抗癌症一直沒有很明顯的進步,但也不是說沒有取得很多成績。
只是現在看來前景更為光明。生物醫學的進步和下一代領先計算機的興起(百億億次計算機的開發)推動著癌症治療的發展。深度學習和資料驅動科學的快速發展,使許多人對前景報以樂觀的態度,所以 2016 全球超級計算機大會重點關注精準醫療和 HPC 的作用就是偶然了。
三個 JDACS4C 試點專案,包括從分子層面到人口規模方面的諸多研究,以支援 CANcer 分散式學習環境專案(CANcer Distributed Learning Environment project):這些工作旨在洞察可擴充套件機器學習工具;通過深度學習、模擬和分析技術,減少治療時間;為未來計算方案提供資訊。也希望能建立「有效利用日益增長的資料和與癌症相關資料的多樣性來打造預測性模型,為接下來的癌症研究提供一個新的正規化,更好地理解疾病並最終提供指導,支援基於個體預期治療結果的決策,Rick 說。
這些都是遠大的目標。因此想要總結出 JDACS4C 的準確譜系,確實有點麻煩,廣義上來看,它屬於 PMI,美國國家癌症研究所的癌症登月計劃,也集中在 美國國家戰略計算計劃(NSCI)之下。Stevens 指出,早在幾年前就開始討論建立這個大專案框架了,8 月拿到了第一筆資金。以下是三個試點專案的簡介:
- RAS 分子專案: 這個專案((Molecular Level Pilot for RAS Structure and Dynamics in Cellular Membranes)旨在開發新的計算方法,支援 RAS 計劃下已經完成的研究,最終完善我們對癌症中的 RAS(基因家族)及其相關訊號通路作用的理解,識別 RAS 蛋白膜訊號複合物中獨有的新治療靶點。
- 臨床前篩選: 該專案(Cellular Level Pilot for Predictive Modeling for Pre-clinical Screening)將開發「基於源自人源性腫瘤組織異種移植實驗性生物資料的機器學習、大規模資料和預測模型」。旨在建立一個反饋迴路,其中,實驗模型指導計算模型的方案。這些預測模型可能給癌症治療的指明瞭新目標,並幫助確定新的治療方法。
- 人口模型:這個專案(Population Level Pilot for Population Information Integration, Analysis and Modeling))旨在建立一個可擴充套件的框架,能夠高效提取、延展、整合及 構建癌症患者的病例資訊。這樣的一個「引擎」應用在醫療保健的許多方面(轉移、成本控制、研究等),將會十分強大。
顯而易見的是,這麼複雜的工作需要很多組織的配合。國家癌症研究所的部門包括生物醫學資訊和資訊科技中心(CBIIT),癌症治療診斷部(DCTD),癌症控制和人口科學部(DCCPS)和弗雷德裡克國家癌症研究實驗室(Frederick National Laboratory for Cancer Research)。也有四個美國能源部國家實驗室被正式分派從事這個專案,這四個實驗室分別是阿貢國家實驗室(Argonne National Laboratory)、橡樹嶺國家實驗室(Oak Ridge National Laboratory)、勞倫斯利弗莫爾國家實驗室(Lawrence Livermore National Laboratory)和洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)。
當所有的試驗專案放在一起時,Stevens 指出,我們意識到每個專案都需要深度學習,而且需要它的各種不同用途。因此,我們的想法是,既要構建軟體環境和網路拓撲,也要建造這三個專案所需的所有東西,所以我們不會複製。研究人員也定義了關鍵標準——與我們用來解決不同癌症子問題資源相匹配的、易於處理的深度學習問題。
早期的第一步是吸引供應商參與,這充分地證明了 Stevens 所說的話,因為幾乎所有的主要 HPC 供應商都在積極地加速深度學習路線圖。大多數人認為 JDACS4C 試點專案是學習和完善的機會。Stevens 說,JDASC4C 已經與英特爾、Cray、NVIDIA、IBM 等公司達成了合作關係。
「所有的實驗室都配備了 DGX-1,並且 NVIDIA 已經為不同 GPU、Pascal 等優化了大多數的通用框架。我們在 DGX-1 上執行的任何東西都可以很容易地實現分散式。英特爾有自己的長遠計劃,並且並不是所有的這些計劃都是公開的。我可以表明的是,我們正在與英特爾的所有適合的部門合作。」Stevens 說,他是 ANL 研究員和臨床前篩選專案的領導者。
事實上,英特爾一直很忙,忙於購買 Nervana(一個用於深度學習的完整平臺),最近又推出了擴充套件計劃。Stevens 說:「他們談論到為機器學習而優化的 Knights X 系列的版本。Knights Mil 是他們的線路圖的第一個版本,」這個晶片巨頭還在 SC16 上推出了深度學習推理加速卡;它是用於神經網路加速的基於現場可程式設計門陣列(field-programmable gate array (FPGA))的軟硬體解決方案。Stevens 認為英特爾像 NVIDIA 一樣,正在制定一個應用戰略。
他說:「英特爾非常想嘗試確定一種戰略,以區分訓練和推理平臺之間的某些級別。大多數深度學習系統現在在『quasi』上做推理,它比用於訓練的平臺更小。英特爾希望確保『未來的 IA 架構擅長推理』」。
不足為奇的是現在人們花費了大量的精力用於評估來自谷歌、微軟、Facebook 等公司的深度學習框架。Stevens 說:「我們也正在評估哪些框架最適合解決我們的問題,我們正在與供應商一起在硬體上優化它們。同時我們也與 Livermore 有合作關係,他們有一個內部的被稱為 LBANN 的專案,該專案旨在構建一個可擴充套件的人工神經網路框架。」
「該計劃是想以一種獨立於框架的方式去開發我們的模型,所以我們可以在不需要重新編碼我們的模型的情況下交換框架。這是一個非常常見的深度學習方法,其中有一個指令碼層(scripting layer)可以捕獲您的模型的表示(用於訓練和管理資料的元演算法(meta algorithms)等),我們同時與學術界和 NVIDIA 在頂層的工作流引擎上進行合作。因此,我們有一種堆疊式架構(stacked architecture),它與深度學習全景周圍的所有不同群體進行合作。」
Stevens 說:「有趣的是下一代平臺的供應商強烈支援提高機器學習所需的架構理念和功能,以及傳統的物理驅動模擬(physics-driven simulation)。」他指出,與傳統 HPC 相比,深度學習的快速增長和市場壓力正在推動它們朝著這個方向發展。「它也讓我們洞察到了 DOE 應用的發展方向:將需要傳統的物理驅動的模擬的地方,但通常我們也可以找到一個利用機器學習的方法。」
共享學習是試點專案的重要組成部分。Stevens 說:「我們正在為機器學習社群抽象模型問題,這也是我們正在研究的 seven candle benchmarks 的一種淨化版本,」這將包括可分散式的資料、程式碼,這些內容都 將在 GitHub 上開放。這些元素的第一部分預計會在第二季度發行。
個別試點小組也正在與學術界開展自己的外聯活動。在試點專案計算能力的方面,「我們瞄準了一些平臺,特別是 CORAL 平臺、Oak Ridge 和 Livermore 的新機器,然後最終選定百億億次(exascale)級。這是一個普遍化的概念,所以它不是具體的 GPU 或者具體的多少核。」
有趣的是,這三個專案計劃會用不同的方式使用深度學習。
因為 RAS 是在分子尺度上的專案,所以它在所有專案中擁有最小尺寸規模。你可能聽說過 RAS,它是一個著名的癌症基因,其編碼會生成嵌入在細胞膜中訊號蛋白(signaling protein)。這些蛋白質控制著可以延伸到細胞中並驅動許多不同的細胞過程的訊號傳導途徑。RAS 目前涉及約 30% 的癌症,包括一些最棘手的癌症,例如胰腺癌。該試點專案將把模擬和溼實驗室篩選資料進行結合,以詳細闡述 RAS 相關訊號級聯的細節,並且希望可以找到用於製造能干預這種病症所使用的新藥的關鍵點。
即使一個相對較小的腫瘤也可能有「成千上萬個突變,包括驅動突變(driver mutation)和許多偶然突變(passenger mutation),」Stevens 說。這些遺傳差異會改變信令網路(signaling network)的重要細節資訊。多年來,RAS 本身及其相關信令網已經成為藥物靶點,但正如 Stevens 指出的:「這種信令網的行為很不直觀。有時如果你擊中了其中一個下游組分,它其實會產生負反饋,這實際上增加了你試圖去抑制的效果。」
在 RAS 專案中,模擬基本上是一種在不同粒度(一直延伸到到原子行為,包括量子效應)上進行的分子動力學運動。所需的計算能力(會非常巨大)自然取決於所模擬的粒度水平。
「機器學習被用於跟蹤模擬所經歷的狀態空間(state space),並進行決策——這裡是否放大、是否縮小、是否改變我們在集合空間(ensemble space)的不同部分中所觀察的引數。它基本上像是該模擬的一個智慧監督人那樣去更有效地使用它。
「從某種意義上講,這就像是網路正在觀看一部電影並且說道,『好吧,我之前已經看過電影的這個部分了,讓我們快進吧,或是哇這真有趣,我之前從來沒見過,讓我們用慢鏡頭並放大看。』這種就是機器學習在模擬中所做的事情。在某種意義上,它能夠快進並且跳過,「Stevens 說。由 Stevens 領導的這個臨床前篩選專案是一個雄心勃勃的嘗試,它基本上是從所能得到的儘可能多的臨床前及臨床癌症資料中進行精篩,並與小鼠模型中產生的新資料結合來建立藥物-腫瘤相互作用的預測模型。這是一種生物資訊學的和實驗性的反饋方法。最終,給定一個特定腫瘤,其分子屬性(基因表達、單核苷酸的多型性(Single Nucleotide Polymorphisms/SNP)、蛋白質組學等)已被確定,那麼將該資料插到模型中來確定最佳治療方案就應該是可以實現的。
此處的微妙之處在於,這種在單一類腫瘤或相對小門類藥物上進行的小規模機器學習工作已做了很多,Stevens 說。「我們正在嘗試使用深度學習來整合所有物件(成千上萬的細胞系以及從較小數量細胞系中篩選出的化合物)的資訊,然後就能將其應用在實驗鼠身上。你培養了一群源自該人類腫瘤的實驗鼠,而這些小鼠會成為人類臨床試驗的替代物。因此我可以在腫瘤鼠群體中嘗試不同化合物來提供資訊——我的腫瘤對給定藥物可能會如何反應。」
一個巨大的挑戰來自於是否能夠理解所有歷史資料,其中大部分資料是非結構化的,且往往是主觀的(如病理報告)。「我們所做的第一件事情之一是建立分類器,它可以告訴我們該腫瘤的型別或者是它在身體的哪個部位(根據不同的資料),」他說。資料可疑的情況並不少見。「我們通過我們的分類器來執行它,而如果它是一個新的資料集,那麼分類器就可能會說,它真不是來自肝臟,它來自一些其他部位。」通常臨床前資料是基於結果的;它不會解釋該結果是如何實現的。
「現在我們所建立的機器學習模型能夠十分精確地預測出一個藥物反應或腫瘤型別/結果,但它們不能相當有效地告訴我們箇中原因。它們不是解釋性的,不是機械論的,」Stevens 說,「我們要做的是以某種方式帶來一些機械論的模型或機械論的資料,並將其與機器學習模型混合從而得到兩樣東西——擁有高精度預測能力的模型以及擁有預測解釋能力的模型。因此這種混合方法的思想是一個寬廣的開放空間,而我們認為這將會被推廣到許多領域。」獲得大而高質量的訓練模型資料仍然具有挑戰性,他說。
第三個專案致力於開發可預測人口規模的模型,Stevens 稱之為「病人軌跡(patient trajectories)」,它基本上是在挖掘全國的監控資料。雖然該資料有些分散,但美國國家癌症研究所(National Cancer Institute/NCI)、美國國立衛生研究院(National Institutes of Health/NIH)、美國食品和藥物管理局(Food and Drug Administration/FDA)、製藥公司和付款人組織(病理報告、療法、結果、生活方式、人口統計等)所持有的病人資料體量卻十分龐大。不幸的是,在很大程度上它像許多生物醫學資料一樣是非結構化的。「我們不能真正以我們所希望的方式用它進行計算,因此我們正在使用機器學習來將非結構化資料翻譯成我們可用於計算的結構化資料,」Stevens 說。
「因此,例如我們想用一臺機器來讀取所有病理報告並輸出生物標記物(biomarkers)、突變狀態或藥物之類的資訊,這樣我們才能建立出具有一致性的病例報告。將它看做是一個以人口為基礎的模型。在臨床前篩選試點專案中,比如我們發現了一些對治療某一類癌症非常有效的療法和策略。我們想提取這些資訊並將其輸入到人口模型中,並說『如果這成為一種常見療法的話,那麼它在全球或全國範圍內會對統計數字有多少改變?』或類似的話。」
這也是一種連線所有試點專案的方法,Stevens 說。從 RAS 專案中獲得的認識以後可能會被用於觀察那些或許適用於新療法的一部分癌症;再反過來把它納入人口模型專案中以瞭解可能會產生的影響。
JDACS4C 試點專案仍處在初期階段,但希望很高。Stevens 指出,NCI 和 DOE 都獲得了它們無法輕易獲得的東西。「NCI 沒有 DOE 所擁有的眾多數學家和電腦科學家。他們也沒辦法使用最領先的機器。我們(DOE)所獲得的是訪問所有這些偉大的實驗資料、實驗設施和公共資料庫的許可權。」
來自:機器之心編譯