在 3 月 4 號的“Nature”子刊中,展示了利用深度 CNN 來檢測體細胞突變的新工具“NeuSomatic”,該工具使用 PyTorch 寫成,支援 GPU,對於同等數量的資料(30X),訓練時間相比之前谷歌提出的 Deep Variant 所需的 1000 CPU 時,僅需 156 CPU 時。
網路結構
體細胞突變(Somatic Mutation),常見於癌症相關的研究。癌症的成因是細胞中有害突變的累積導致的細胞無限增殖,通過測序技術,可以檢測出癌細胞中特有的突變,如果癌細胞正好有靶向藥針對的靶點突變,那使用靶向藥治療就能顯著提高患者的生存時間,這就是常說的針對癌症的精準個性化醫療。
但癌細胞的突變,其結構更加複雜,多樣性更高,檢測的難度也更大。傳統的方法,不管是準確性還是查全率,都有顯著提升的空間。
為了確認哪些是癌細胞特有突變,會對腫瘤組織和正常細胞分別取樣測序,之後比較其中的差距。由於癌細胞的突變往往會形成較為複雜的內部結構,因此更難以檢出。
之前的利用深度學習做變異檢測工具,例如 Deep Variant,只能用來檢測來自父母遺傳得出的非體細胞突變。NeuSomatic 作為一個新的工具,效果好於目前該領域常用的方法,通過 ensemble 的方法,可以加入檢測流程中,用於提升檢測出變異的準確性和完整性。
上圖展示了該問題的輸入資料,Ref(參考序列)代表大部分人的基因序列,正常細胞和癌症細胞測序得出的讀(read)是將 DNA 長序列打斷測序後得出的片段。中間的圖展示的是將測序得出的讀比對後的結果,其中的黃色代表可能的體細胞單鹼基突變(Single Nucleotide Vantiantion)。
例如此處的 T 在正常細胞中都是沒有突變的,但在癌細胞中卻又部分變成了 C。而上圖中間的是可能的插入類突變,在癌症的樣本中,相比正常的樣本中的讀,標出的部分在部分讀上顯示有多出的鹼基,而這些在正常組織的讀中都不存在。
NeuSomatic 按照鹼基型別,以及該鹼基上支援的讀的數目多少,將比對的結果做了轉換,得出右圖,其中的“-”代表這個位置出現了一個空缺(gap)。
上圖展示了模型的處理流程其中的 reference channel,tumor coverage channel,和 normal coverage channel 分別是上圖展示的矩陣,同時還會將該位置上人群中的突變概率,癌細胞中之前記錄的突變頻率以及比對中的質量值等資訊以矩陣的形式輸入。
這裡的 position 指的是矩陣對應的讀在測序得出的讀中處在什麼位置,例如對於測序產生的讀長為 200bp(base pair)的讀,每個矩陣處理的只是其中的 64bp,因此需要標註其位置資訊。
NeuSomatic 同時還支援將其他檢測體細胞突變的方法的輸出,按照矩陣的形式當成輸入,從而實現在一個框架下對多個模型進行整合。
之後的資料處理 CNN 標準的三明治結構(卷積,批量正則化,池化),引入了短路來解決網路過深的問題,之後通過變異型別的分類器來判斷變異屬於插入,刪除,與單鹼基突變中的一種,以及變異的長度(0,1,2,或大於等於 3),並通過迴歸的方式,確定變異所在的位置。
針對網路結構的選擇,在訓練前,嘗試了 ResNet-18 中的多種結構,將訓練資料一分為二,一半用來訓練當前認為最好的網路結構,一半用來訓練新嘗試的網路結構。
在訓練了一段時間後,下表展示了不同網路結構的對比。根據對不同網路結構的對比,選擇了圖 g 的結構作為 NeuSomatic 的網路結構,從而保證在 SNV 及 INDEL 上都能有較好的表現。
介紹了網路結構,那該怎麼將問題轉化為監督學習了?答案是用模擬資料,根據真實突變發生的頻率,模擬 DNA 序列某位置已發生突變,這樣在知道了答案的前提下,去將為訓練資料加上標籤。遇到真實資料時,就用在模擬資料中訓練好的模型進行分類。
實驗
最後看一看該方法在真實資料上的準確性,這裡採用了公開的資料集,使用了通過實驗驗證的腫瘤細胞細胞系中的體細胞突變作為真集。可以看出 NeuSomatic 的表現好於 NeuSomatic-S,這是由於前者在輸入中結合了上述的所有常規方法的結果,對其進行了整合,而 NeuSomatic-S 則只是用了原始的測序資料當做輸入。在執行時間上,前者是後者的 3.5 倍。
在論文中,作者還驗證了該方法對於不同測序平臺(二代與三代)的資料,都具有適用性。並且在不同的測序深度下,都表現明顯好於已有的方法。
總結
NeuSomatic 是第一種使用深度學習進行體細胞突變的工具,其表現顯著優於之前的方法。使用 NeuSomatic,可以提高準確檢查出靶點變異的機率,避免漏檢,從而更高效的指導他人精準用藥。達到之前方法相同的準確度,需要的測序資料也會有顯著的降低,從而可以降低檢測的成本。在方法學上,該方法的創新點在於將其他檢測方法的輸出和中間結果等作為輸入,從而做到了再一個框架下整合多種方法。