
編輯丨&
癌症是一種多種多樣的腫瘤疾病,其中突變和其他改變會驅動表型。原則上,透過針對特定偏差進行精準醫療是可以實現安全有效的癌症治療。
然而在實踐中,過於複雜的環境與實際情況阻礙了醫療人員在基因改變和疾病表型之間建立因果關係的能力。不過,目前已經發現了突變、耐藥機制、反饋迴路等很難利用實驗進行研究的複雜相互作用可以利用計算方法來解決。
雖然到目前為止,系統範圍的細胞計算機模型一直受到實驗和計算限制的阻礙,深度學習卻可以彌補實現與計算限制上的缺陷。
美國麻省理工學院的研究者們使用了一種基於深度學習(DL)演算法,結合人工神經網路(ANN)的生存預測模型,其元件可用於捕獲腫瘤動力學的特定方面。
該研究以「Towards an interpretable deep learning model of cancer」為題,於 2025 年 2 月 14 日刊登於《NPJ Prncision Oncology》。

預測性深度學習模型
長期以來,基於網路的方法在研究癌症方面的效用一直受到重視。這些方法已被用於繪製細胞的功能組織與癌症資料的因果整合和機制假設生成,並表徵對藥物治療的反應及其作用機制。
DL 的靈活性和規模使其成為擬合複雜和異質分子資料模型的有前途的候選者。特別是對於癌症,DL 已被用於預測對治療的反應,以及高效能擾動後的腫瘤表型。
雖然 DL 模型擅長預測,但它們與它們所近似的潛在機制的關係通常是不透明的。故而,為了應對這種情況,模型的開發應當植根於一個明確的過程,尤其是具有特性的影響目標。
這樣的模型至少應該涵蓋訊號轉導、代謝和基因調控,包括轉錄、翻譯和降解過程。雖然這項調查涉及混合不同模型型別的框架,但使用 DL 的整合模型將有利於使用不同型別的實驗資料自動引數化。

對於訊號傳導,研究者們開發了一個模型,可以從配體或藥物刺激中預測轉錄因子(TF)活性或細胞活力。同樣的,針對代謝與基因調控,也有相應的模型被開發用以重建過程。
飽和知識與積累的資料
現如今,積累的分子網路資料已經達到了基因組規模,足以支撐起建立全基因組模型的需要。實驗性的進步與計算技術發展提升了具有數千種分子相互作用網路的管理能力。
如此龐大數量的分子間相互關係對哪些細胞狀態是可能的施加了結構約束,可以利用這種型別的知識,重建用於新陳代謝、訊號轉導和基因調控的大型網路。
透過分子條形碼(例如核苷酸條形碼)在單細胞水平上分析樣品,能夠表徵異質性群體中的細胞群,從而可以詳細表徵不同器官中的細胞型別,這對於臨床腫瘤樣品特別有用。
到目前為止,整合來自不同研究、資料模式和條件的資料具有挑戰性。這部分是由於缺乏統一的分析框架,以及處理資料缺失的樣本和受試者的困難。

圖示:模型屬性(圖源:論文)
分子間的相互作用可以用子函式來表示,這些子函式近似於所涉及的分子量之間的輸入-輸出關係。這種模組化結構具有明確定義的過程,作用於對應於可觀察分子的狀態變數,將確保模型的可解釋性。
與許多其他物理系統一樣,可以假設這些分子功能並不直接取決於它們出現在哪種細胞型別或細胞區室中,即它們是空間不變的;也可以假設只有分子量,而不是函式本身,會隨著時間的推移而變化,即它們是時不變的。
對定義的分子定量進行作的統一模型允許直接對映輸入和提取輸出。由於已知細胞過程在不同的時間尺度上執行,因此有時需要將較慢的過程分離到可以獨立模擬的單獨條件中。

圖示:積分模型的應用(圖源:論文)
該模型的目的是預測未觀察到的細胞狀態和未經測試的擾動對藥物開發的影響。為了確認模型推斷到看不見的擾動的能力,應透過在訓練期間保持與每個訓練摺疊中使用的擾動不同的擾動來利用交叉摺疊驗證。
從長遠來看,可以設想神經網路也可以對實驗設定進行建模,這樣需要的預處理就會少得多。由於測序深度的差異以及 RNA 提取、蛋白質組學方法等實驗方案的差異,預處理並不簡單。但模型仍可能有助於提供生物標誌物,將患者分層到可以進行臨床測試的不同治療方案中。
挑戰和限制
對於基於先驗知識的模型,網路的準確性和完整性非常重要。如果證據可疑,則可能需要對發現對模型預測具有高度重要性的互動進行批判性檢查和整理,並結合驗證實驗,以減輕先驗知識中錯誤註釋的限制。
缺失值和其他不規則性經常出現在生物資料中,並對生成的模型產生影響。目前除了透過對實驗裝置的差異或其他混雜變數進行建模來解釋的方法外,使用半監督學習方法,以便在輸出資料無法獲得所有樣本的情況下訓練模型也同樣是一種解決措施。
論文連結:https://www.nature.com/articles/s41698-025-00822-y