編輯 | 白菜葉
由於藥物療效的不確定性和患者的異質性,癌症藥物反應的預測是現代個性化癌症治療中的一個具有挑戰性的課題。而且,藥物本身的特性和患者的基因組特徵可以極大地影響癌症藥物反應的結果。
因此,準確、高效、全面的藥物特徵提取和基因組學整合方法對於提高預測精度至關重要。
之江實驗室的研究團隊提出了一種名為 DeepAEG 的端到端深度學習模型,它基於完整圖更新模式來預測 IC50 值。
並且,研究人員提出了一種新方法,透過採用序列重組來增強簡化的分子輸入行輸入規範數據,從而消除藥物分子單一序列表示的缺陷。
DeepAEG 在多個測試集的多個評估引數上優於其他現有方法。此外,利用 DeepAEG,研究人員還確定了幾種潛在的抗癌藥物,包括硼替佐米(它已被證明是一種有效的臨床治療選擇)。研究人員認為 DeepAEG 在指導特定癌症治療方案設計方面具有潛在價值。
該研究以「DeepAEG: a model for predicting cancer drug response based on data enhancement and edge-collaborative update strategies」為題,於 2024 年 3 月 9 日釋出在《BMC Bioinformatics》。
癌症仍然是全球主要死亡原因之一,近年來其發病率呈上升趨勢。開發具有選擇性抗腫瘤作用的新治療藥物具有重要的科學意義和臨床價值。
由於癌症的異質性很強,相似的抗癌藥物在同一型別的癌症患者中可能會引起不同的反應。這說明癌症個體化治療意義非凡,即根據患者的基因型資訊和生理特徵,為患者推薦精準的藥物治療方案,從而提高治療效果,減少藥物副作用。
特別是癌細胞系(CCL)基因組學在個性化癌症藥物設計研究中發揮著重要作用。同時,高通量測序技術的發展促進了癌細胞系資料庫的發展和積累。
半數最大抑制濃度(IC50)是一個廣泛使用的細胞系分析指標。分析癌症相關基因的內在特徵及其與抗癌藥物的相互作用,可以揭示抗癌分子的潛在特徵,從而簡化抗癌藥物的早期篩選,提高特異性抗癌藥物的發現效率。但是現有方法的有效性可能受到其有限的泛化和計算效率的限制。
目前,用於癌症藥物預測的機器學習方法包括但不限於邏輯迴歸、支援向量機、多層神經網路和隨機森林。此外,基於深度學習的方法採用複雜的深度神經網路架構,從多源資料中提取複雜的資訊。
然而,由於資料表示受到某些限制,在不完整的特徵學習過程中,一些潛在的資訊可能不可避免地丟失。以往研究的侷限性如下:
現有的工作忽略了藥物分子中的化學鍵資訊,這對於區分兩個化學原子之間的相互作用至關重要。該資訊還有可能直接影響藥物與癌細胞系相互作用的結果。 以前的工作要麼應用基於字串的方法(例如 SMILES),要麼應用基於圖形的方法來表示藥物分子。然而,這兩種方法都可以為藥物發現提供補充資訊。充分利用這兩種資訊可以幫助更好地瞭解藥物的潛在表徵。 以前的大多數工作僅使用單個基因組圖譜來代表癌細胞系,而忽略了多組學資料或 CCL 中包含的豐富資訊。基因組多組學特徵的範圍仍然可以大大擴充套件。一些已被證明對癌症具有高度資訊性的基因組特徵尚未被整合和利用。
為了克服上述限制,之江實驗室的研究團隊提出了一種新穎的多源異構圖卷積神經網路,稱為 DeepAEG。它是一個端到端的深度學習框架,包括用於 IC50 預測的邊緣更新策略和資料增強策略。
DeepAEG 使用 Transformer 和包含邊緣資訊的圖卷積神經網路來提取藥物特徵,並結合四個子網路(複製數、DNA 甲基化、基因突變、基因表達)來提取癌症組學水平的高階資訊,以預測抗癌藥物的療效。
DeepAEG 可以整合多種組學功能。該模型使用一對藥物-癌細胞系基因圖譜以及相應的真實 IC50 資料和 IC50 量化預測值作為輸出。
一方面透過圖表示將藥物轉化為更高層次的潛在表達,另一方面透過Transformer可以得到基於子結構序列提取的向量表示。兩種組合形成的藥物特徵與從四個全連線網路中提取的轉錄組資訊進行拼接,然後輸入到由1D CNN組成的線性網路層。研究人員使用 AdamW 最佳化器,學習率為 1e^-3 ,批次大小為 256,均方誤差作為損失函式。模型的具體構建在 keras 中實現。
綜合實驗表明,邊緣資訊特徵、SMILES 序列重組和擴充套件多組學圖譜的融合最佳化了藥物細胞系反應例項的特徵提取能力。DeepAEG 顯示了最好的 PCC、SCC 和 RMSE。並且缺失資料預測的結果也確定了潛在有效的藥物(硼替佐米,AICA)和最相關的基因。結果展示了 DeepAEG 的預測能力及其在指導癌症特異性治療方面的潛在價值。
研究人員表示未來的研究方向有以下幾個:
(1)由於座標可以量化兩個原子之間的鍵長,並且鍵長、鍵強度和電子密度分佈之間存在特定的冪律關係,因此三維分子座標表達可以豐富藥物分子資訊並潛在地提高模型預測效能。
(2)透過癌細胞知識圖譜,可以實現不同領域知識的整合與融合,滿足癌症精準醫學背景下多學科知識的整合與應用要求。
DeepAEG 將為不斷髮展的精準醫療領域做出貢獻,促進癌症機制研究和特異性藥物開發。
免費獲取 DeepAEG:https://github.com/zhejianzhuque/DeepAEG
論文連結:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05723-8