ICLR 2025 | Deep Signature 高效表徵生物大分子複雜運動的新方法

ScienceAI發表於2025-02-11

圖片

編輯 | ScienceAI

理解蛋白質動力學行為對於解析其功能機制和開發分子療法至關重要。然而,生物過程通常涉及複雜的高維動力學以及原子間相互作用,這對現有計算處理技術構成了巨大挑戰。

本文介紹了來自香港城市大學李皓亮研究團隊所提出的 Deep Signature,一個用於生物大分子複雜運動表徵學習的深度學習框架。該框架能夠高效地表徵分子構型的動態變化,並適用於多種下游任務。該論文已接受於 ICLR`2025

圖片

論文題目: Deep Signature: Characterization of Large-Scale Molecular Dynamics

論文地址: https://openreview.net/pdf?id=xayT1nn8Mg

開原始碼: https://github.com/WonderSeven/Deep-Signature

研究背景

生物過程在分子層面上主要受大分子(特別是蛋白質和酶)構象動態變化的驅動。這些構象變化決定了諸如蛋白–配體結合、分子運輸和酶促反應等關鍵生物事件。

因此,深入解析這些分子動力學行為對於理解分子功能和藥物設計至關重要。分子動力學 (Molecular Dynamics, MD) 模擬基於密度泛函理論,能夠高精度地生成每個原子在三維構象空間中的軌跡,是目前研究分子動態機制的重要計算工具。

儘管 MD 模擬技術取得了顯著進展,但對其高維軌跡資料的分析仍然面臨重大挑戰。這一挑戰主要源於大規模分子體系中複雜的原子間相互作用,以及跨越不同時間尺度的動態行為。

目前,許多研究採用簡化的生物物理模型來分析特定的動力學特徵,如波動、弛豫時間、穩定性和狀態轉換等。

然而,隨著高效能運算,尤其是 GPU 加速深度學習的發展,研究人員開始嘗試使用資料驅動的方法自動學習 MD 軌跡的分子表示。例如,近年來的研究利用體素化建模和蛋白表面建模等方法提取分子結構和化學特徵,以進行自動化藥物發現。

不過,這些方法的計算複雜度隨時間步數呈線性增長,難以適用於長時間尺度的 MD 模擬。

當前 MD 軌跡分析的另一大侷限性在於對生物結構資訊的利用不足。這主要是因為,在動態過程中處理原子間高階相互作用的計算複雜度極高,這一複雜度通常至少隨系統大小呈二次增長,而生物結構資訊涉及的共價鍵與非共價鍵相互作用對分子功能至關重要。

現有研究尚未對此進行深入探索,這一研究空白限制了我們對分子行為的全面理解,也影響了藥物設計和耐藥性研究的精確預測。

此外,一個理想的分子運動表徵方法除了能解決上述挑戰外,還需具備如幾何對稱性(如平移、旋轉不變性)、對於異質的分子結構的泛化性和一定的可解釋性。該任務不同於傳統的時間序列分類和時空資料分析,現有技術無法直接處理。因此,我們迫切需要為大規模 MD 資料分析設計新的深度學習框架。

模型部分

圖片

圖一

作者提出了一種計算高效的框架——Deep Signature,它結合生物結構資訊與粗粒化對映(Coarse Graining),用於自動分析蛋白質軌跡動力學。

方法的整體框架如圖一所示,我們可以看到Deep Signature主要由兩個模組構成:

(1)深度譜聚類模組(Deep spectral clustering module), 該模組基於軟譜聚類(Soft Spectral Clustering)來聚合原子的協同動態,其中聚類分配函式由圖神經網路自動學習,從而避免了手動選擇粗粒化對映的需求。
(2)路徑簽名變換模組 (Path signature transform module),路徑簽名(Path Signature)是一個數學上嚴格定義的概念,它透過迭代積分來緊湊而豐富地描述粗糙路徑的幾何資訊,特別適用於高取樣、非平滑的分子軌跡分析。

Deep Signature 的特徵提取方法在理論上保證了以下關鍵幾何對稱性:平移不變性、近似旋轉不變性、原子座標排列等變性以及時間重引數化不變性,確保了其對 MD 軌跡的隨機波動具有魯棒性。

關於 Deep Signature 模型設計和具體實現的更多細節,由於比較繁雜,可以移步參閱論文。

實驗結果

為了驗證 Deep Signature 的有效性,作者在以下三項基準任務上進行了實驗:

1. 基因調控動力學(Gene Regulatory Dynamics)

圖片

從上表可以看到 Deep Signature 在所有評測指標上均優於基線方法,右圖分別對比了不同方法在模擬時間增加和系統規模擴大的表現,Deep Signature 在這兩種實驗場景均表現非常穩定。

2. 表皮生長因子受體(EGFR)突變動力學

圖片

3. G 蛋白偶聯受體(GPCR)動力學

圖片

泛化性分析

這裡使用 t-SNE 對 EGFR 的訓練集(綠圈)和測試集資料(橙圈)的特徵空間進行視覺化,以分析路徑簽名變換後學習到的特徵的可判別性和泛化性。

圖片

結果表明,相較於基線方法,Deep Signature 提取的特徵分佈更均勻,使得不同類別的樣本更易區分。此外,儘管訓練集和測試集的資料因原子數量變化及拓撲結構的異質性存在分佈偏移,Deep Signature 依然能夠學習到良好的可泛化的特徵。這一優勢得益於幾何對稱性以及層歸一化的引入,從而顯著提升了模型的泛化能力。

可解釋性分析

我們採用 Gradient ⊙ Input 方法來量化所提取的 log-signature 特徵中各個元素對最終預測結果的貢獻,並且因為深度聚類模組僅涉及線性變換,我們可以對這些動態互動的重要性進行排序。

下圖展示了在EGFR由突變引起的構型動態變化過程中,對其藥物敏感性預測起關鍵作用的三個關鍵原子的互動動態:

圖片

值得注意的是,這些原子均位於鉸鏈區域,該區域包含所有 ATP 結合位點,這一發現與實驗觀測結果高度一致,進一步驗證了我們方法的合理性和生物學解釋性。

總結

本文提出了一個用於分析大規模生物系統中動力學的深度學習框架 Deep Signature。該方法結合軟譜聚類來聚合協同動態和對數路徑簽名變換來表徵全域性互動動態,所提取的表徵具備平移不變性、近似旋轉不變性和置換等變性等優良性質。實驗結果表明,Deep Signature 在多個生物過程基準資料集上表現出色,能夠有效捕捉複雜的分子互動動力學。這一研究有希望為藥物發現、蛋白質工程和生物分子研究提供了新的計算工具,推動了計算分子模擬的發展。

相關文章