高精度預測蛋白構象變化,中國科大、上科大通用深度學習模型

ScienceAI發表於2024-11-25

圖片

編輯 | KX

預測蛋白質構象變化是計算生物學和人工智慧領域的一大挑戰。主流的 AlphaFold 等演算法可以高通量預測蛋白質的靜態結構,但對蛋白質構象變化預測卻束手無策。

為了解決這個問題,中國科學技術大學和上海科技大學的研究人員,提出了一種新穎的深度學習策略,即利用高通量生物物理取樣來規避與蛋白質構象轉變相關的資料匱乏。

研究人員將分子動力學模擬與增強取樣方法相結合,建立了一個大規模資料庫。研究模擬了 2635 種已知兩種穩定狀態的蛋白質的構象變化,並收集了每條轉變途徑的結構資訊。利用這個資料庫,開發了一個能夠預測給定蛋白質轉變途徑的通用深度學習模型。

該模型對不同序列長度(從 44 到 704 個氨基酸)的蛋白質表現出普遍的穩健性,並適應不同型別的構象變化。在幾個系統中,預測和實驗資料結果高度一致,併成功地應用該模型來識別一個重要生物系統——人類 β-心臟肌球蛋白中的一種新的變構調控。

這些結果證明了該模型在揭示蛋白質構象變化本質方面的有效性。

相關研究以「Exploring Protein Conformational Changes Using a Large-Scale Biophysical Sampling Augmented Deep Learning Strategy」為題,發表在《Advanced Science》上。

圖片

論文連結:https://doi.org/10.1002/advs.202400884

當前侷限於蛋白質靜態結構預測

AlphaFold 和 RoseTTAFold 等致力於預測蛋白質的靜態結構,但並未解決大多數蛋白質在發揮其生物學作用時所經歷的動態構象變化。

這些轉變對於理解從酶活性到訊號轉導的廣泛生物過程至關重要。然而,缺乏中間狀態的結構資料阻礙了對這些轉變的預測。此外,現有模型的過渡態自由能壘較高,使得準確預測更具挑戰性。

現有的描述蛋白質構象轉變的模型包括基於彈性網路的正常模式分析,以及將彈性網路與分子動力學模擬相結合的混合模型。這些方法適用於相當簡單的構象運動,但無法解釋在較大的蛋白質中發現的複雜和巨大的變化。

最近,深度學習方法將蛋白質結構對映到低維潛在空間。然而,這些模型依賴於兩種狀態之間的線性路徑,這不適用於複雜的非線性轉換,例如倍數切換。更重要的是,高資料需求和低資料效率,以及阻礙實時可擴充套件應用的計算成本,使得這些方法本身無法令人滿意。

模擬 2635 種蛋白質的構象變化

深度學習在預測靜態蛋白質結構方面的成功啟發,研究人員現在正在積極探索其他旨在預測蛋白質構象變化的深度學習演算法。其主要挑戰在於表徵不同構象轉變的訓練資料有限。

在此,中科大團隊採取了更直接的方法來彌補資料短缺的問題。透過結合分子動力學模擬和增強取樣方法,廣泛模擬了 2635 種蛋白質的構象變化,其中包含兩種實驗確定的狀態,即單狀態 (SS) 和多狀態 (MS) ,並直接獲得了組成轉換途徑的結構。

SS 和 MS 蛋白質資料集的建立涉及對蛋白質資料庫 (PDB) 中的結構進行全面搜尋和比較。

圖片

圖示:建立單狀態 (SS) 和多狀態 (MS) 蛋白質資料集。A) 資料集建立的工作流程。B) MS 資料集中四個類別的統計分析。(來源:論文)

SS 資料集共包含 3454 個條目,包括在實驗研究中觀察到的具有高度收斂構象的蛋白質。相比之下,MS 資料集包含 2635 種蛋白質(每種蛋白質在 PDB 中都有兩種結構),這些蛋白質表現出顯著的構象變化,定義為均方根偏差 (RMSD) >5 Å。

該資料集可進一步分為四個子類:剛體結構域移動(rigid-body domain movement)、有限的結構重排(limited structural rearrangement)、摺疊-展開切換(fold-unfold switches)、全域性摺疊變化(global fold changes )。

高精度預測蛋白轉變途徑的通用 AI 模型

該資料集使用一種稱為 PATHpre 的整體深度學習模型,可以高精度地預測導致構象轉變的結構途徑。

PATHpre 中 HESpre 模組的核心創新在於預測轉變途徑中高能狀態的效能。所提出的模型對不同構象的蛋白質具有極大的通用性。這意味著它對複雜系統中的動力學行為建模做出了巨大貢獻,在方法級別應用了可擴充套件性和資料效率。

圖片

圖示:用於預測多構象蛋白質過渡途徑的神經網路架構。(來源:論文)

在 PATHpre 方法中,透過卷積神經網路預測應用兩種構象狀態系統中的距離矩陣,以獲得這些構象狀態之間的高能狀態。核心模組名為 HESpre,目的是預測高能狀態下的結構資訊。然後迭代使用該模組來預測整個途徑。

研究對各種蛋白質進行了交叉驗證,該模型在所有步驟中都實現了強大的 Pearson 相關性和低平均絕對誤差;因此,它在結構類別中非常通用。

圖片

圖示:應用 PATHpre 研究兩種蛋白質的構象變化:A) 腺苷酸激酶和 B) 30S 核糖體蛋白 S7。(來源:論文)

PATHpre 透過與一系列蛋白質上存在的實驗和模擬資料顯示出強相關性,在蛋白質轉變途徑非常高的預測中很準確。評估還表明,PATHpre 可以穩健地捕獲從簡單到複雜的構象變化,並且它與不同長度的序列以及結構複雜性保持一致。

重要的是,它透過匹配實驗自由能景觀,準確預測了單個蛋白質(如腺苷酸激酶和 30S 核糖體蛋白 S7)的轉變途徑,並且在具有挑戰性的條件下,比傳統的混合方法表現更好。PATHpre 的預測與已知結構一致,其對摺疊轉變蛋白質中精細中間狀態的對映證實了其廣泛的適用性和可靠性,可以捕獲廣泛的蛋白質構象轉變。

蛋白質構象變化新見解

與其它幾種同類蛋白質構象變化深度學習模型相比。PATHpre 模型具有以下特點:

首先,PATHpre 使用來自模擬的轉變資料進行訓練,消除了轉變路徑在潛在空間中呈線性的假設。

其次,模型是適用於所有蛋白質的通用模型,無需針對每種蛋白質進行自定義再訓練。

第三,模型專注於結構明確的蛋白質的大構象變化(RMSD > 5Å),而不是內在無序的蛋白質或區域性變化相對較小的蛋白質,這在藥物設計中很重要。

該研究標誌著 AI 驅動的蛋白質建模取得了重大進展,為預測蛋白質構象變化提供了一種資料高效且可擴充套件的方法。該模型將進一步提高科學家對蛋白質構象變化的理解。

資料庫和原始碼地址:https://github.com/qwang897/PATHpre

參考內容:https://www.marktechpost.com/2024/11/03/a-study-on-protein-conformational-changes-using-a-large-scale-biophysical-sampling-augmented-deep-learning-strategy/

相關文章