僅幾秒,準確推斷蛋白動力學資訊,山大、北理工等AI模型RMSF-net登Nature子刊

ScienceAI發表於2024-07-05

僅幾秒,準確推斷蛋白動力學資訊,山大、北理工等AI模型RMSF-net登Nature子刊

編輯 | KX

蛋白質的動力學對於理解其機制至關重要。然而,透過計算預測蛋白質動學資訊具有挑戰性。

在此,來自山東大學、百圖生科(BioMap)、北京理工大學、湖北醫藥學院、寧夏醫科大學和阿卜杜拉國王科技大學(KAUST)的研究團隊,提出了一個神經網路模型 RMSF-net,其優於以前的方法,並在大規模蛋白質動力學資料集中產生最佳結果;該模型可以在幾秒鐘內準確推斷出蛋白質的動力學資訊。

透過從實驗蛋白質結構資料和低溫電子顯微鏡 (cryo-EM) 資料整合中有效地學習,該方法能夠準確識別低溫電子顯微鏡圖和 PDB 模型之間的互動式雙向約束和監督,以最大限度地提高動力學預測效率。

RMSF-net 是一個可免費使用的工具,將在蛋白質動力學研究中發揮重要作用。

該研究以「Accurate Prediction of Protein Structural Flexibility by Deep Learning Integrating Intricate Atomic Structures and Cryo-EM Density Information」為題,於 7 月 2 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-49858-x

RMSF-net github 地址:https://github.com/XintSong/RMSF-net

蛋白質的動力學對於理解其機制起著至關重要的作用。目前,大多數蛋白質是透過低溫電子顯微鏡(cryo-EM)技術來解決的,其中大分子結構由 3D 密度圖表示。

由於低溫電子顯微鏡分析中原始二維粒子影像的解析度和訊雜比較低,在重建過程中無法分辨出微小的構象變化。

深度學習方法已廣泛應用於低溫電子顯微鏡圖的自動分析。目前,給定一個高解析度的低溫電鏡圖譜,從低溫電鏡圖譜精確構建一個蛋白質資料庫(Protein Data Bank,PDB)模型模型並不困難。然而,這些構建的 PDB 模型沒有考慮動力學資訊,而從 PDB 模型計算動力學資訊仍然是一項困難的分子動力學(MD)模擬任務,通常需要大量的計算資源和時間。

RMSF-net 概述

該研究團隊提出了一種用於低溫電子顯微鏡密度圖的神經網路模型 RMSF-net,該模型充分利用低溫電子顯微鏡密度和 PDB 模型資訊,可以在幾秒鐘內準確推斷出蛋白質的動力學資訊。

RMSF 是一種廣泛使用的測量方法,用於評估 MD 分析中分子結構的靈活性。該方法的主要目的是預測蛋白質內區域性結構(殘基、原子)的 RMSF。

圖片

圖示:RMSF-net。(來源:論文)

除了低溫電子顯微鏡圖之外,RMSF-net 還利用 PDB 模型作為額外輸入,來產生非常接近 MD 模擬結果的 RMSF 預測。

RMSF-net 是一個三維卷積神經網路,包含兩個相互連線的模組。主模組採用 Unet + +(L3) 架構對輸入密度框進行特徵編碼和解碼。另一個模組利用 1 核卷積對 Unet + + 主幹生成的特徵圖的通道進行迴歸。然後將中心裁剪應用於迴歸模組輸出以獲得中心 RMSF 子框,其中體素(voxel)值對應於其中包含的原子的 RMSF。最後,使用合併演算法將 RMSF 子框在空間上合併為 RMSF 圖。

此外,研究人員還構建了一個大規模蛋白質動力學資料集用於 RMSF-net 的訓練和驗證,其中選擇了 335 個具有擬合 PDB 模型的低溫電子顯微鏡結構條目並執行相應的 MD 模擬。綜合實驗結果證明了 RMSF-net 的效率和有效性。

表:不同 RMSF 預測方法在資料集上的表現。(來源:論文)

圖片

特別是,RMSF-net 透過嚴格的 5 倍交叉驗證在測試集上表現出色,與 MD 模擬結果的相關係數達到 0.746±0.127,比 DEFMap 提高了 15%,比基線提高了 10%。

動力學預測的可解釋性

接下來,研究人員透過對比實驗進一步增強了 RMSF-net 動力學預測的可解釋性。透過將僅基於低溫電子顯微鏡圖譜的 RMSF 預測過程分為兩個步驟(Occ2RMSF-net):(1)結構資訊提取;(2)基於提取的結構資訊進行動力學預測。

研究證明了基於低溫電子顯微鏡圖譜的模型(如 DEFMap 或 RMSF-net_cryo)的動力學預測主要透過解讀蛋白質結構來實現。這凸顯了蛋白質拓撲結構與動力學之間的聯絡,符合結構-功能關係的第一原理。

圖片

圖示:RMSF-net 與其他相關方法的效能比較。(來源:論文)

此外,透過對 RMSF-net_cryo、RMSF-net_pdb 和最終的雙組合 RMSF-net 進行全面比較,證明了:一方面,來自 PDB 模型的結構資訊在 RMSF-net 中起主要作用,其中深度模型從 MD 模擬中學習結構拓撲和靈活性之間的模式,另一方面,低溫電子顯微鏡圖譜異質密度分佈中包含的動力學資訊進一步增強了模型。這些結果驗證了低溫電子顯微鏡圖和 PDB 模型的資訊對 RMSF-net 中的蛋白質動力學預測的互補作用。

侷限性與未來方向

不可否認的是,RMSF-net 主要限於預測純蛋白質及其複合物在溶液中的柔韌性。對於蛋白質在與小分子配體結合或在膜環境中的動力學特性,該方法在某些區域性區域可能會表現出不準確性。

RMSF-net 的卓越效能揭示了進一步研究該方向的可行性。該研究還沒有擴充套件到核酸和蛋白質-核酸複合物。綜合表徵大分子動力學的各個方面,包括多構象預測和轉變分析,在未來需要進一步進行廣泛而深入的研究。

儘管如此,作為預測蛋白質動力學的工具,RMSF-net 由於其優越的效能和超快的處理速度,在蛋白質結構和動力學研究中仍有很大的應用前景。

注:封面來自網路

相關文章