Nature子刊,優於AlphaFold,全原子取樣,一種預測肽結構的AI方法

ScienceAI發表於2024-07-08

圖片

編輯 | 蘿蔔皮

深度學習方法推動了生物分子結構單態預測的重大進展。然而,生物分子的功能取決於它們可以呈現的構象範圍。對於肽來說尤其如此,肽是一類高度靈活的分子,參與多種生物過程,作為治療手段備受關注。

多倫多大學的 Philip M. Kim 和 Osama Abdin 開發了 PepFlow,這是一種可轉移生成模型,它能夠從輸入肽的允許構象空間中直接進行全原子取樣。研究人員在擴散框架中訓練模型,然後使用等效流進行構象取樣。

為了克服廣義全原子建模的成本過高,他們模組化了生成過程並整合了超網路來預測序列特定的網路引數。PepFlow 可準確預測肽結構,並有效重現實驗肽集合,所需執行時間僅為傳統方法的一小部分。PepFlow 還可用於對滿足大環化等約束的構象進行取樣。

「到目前為止,我們還無法模擬肽的全部構象。」這項研究的第一作者 Osama Abdin 說道,「PepFlow 利用深度學習在幾分鐘內捕捉到肽的精確構象。該模型有可能透過設計作為粘合劑的肽來指導藥物開發。」

該研究以「Direct conformational sampling from peptide energy landscapes through hypernetwork-conditioned diffusion」為題,於 2024 年 6 月 27 日釋出在《Nature Machine Intelligence》。

圖片

蛋白質-肽相互作用在分子通路中普遍存在,是許多細胞功能不可或缺的一部分。據估計,高達 40% 的蛋白質-蛋白質相互作用是由肽結合介導的。這些相互作用涉及球狀蛋白質與通常位於無序區域的短片段的結合。短肽還具有多種特性,使其適合於治療開發。

與小分子相比,肽往往更具特異性,毒性風險較低。與大型生物製劑相比,肽的生產成本更低,且免疫原性更低。肽療法在醫藥市場中佔有相當大的份額。目前,需要計算工具來加快肽的建模和工程設計。

「肽是 PepFlow 模型的重點,因為它們是非常重要的生物分子,而且它們自然非常活躍,所以我們需要模擬它們的不同構象來了解它們的功能。」多倫多大學教授 Philip M. Kim 表示,「它們在治療方面也發揮著重要作用,從用於治療糖尿病和肥胖症的 GLP1 類似物(如 Ozempic)就可以看出這一點。」

Philip M. Kim 和 Osama Abdin 提出了一種可用於肽構象直接全原子取樣的方法。即使對於短肽,進行準確而高效的全原子取樣也是一項巨大的挑戰。

圖片

圖示:PepFlow 架構示意圖。(來源:論文)

為了解決這個問題,他們開發了 PepFlow,這是一個模組化、超網路條件的生成模型,可以預測任何輸入肽序列的全原子構象。PepFlow 是在已知分子構象上進行訓練的連續時間擴散模型。相應的機率流 ODE 則用於能量取樣和訓練。

PepFlow 具有強大的預測單態肽結構和短線性基序集合 (SLiM) 的能力,並且可以透過潛在空間構象搜尋在諸如大環化等約束條件下對肽結構進行建模。

該模型擴充套件了領先的 Google Deepmind AI 系統 AlphaFold 預測蛋白質結構的能力。PepFlow 可以生成給定肽的一系列構象,從而優於 AlphaFold2;當然 AlphaFold2 的設計初衷並不是解決這一問題。

PepFlow 的與眾不同之處在於其背後的技術創新。例如,它是一種廣義模型,其靈感來自玻爾茲曼生成器,這是一種非常先進的基於物理的機器學習模型。

「使用 PepFlow 建模可以深入瞭解肽的真實能量狀況。」Abdin 說,「開發 PepFlow 花了兩年半的時間,訓練它只花了一個月的時間,但值得邁向下一個前沿,超越僅預測肽的一種結構的模型。」

整體而言,準確高效地對肽構象進行取樣的能力有可能改善肽對接和設計。肽對接方法通常從與目標蛋白對接的肽構象庫開始。更精確的肽集合生成也許能改善這一過程。

PepFlow 還可用於評估不同序列在目標蛋白質 - 蛋白質介面上呈現構象的傾向,進而可用於設計抑制肽。

圖片

圖示:PepFlow 生成的集合與分子動力學模擬的比較。(來源:論文)

雖然 PepFlow 在 AlphaFold2 的基礎上有所改進,但它本身也有侷限性,因為這只是模型的第一個版本。

PepFlow 有一個顯著缺點,與玻爾茲曼生成器不同,PepFlow 缺乏對生成的樣本重新加權以達到精確的玻爾茲曼分佈的能力。

雖然 PepFlow 能夠對生成的樣本進行似然計算,但可處理的計算需要使用隨機估計器,這會給計算值新增噪聲。此外,PepFlow 偶爾會生成高能樣本,但無法捕獲分子動力學模擬中觀察到的全部能量景觀。

改進 PepFlow 的一個潛在方法是將開發的模型轉移到其他取樣框架。在條件設定中使用了標準化流,並使用了不同的取樣方法,以促進從玻爾茲曼分佈中進行取樣。

最近學界開發的流匹配正規化,進一步作為以無模擬方式訓練連續規範化流模型的替代方法。流動匹配已被有效用於不同分子(包括小分子和蛋白質)的結構取樣,並可潛在地用於擴充套件 PepFlow 框架的有效性。

總之,PepFlow 的設計目標是易於擴充套件,以考慮其他因素、新資訊和潛在用途。

即使只是第一個版本,PepFlow 也是一個全面而有效的模型,具有進一步開發依賴肽結合來啟用或抑制生物過程的治療方法的潛力。

論文連結:https://www.nature.com/articles/s42256-024-00860-4

相關報導:https://phys.org/news/2024-06-deep-outperforms-google-ai-peptide.html

相關文章