填補AlphaFold3空白,位元組跳動提出物理引導的方法讓蛋白質動起來

机器之心發表於2024-05-29

世界是變化的,分子是運動的,從預測靜態單一結構走向動態構象分佈是揭示蛋白質等生物分子功能的重要一步。探索蛋白質的構象分佈,能幫助理解蛋白質與其他分子相互作用的生物過程;識別蛋白質表面下的潛在藥物位點,描繪各個亞穩態之間的過渡路徑,有助於研究人員設計出具有更強特異性和效力的目標抑制劑和治療藥物。但傳統的分子動力學模擬方法昂貴且耗時,難以跨越長的時間尺度,從而觀察到重要的生物過程。

近年來的深度學習蛋白質結構預測模型在這個問題上也同樣碰壁,往往只能預測靜態單一結構,包括最近再次登上 Nature 的 AlphaFold 3,Deepmind 的研究者也承認其仍然專注於分子結構的靜態預測,對動力學行為的刻畫還不夠。另一方面,蛋白質構象並非隨機分佈,而是玻爾茲曼分佈,其出現的機率與其自由能量成指數級的反比。一些研究使用啟發性取樣或模型加噪去噪的方法,但均不能保證取樣的結構是目標蛋白質的低能態,也不能保證取樣的分佈服從真實的玻爾茲曼分佈。

圖片
圖片來源: 《Accurate structure prediction of biomolecular interactions》AlphaFold3:構象覆蓋度有限。AlphaFold3對蛋白質Cereblon在有/無配體結合條件下的預測顯示出侷限的構象變化。灰色:真實結構;藍色:AlphaFold3預測結構。

造成現有模型難以預測動態構象分佈的主要原因是,蛋白質結構資料集僅有實驗解析的單一靜態結構或結合態結構,結構資料集的偏置導致了模型難於預測真實的分佈。另一方面,物理知識的缺失導致模型無法模擬分子動力學行為,從而與真實世界對齊。

在此,來自位元組跳動 ByteDance Research 的研究人員提出了一種物理資訊引導的蛋白質構象生成擴散模型 CONFDIFF,透過模型來預測中間時刻的力場與能量來引導模型生成高質量構象。論文已被 ICML 2024 錄用。

圖片

論文連結:http://arxiv.org/abs/2403.14088

該模型充分利用了物理知識來引導模型與真實世界對齊,同時又規避了實時的力場和能量的計算,相比傳統方法有巨大的加速。多項實驗表明,力場和能量能夠有效引導模型取樣低能量的構象,進而產生更加多樣化的樣本,這些樣本分佈上也更符合真實的玻爾茲曼分佈。

圖片

區域性蛋白質動態

圖片

蛋白質反摺疊

能量與力場引導下的蛋白質構象生成擴散模型

CONFDIFF 首先在 SE (3) 空間上構建了一個非條件的生成擴散模型,透過預測主鏈原子座標和主鏈朝向來構建蛋白質構象。為了充分利用先驗結構和序列資訊,CONFDIFF 使用目標序列的預訓練表示訓練了一個基於序列的條件生成模型來引導上述的非條件模型,使生成構象擁有多樣性的同時又能符合相應的結構與序列約束。

圖片

圖 1:COFFDIFF 演算法示意圖

在此基礎上,為使分佈符合能量玻爾茲曼分佈,研究者提出了能量與力場引導方法,其中最重要的是計算中間時刻的能量梯度(即力場)圖片。為了規避昂貴耗時的實時能量或力場計算,研究者使用神經網路來預測這個量,並創新性提出了兩種匹配訓練方法並推導了相應公式,具體公式細節可參見論文。

第一種方法是預測中間時刻能量,並使用對中間結構進行自動求導,相應的能量匹配的訓練公式較為簡單。但是能量可能存在數值穩定問題,而且推理結構需要儲存和回傳梯度,對視訊記憶體和算力均存在負擔。

第二種更推薦的方法是直接預測中間時刻能量的梯度(即力場),研究者也推導了相應的力場匹配訓練公式。後續的系列實驗也證明力場的方法更優。模型預測的能量和力場繼續引導上述非條件模型,生成的構象進一步得到了的物理約束與引導,勢能更低且分佈更符合玻爾茲曼分佈。

生成低能且服從真實分佈的蛋白質構象

研究者評估了不同引導方法下模型在蛋白質構象生成任務上的效能,在快速摺疊蛋白質(fast-folding proteins)和 牛胰蛋白酶抑制劑(BPTI)兩種包含分子動力學模擬生成構象的蛋白質資料集上著重考察了生成樣本的是否屬於低能態、多樣化且服從真實分佈。

1. 快速摺疊蛋白質(fast-folding proteins)評估

研究者在快速摺疊蛋白質資料集上評估模型預測構象分佈的能力。評估了生成樣本和真實分子動力學樣本分佈之間的 Jensen-Shannon 距離 (JS Distance),以及多樣性的有效性得分和 RMSF,殘基之間預測接觸率 RMSE。表 1 展示了各模型預測構象的效能,圖 2 中展示了 TIC(time-lagged independent components)投影中的樣本分佈。

在預測樣本分佈和預測殘基接觸的 RMSE 等指標方面,CONFDIFF 優於已有的 EigenFold 和 Str2Str 等模型。值得注意的是,引入能量和力場引導在保持了構象多樣性的同時提高了構象的生成有效性,證實了物理引導方法的優勢。力場引導的方法也相對更優於能量引導的方法。

圖片

表 1:快速摺疊蛋白質(fast-folding proteins)上各模型預測構象效能

圖片

圖 2:快速摺疊蛋白質 TIC 投影樣本分佈

2. 牛胰蛋白酶抑制劑(BPTI)亞穩態預測

研究者評估了模型預測 5 種 BPTI 原生摺疊態附近亞穩態的質量。指標為 5 個聚類的最佳 RMSD 平均值(RMSDAVG)和最難取樣的聚類 3 的 RMSD 平均值(RMSDCLS3)。如表 2 所示,CONFDIFF 在預測不同亞穩態方面有更好的能力,力場引導的模型在這兩個指標上都表現最好。透過進一步比較不同取樣樣本量下的指標來評估模型的取樣效率,如圖 3 所示。CONFDIFF 模型對聚類 3 的取樣效率都很好,同樣地,力場引導的模型也取得了最好效果。

圖片

表 2:模型預測 BPTI 亞穩態質量

圖片

圖 3:模型取樣 BPTI 效率

圖片

圖 4:模型預測 BPTI 亞穩態蛋白質具體例子(真實結構塗色,取樣結構灰色)

3. 力場引導模型取樣

研究者以快速摺疊蛋白中的 WW Domain 蛋白為例,探究了 CONFDIFF 在不同程度的力場引導 (η) 和序列條件 (γ) 影響下生成構象的效果如圖 5 所示。結果表明,力場引導的模型可以在不顯著降低多樣性的情況下提高構象穩定性。研究者同樣探究了不同強度下能量引導的模型取樣結果,得到了相似結論,已展示在論文附錄中。

圖片

圖 5:在不同的力場引導 (η) 和序列條件 (γ) 下,WW Domain 的取樣構象的能量 (左) 和多樣性 (右)

總結:透過物理資訊引導向真實世界邁進

現有的蛋白質結構資料庫的構象多樣性有限,相應的蛋白質結構預測模型及在此基礎上衍生的生成擴散模型都往往只能預測摺疊結構而缺乏預測整個構象空間的能力。

位元組跳動 ByteDance Research 的研究者首次將玻爾茲曼先驗與生成擴散模型結合,使用模型預測中間時刻能量與力場並引導模型生成更加低能多樣且服從真實分佈的構象。這一研究有助於擴充套件蛋白質結構的探索從預測靜態單一結構走向預測動態構象分佈,邁向更真實的物理世界,為準確的藥效預測、理解成藥機理、設計藥物、發現新靶點等提供幫助。

揭示蛋白機理,探索生命本質

ByteDance Research AI 製藥團隊持續在 AI for Science 方向發力

ByteDance Research AI 製藥團隊致力於將人工智慧技術應用於科學研究與藥物開發。團隊在生成式蛋白質設計、蛋白質構象預測以及冷凍電鏡解析等領域取得了業界矚目的成果。

在生成式蛋白質設計方面,團隊研發了基於大規模蛋白質語言模型的序列設計方法 LM-Design,大幅提高了蛋白質序列設計的準確度與效率;研發了結合擴散模型與語言模型的新一代蛋白質基礎模型 DPLM,首次全面統一了蛋白質建模、理解與生成;研發了基於偏好最佳化的抗體設計方法 AbDPO,能夠設計出同時滿足多種性質和能量要求的抗體。

在蛋白質動態構象預測方面,團隊研發了 ConfDiff 等模型,準確預測了蛋白質的構象變化,加深了對蛋白質生物過程的理解,還為新藥研發提供了可靠的理論基礎。

冷凍電鏡解析方面,團隊研發了 CryoSTAR 電鏡解析工具,結合人工智慧技術和高解析度成像,極大地提升了生物大分子結構解析的速度和精度。這一技術有助於揭示覆雜生物分子體系的構象特徵和動態變化,為藥物靶點的發現與設計提供了強有力的支援。

團隊的研究成果多次發表在 ICML、NeurIPS、ICLR 等頂級學術會議上,得到學術界和業界的廣泛認可。

相關文章