ByteDance Research登Nature子刊:AI+冷凍電鏡,揭示蛋白質動態

机器之心發表於2024-11-12

2024 年的諾貝爾化學獎頒發給了在結構生物學領域取得重大成就的 David Baker 團隊和 AlphaFold 團隊,激發了 AI for science 領域新的研究熱潮。

近兩年科學界一個飽受爭議的命題是:“AlphaFold 是否終結了結構生物學?” 首先,AlphaFold 之類的結構預測模型的訓練資料正是來自於以 X 射線、冷凍電鏡(cryo-EM)等為代表的傳統結構解析方法。其次,冷凍電鏡技術非常擅長解析蛋白質的動態,而這正是 AlphaFold 所無法做到的。巧合的是,冷凍電鏡這項技術於 2017 年也獲得了諾貝爾化學獎。

那麼,以 AlphaFold 為代表的 AI 技術能否輔助以 cryo-EM 為代表的傳統方法?兩個諾獎級技術的碰撞,能夠擦出什麼樣的火花?

ByteDance Research 提出 AI for Science 模型被 Nature 子刊收錄

近日,來自位元組跳動 ByteDance Research 團隊的研究人員提出了 CryoSTAR 方法,成功將來自原子模型的結構先驗應用到冷凍電鏡實驗資料的動態解析中,為解決這一問題帶來了新的思路和方法。該成果相關論文 “CryoSTAR: Leveraging Structural Prior and Constraints for Cryo-EM Heterogeneous Reconstruction” 已刊發於 Nature 旗下刊物 Nature Methods,李宜來、周奕、袁璟為共同一作,顧全全教授為通訊作者。

圖片

  • 論文連結:https://www.nature.com/articles/s41592-024-02486-1

  • 論文主頁:https://bytedance.github.io/cryostar/

  • 開源連結:https://github.com/bytedance/cryostar

圖片

基於結構先驗和約束的動態解析

圖片

CryoSTAR 是首個成功在冷凍電鏡實驗資料上應用蛋白質原子結構模態先驗的方法,方法的主要特點有:

  1. 結合蛋白質結構先驗知識:CryoSTAR 方法創新性地利用原子模型資訊作為結構正則化來解決冷凍電鏡資料中的構象動態問題,這與以往大多數僅從計算機視覺角度處理問題的方法不同。它要求一個初始原子模型作為參考,將其結構資訊用於適當地約束模型解析出的構象動態,從而縮小搜尋空間,避免錯誤的解析結果,實現更好更快的收斂。

  2. 輸出兩種模態的解析結果:該方法獨特之處在於它能同時輸出粗粒度的原子模型和密度圖解析結果,這種多維度的結果輸出有助於研究人員更全面地瞭解生物分子的結構和動態過程。同時,密度圖的輸出結果也可以驗證原子模型結果的置信程度,檢驗粗粒度原子模型的動態是否能夠充分被資料所支援。

該方法分為兩個階段:

  1. 第一階段透過結構正則化約束的變分自動編碼器(VAE)解析資料中的動態構象。CryoSTAR 透過 Encoder,將構象的動態壓縮到一個潛在變數中;Decoder 將潛在變數解析成相應的先驗粗粒度原子模型的變形來擬合資料。它在三個基本假設下進行基於結構正則化:一是同一鏈上的兩個相鄰殘基應始終保持連線,透過連續損失函式來約束;二是預測變形後殘基不應過於靠近,透過沖突損失函式來懲罰碰撞;三是區域性結構應儘可能剛性,透過從先驗原子結構模型構建彈性網路並使用彈性網路損失函式來鼓勵這種剛性,同時還採用自適應鬆弛方法來選擇彈性網路中的邊進行正則化,以避免參考原子模型帶來的過度偏差。

  2. 第二階段透過訓練一個密度圖解碼器來得到密度圖模態的動態構象解析結果。在 VAE 訓練完成後,提取所有影像對應的潛在變數並用於訓練密度圖解碼器。密度圖的細節最佳化由輸入影像約束,不受結構先驗和正則化的直接影響,從而最小化結構先驗對輸出密度圖的 bias,使得生成的密度圖可用於評估和驗證粗粒度原子結構模型。

多種典型蛋白資料上的實驗驗證ByteDance Research登Nature子刊:AI+冷凍電鏡,揭示蛋白質動態 圖 3 EMPIAR-10180 結果 ByteDance Research登Nature子刊:AI+冷凍電鏡,揭示蛋白質動態

圖 4 EMPIAR-10073 結果

大型複合物(殘基數量約 10,000)

CryoSTAR 在多個公開資料集(EMPIAR)的冷凍電鏡實驗資料上得到了驗證。對於酵母預催化 B 複合物剪接體(EMPIAR-10180),使用 PDB: 5NRL 作為先驗結構,cryoSTAR 成功揭示了 SF3b 和解旋酶區域的構象變化,其結果與其他方法一致,並且生成的粗粒度模型在電子密度圖中得到了充分驗證,展現出合理的運動模式。對於 U4/U6.U5 三核糖核蛋白(EMPIAR-10073),以 PDB: 5GAN 為參考結構,cryoSTAR 同樣解析了頭部結構域的動態變化,結果與現有方法的發現一致。ByteDance Research登Nature子刊:AI+冷凍電鏡,揭示蛋白質動態 圖 5 EMPIAR-10059 結果 ByteDance Research登Nature子刊:AI+冷凍電鏡,揭示蛋白質動態

圖 6 EMPIAR-10827 結果

膜蛋白(氨基酸數量約 2,000)

圖片

圖 7 CryoSTAR 與 CryoDRGN 在 EMPIAR-10059 上的結果對比

對於 TRPV1 通道蛋白(EMPIAR-10059),使用 PDB: 7RQW 作為參考先驗原子模型,cryoSTAR 發現了蛋白外周可溶結構域的微妙而平滑的運動,每個亞基的運動可透過不同主成分視覺化。研究還表明結構正則化在揭示膜蛋白動力學方面具有關鍵作用,相比之下,沒有結構先驗的方法如 cryoDRGN 在膜蛋白的動態解析方面存在不足。

單鏈蛋白(氨基酸數量約 1,000)

圖片

圖 8 CryoSTAR 與 CryoDRGN、3DFlex 在 EMPIAR-10059 上的結果對比

對於 毒素蛋白 α-LCT(EMPIAR-10827),cryoSTAR 揭示了兩種型別的運動,與離散 3D 分類發現的兩種構象相吻合,且生成的粗粒度原子模型合理,與密度圖擬合良好。結構正則化在這個具有連續異質性的小蛋白中效果顯著,相比其他方法如 cryoDRGN 和 3DFlex,cryoSTAR 生成的密度圖更連續,能有效避免密度圖中的偽影。

總結:利用跨模態資料解析自然現象

位元組跳動 ByteDance Research 提出的新的結合結構先驗的方法 (CryoSTAR) 顯著提升了冷凍電鏡(Cryo-EM)在動態構象解析中的應用潛力。透過利用原子結構模態先驗作為約束,同時輸出兩種模態的解析結果,這一創新方法在技術上展示了其獨特的優勢,併為科學研究開啟了新的大門。

該研究在冷凍電鏡動態解析領域的重要意義不可忽視。傳統的冷凍電鏡方法由於其解析度和解析能力的限制,常常難以捕捉到生物大分子複雜的動態變化。而此次引入結構先驗的策略,極大地增強了動態構象解析的精度與可靠性,使我們能夠更深入地理解生物大分子的動態行為及其機制。

這種方法的潛在價值在生命科學和製藥領域尤為突出。生物大分子的動態解析是理解其功能機制的關鍵,如蛋白質的摺疊、酶活性部位的變化、受體 - 配體的結合模式等。這些動態過程與眾多生理與病理現象息息相關,例如細胞訊號傳導、代謝調控以及疾病發生機制等。因此,準確解析這些動態過程不僅能幫助揭示生物學基本問題,還能為發現新型藥物靶點和最佳化藥物設計提供重要依據。在製藥領域,這一方法同樣具有廣泛的應用前景。透過更高精度地捕捉蛋白質和其他生物大分子的動態變化,研究人員可以更有效地篩選潛在藥物、設計更具針對性的藥物分子,進而提高藥物研發的效率和成功率。例如,這一方法可以幫助解析癌症、神經退行性疾病等重大疾病相關蛋白質的動態構象變化,為開發新藥物提供詳細的分子級資訊。

總而言之,ByteDance Research 的這一創新研究不僅代表了冷凍電鏡動態解析技術的最新進展,更為生命科學和製藥領域帶來了巨大的潛在價值。期待未來該方法能在更多研究和實際應用中得到驗證和推廣,為生命科學研究以及藥物研發帶來新的突破和希望。

ByteDance Research AI 製藥團隊持續在 AI for Science 方向發力

ByteDance Research AI 製藥團隊致力於將人工智慧技術應用於科學研究與藥物開發。團隊在生成式蛋白質設計、蛋白質構象預測以及冷凍電鏡解析等領域取得了業界矚目的成果。

  • 蛋白質設計:團隊研發了基於大規模蛋白質語言模型的序列設計方法 LM-Design [1],大幅提高了蛋白質序列設計的準確度與效率;研發了結合擴散模型與語言模型的新一代蛋白質基礎模型 DPLM 1/2 [2, 3],首次全面統一了蛋白質建模、理解與生成;研發了基於偏好最佳化的抗體設計方法 AbDPO [4],能夠設計出同時滿足多種性質和能量要求的抗體。

  • 蛋白質動態構象預測:團隊研發了 ConfDiff [5] 等模型,準確預測了蛋白質的構象變化,加深了對蛋白質生物過程的理解,還為新藥研發提供了可靠的理論基礎。

  • 冷凍電鏡解析:團隊研發了 CryoSTAR [6] 電鏡解析工具,結合人工智慧技術和高解析度成像,有助於揭示覆雜生物分子體系的構象特徵和動態變化;研發了第一個蛋白質密度基座模型 CryoFM [7],為下一代電鏡解析演算法奠定了基礎。

團隊的研究成果多次發表在 Nature 子刊、ICML、NeurIPS、ICLR 等頂級學術會議上,得到學術界和業界的廣泛認可。

參考文獻

[1] Zheng Z, Deng Y, Xue D, et al. Structure-informed language models are protein designers [C]//International conference on machine learning. PMLR, 2023: 42317-42338.

[2] Wang X, Zheng Z, Ye F, et al. Diffusion Language Models Are Versatile Protein Learners [C]. International Conference on Machine Learning, 2024.

[3] Wang X, Zheng Z, Ye F, et al. DPLM-2: A Multimodal Diffusion Protein Language Model [J]. arXiv preprint arXiv:2410.13782, 2024.

[4] Zhou X, Xue D, Chen R, et al. Antigen-Specific Antibody Design via Direct Energy-based Preference Optimization [C]. NeurIPS, 2024.

[5] Wang Y, Wang L, Shen Y, et al. Protein Conformation Generation via Force-Guided SE (3) Diffusion Models [C]. International Conference on Machine Learning, 2024.

[6] Li Y, Zhou Y, Yuan J, et al. CryoSTAR: leveraging structural priors and constraints for cryo-EM heterogeneous reconstruction [J]. Nature Methods, 2024: 1-9.

[7] Zhou Y, Li Y, Yuan J, et al. CryoFM: A Flow-based Foundation Model for Cryo-EM Densities. arXiv preprint arXiv:2410.08631, 2024.

相關文章