編輯 | ScienceAI
在蛋白領域,華盛頓大學 David Baker 團隊又帶來了新進展。
蛋白質是生命存在不可或缺的分子,但它們不是細胞中唯一的分子,參與生命過程它們必須與其他分子相互協作。
近年來,AlphaFold 和 RoseTTAFold 等蛋白質結構預測演算法,席捲了結構生物學領域。
深度學習方法徹底改變了蛋白質結構預測和設計方式,但目前僅限於純蛋白質系統。
問題是,這些模型忽略了許多影響蛋白質結構的化學型別。「例如,許多生物學涉及蛋白質與小分子相互作用。」華盛頓大學教授 David Baker 說。
「這是我們想要測試的一種假設:是否有可能訓練一個可以代表所有這些不同型別分子的模型?」 論文一作 Rohith Krishna 說道。
基於此,Baker 團隊開發了 RoseTTAFold All-Atom(RFAA),它可以將氨基酸和 DNA 鹼基的基於殘基的表示與所有其他基團的原子表示相結合,從而對包含蛋白質、核酸、小分子、金屬和給定序列和化學結構的共價修飾的元件進行建模。
該研究以「Generalized biomolecular modeling and design with RoseTTAFold All-Atom」為題,於 2024 年 3 月 7 日釋出在《Science》。
深度神經網路 AlphaFold2(AF2)和 RoseTTAFold 實現了高精度從氨基酸序列預測蛋白質結構。
這些機器學習工具在已經透過實驗解決的蛋白質結構上進行訓練,僅根據蛋白質的氨基酸序列預測新的 3D 結構。生物化學家利用這些預測來提出有關蛋白質如何工作以及它們如何組合在一起的假設,並且還使用這些工具來設計具有所需功能的新蛋白質。
然而,在自然界中,蛋白質很少單獨發生作用,它們在細胞訊號傳導中與其他蛋白質形成複合物,在轉錄和翻譯過程中與 DNA 和 RNA 相互作用,在代謝過程中與小分子進行共價或非共價相互作用。
目前,模擬一般的生物分子元件所組成的多肽鏈,共價修飾的氨基酸、核酸鏈,以及任意的小分子,仍然是一個突出的挑戰。
將結構預測推廣到所有生物分子
華盛頓大學 David Baker 團隊開發了一種結構預測方法,可以生成一個生物單元的所有原子的三維座標,包括蛋白質、核酸、小分子、金屬和化學修飾。
面對廣義生物分子系統建模的更廣泛的挑戰,研究人員面臨的第一個問題是如何表示組成單元。現有的蛋白質結構預測網路表示蛋白質線性鏈的氨基酸,這種表示可以很容易地擴充套件到核酸。
然而,許多與蛋白質相互作用的小分子並不是聚合物,而且目前還不清楚如何將它們建模為線性序列。表示小分子鍵合結構的一種自然方法是用圖來表示,圖中的節點是原子,圖中的邊表示鍵的連通性。這種圖表示並不適合蛋白質,因為它們包含成千上萬的原子,所以整個蛋白質在原子水平上建模在計算方面非常棘手。
為了克服這一限制,研究人員嘗試將生物聚合物(蛋白質和核酸)的基於序列的描述,與小分子和蛋白質共價修飾的解剖圖表示相結合。
透過對擴散去噪任務進行微調,研究人員獲得了 RFdiffusion All-Atom (RFdiffusionAA),它透過直接在小分子和其他非蛋白質分子周圍構建蛋白質結構,來生成結合口袋。
Baker 表示:「原則上,經過更多樣化資料集訓練的網路應該能夠更好地進行泛化。」他補充說,研究人員計劃讓該網路取代任務特定版本的 RoseTTAFold。
具體來說,研究人員根據 RoseTTAFold2(RF2)蛋白質結構預測網路對網路架構進行建模,該網路可以接受 1D 序列資訊、來自同源模板的 2D 成對距離資訊和 3D 座標資訊,並透過許多隱藏層迭代改進預測結構。
與蛋白質和核酸序列不同,分子圖是排列不變的,因此,無論小分子元素標記順序如何,網路都應該做出相同的預測。AF2 和 RF2 中,氨基酸和鹼基的序列順序是透過相對位置編碼來表示的;對於原子,該團隊省略了這樣的編碼並利用網路注意力機制的排列不變性。
研究人員還修改了座標更新:在 AF2 和 RF2 中,蛋白質殘基由 C 座標和 N-C -C 剛性框架 α 的方向 α 表示,並且沿著 3D 軌跡,網路生成每個框架方向的旋轉更新,以及每個座標的平移更新。
為了在 RFAA 中概括這一點,重原子座標被新增到 3D 軌跡中,並僅根據對其位置的預測平移更新獨立移動。因此,在輸入後,整個系統立即被表示為氨基酸殘基、核酸鹼基以及自由移動原子的斷開氣體,它透過網路的許多塊連續轉化為物理上合理的組裝結構。
對於指導引數最佳化的損失函式,研究人員開發了 AF2 中引入的幀對齊點誤差(FAPE)損失的全原子版本,透過根據其鍵合鄰居的身份定義任意分子中每個原子的座標系,與基於殘基的 FAPE 一樣,連續對齊每個座標系並計算周圍原子的座標誤差。
除了原子座標之外,網路還可以預測原子和殘基置信度 (pLDDT) 和成對置信度 (PAE) 指標,從而能夠識別高質量的預測。
應用及展望
在蛋白質資料庫(PDB)中對完整生物組裝體的結構進行訓練後,RFAA 具有與 AF2 相當的蛋白質結構預測準確性,在 CAMEO 中具有出色的靈活骨架小分子對接效能,並且對蛋白質共價修飾以及具有多個核酸鏈和小分子的蛋白質組裝具有合理的預測準確性。
在此之前,沒有方法可以同時建模。同時,從目標小分子周圍氨基酸殘基的隨機分佈開始,該團隊設計並透過實驗驗證了與心臟病治療劑地高辛、酶促輔因子血紅素和光學活性膽鹼分子結合的蛋白質,這些蛋白質具有擴大光合作用捕獲的波長範圍的潛力。
美國國家醫學圖書館(National Library of Medicine)的計算生物學家 Lauren Porter 表示,該網路前景廣闊,但需要時間來了解它所代表的巨大進步,以及它可能存在的不足。她說,人工智慧模型總體而言「取決於它們的訓練集」。它們可能會在可用訓練資料有限的領域遇到困難,例如當單個蛋白質根據其上下文采用兩種截然不同的形狀時。生物化學家本身並不知道其中許多案例,因此需要時間才能發現這些差異。
儘管如此,Porter 說,「這無疑是朝著正確方向邁出的一步,也許是一個重大的一步,時間會證明一切。」
論文連結:https://www.science.org/doi/10.1126/science.adl2528
參考內容:https://cen.acs.org/analytical-chemistry/structural-biology/new-tool-protein-designers/101/i36