AlphaFold 3 向解碼分子行為和生物計算邁出重要一步,Nature 子刊銳評

ScienceAI發表於2024-07-10

圖片

編輯 | KX

如果我們完全瞭解分子之間是如何相互作用的,那麼生物學就沒什麼可學的了,因為每一種生物現象,包括我們如何感知世界,最終都源於細胞內生物分子的行為和相互作用。

最近推出的 AlphaFold 3 可以直接從蛋白質、核酸及其配體的序列中預測生物分子複合物的 3D 結構。這標誌著我們在長期探索生物分子如何相互作用方面取得了重大進展。

AlphaFold 3 代表了直接從複合物序列預測其三維結構的突破,為生物分子相互作用提供了見解。

圖片

生物分子(如蛋白質或核酸)的一維 (1D) 序列以類似於一段程式碼指定程式的方式指定細胞功能。該序列表示程式語言中的程式碼,並透過摺疊過程「編譯」成機器語言中的程式碼,形成獨特的 3D 結構。該程式由摺疊的生物分子與細胞內其他分子之間的相互作用執行。

由於其獨特的三維結構,生物分子只會與細胞內的一小部分分子(例如 DNA 位點)相互作用,這些相互作用將引發一系列精心策劃的化學和結構轉化,共同定義生化程式(如轉錄)。生化過程的產物(如 RNA)代表執行程式的輸出。

因此,在生物學中,生物分子的一維序列編碼了程式以及編譯和執行程式的方法;該序列編碼了軟體和硬體。根據生物分子的一維序列預測其複合物形成的三維結構是理解生物程式如何執行的關鍵步驟,對我們理解、合理操縱和設計生物系統的能力具有深遠的影響。

圖片

圖示:分子生物學的「計算教條」。(來源:論文)

50 多年來,科學家一直在努力破譯「編譯器」,開發能夠根據氨基酸序列預測蛋白質等生物分子三維結構的演算法。

2020 年,DeepMind 釋出了 AlphaFold 2,標誌著一場革命的開始。AlphaFold 2 可以以前所未有的中位準確率預測蛋白質結構,優於其他結構預測方法。透過提供超過 2 億種已知蛋白質的預測結構,AlphaFold 2 已成為全球科學家的寶貴工具,它改變了基礎和應用生物學研究,併為蛋白質結構預測的長期挑戰提供瞭解決方案。

AlphaFold 2 的成功激發了人們轉向使用深度學習方法來預測複合物的結構。2021 年,華盛頓大學團隊研發出了一款基於深度學習的蛋白質預測新工具 RoseTTAFold,在預測蛋白質結構上取得了媲美 AlphaFold2 的超高準確率,而且速度更快、所需要的計算機處理能力也較低。

RoseTTAFold 利用多軌神經網路實現了接近 AlphaFold 2 的高預測精度,暗示了深度學習模型在根據生物分子序列預測複合物結構方面的真正潛力。

RoseTTAFold 推出後不久,人們發現,只需進行少量修改,AlphaFold 2 就能以合理的精度預測蛋白質-蛋白質複合物的結構。接著 AlphaFold Multimer 釋出,其證明了在包含多鏈蛋白質複合物的結構資料集上訓練 AlphaFold 2 在改進蛋白質-蛋白質複合物預測方面的實用性。

儘管取得了這些進展,但預測蛋白質複合物的準確性無法與單個蛋白質相比,而且這些方法無法輕易模擬蛋白質-核酸或蛋白質-配體複合物。

今年 5 月初,谷歌 DeepMind 推出了 AlphaFold 3,它在預測蛋白質-蛋白質、蛋白質-配體和蛋白質-核酸複合物的 3D 結構方面,已經超越了大多數專業的先進工具。AlphaFold 3 在多個測試資料集中實現了預測準確率的顯著提升。

值得注意的是,AlphaFold 3 在 2 Å 的實驗誤差範圍內,預測了大約 80% 的蛋白質-配體複合物,優於 AutoDock Vina 和 RoseTTAFold 等其他方法。AlphaFold 3 在預測蛋白質-DNA 和蛋白質-RNA 複合物方面也取得了卓越的準確性,並且在預測蛋白質-蛋白質複合物方面優於 AlphaFold Multimer,尤其是對於抗體-抗原相互作用。

此外,AlphaFold 3 在預測包含蛋白質、DNA 和 RNA 殘基中各種共價修飾的結構方面也取得了相當的效能,目前尚無競爭方法。這些結果共同證明了 AlphaFold 3 在預測廣泛的生物分子複合物的準確性方面取得了相當大的進步,凸顯了該模型的底層通用性和多功能性。

AlphaFold 3 實現這一壯舉得益於幾次更新。也許最重要的是用新的擴散模組替換舊的結構模組,該模組經過訓練可以直接預測單個原子的笛卡爾座標,並且可以推廣到更廣泛的化學空間。

圖片

圖示:為 AlphaFold 3 的擴散模組提供動力的擴散過程的說明性示例。(來源:論文)

作為 AlphaFold 3 的簡化說明,可以想象在一個典型的生物分子複合體中,取每個原子的三維座標,並迭代地向其中新增越來越多的高斯噪聲,直到我們得到一個隨機分佈的空間原子雲,這個過程通常稱為「正向擴散」。擴散模型使用多層神經網路來學習逆轉這個過程,這個過程稱為「反向擴散」。

透過這種方式,AlphaFold 3 中的擴散模組基本上學會了預測給定複合物中每個原子的座標,而無需像 AlphaFold 2 中那樣使用任何預定義的殘基框架,從而包含核酸、離子、配體和化學修飾在內的更廣泛的化學空間。

AlphaFold 3 還用 Pairformer(一種更新的 Transformer 架構)取代了 Evoformer,減少了對 MSA 處理的重視,從而簡化了整體網路架構。Pairformer 僅保留序列和「配對錶示」以供下游處理,現在分別從 MSA 和結構模板中捕獲所有經過處理的進化和結構資訊。用於最佳化和訓練神經網路的指標也進行了更新,以便更好地適應網路架構的變化,更適用於預測生物分子複合物。

透過在統一的神經網路架構中使用這些改進,AlphaFold 3 減少了對序列比對的依賴,增加了對殘基之間相互作用的重視,並將其結構模組推廣到更廣泛的化學空間,從而提高了對蛋白質和其他生物分子複合物結構的預測精度。

儘管 AlphaFold 3 取得了進步,但仍有幾個方面需要改進。AlphaFold 3 有時無法正確模擬分子的手性,有時無法預測大型(總殘基超過 2,000 個)蛋白質-核酸複合物的結構,因為相互作用的殘基之間存在嚴重的空間衝突。此外,諸如擴散模組之類的生成模型可能會出現「幻覺」,識別出本質上無序的區域中的結構順序。

研究人員評估了 AlphaFold 3 對十個可用 CASP15 RNA 靶標的預測準確性,發現與 RoseTTAFold2NA 和 AIchemy_RNA 相比,其準確性更高。然而,在預測 3D RNA 結構方面,AlphaFold 3 的表現不如頂級人類專家輔助 CASP15 提交 Alchemy_RNA2。這些例子說明了,需要在進行生物實驗的同時,追求計算上的突破,以檢驗他們的預測。

DeepMind 推出了 AlphaFold 伺服器,它為非商業研究人員提供了一個使用者友好的介面,以生成生物分子複合物的 AlphaFold 預測。與其前身 AlphaFold 2 相比,AlphaFold 3 的原始碼和可執行檔案不公開。提供了虛擬碼來代替原始碼。這為更廣泛的科學界對 AlphaFold 3 進行廣泛測試帶來了障礙,導致該領域內持續激烈的爭論,也可能阻礙其未來的進一步發展。

圖片

在考慮 AlphaFold 3 帶來的結構預測突破時,重要的是要記住,結構生物學的目標不是預測生物分子及其複合物的 3D 結構,而是預測它們的行為以及執行生物程式時會發生什麼。例如,從轉錄因子及其 DNA 結合夥伴的 3D 結構來看,我們無法預測它們彼此結合的緊密程度或速度,以及當我們透過突變殘基來改變程式時這些分子行為將如何變化。這些資訊是準確預測執行轉錄程式的結果所必需的。

為了在預測分子行為方面取得進展,我們必須認識到結構預測問題並不像看起來那麼明確。生物分子及其複合物不會摺疊成單一結構,而是形成數千種不同構象的集合,每種構象都有不同的機率和壽命。

瞭解這些構象景觀以及它們在生物分子相互作用時如何變化,對於定量預測親和力和動力學速率至關重要。因此,我們需要一個新的「編譯器」,可以解碼由生物分子的一維序列編碼的動態資訊,以及可以利用這種三維結構的動態表示來更好地預測執行程式的結果的模型。

從各種條件下的序列預測構象集合是我們現在必須集中精力解決的問題,從而獲得對分子行為的定量和預測性理解。訓練神經網路從序列預測集合需要大量實驗確定的集合資料集。然而,實驗確定的構象集合的數量目前僅限於幾十個。

因此,儘管利用 AlphaFold 3 根據生物分子序列預測其自由和相互複合的 3D 結構,是理解分子行為和生物計算的重要一步,但實驗人員不必擔心被淘汰。結構生物學領域即將變得更加充滿活力。

論文連結:https://www.nature.com/articles/s41594-024-01350-2

相關文章