蛋白預測從數月縮短至數小時,MassiveFold出於AlphaFold而勝於AlphaFold3

ScienceAI發表於2024-11-18

圖片

編輯 | KX

蛋白質結構預測領域正處於發展的黃金時代。生物技術研究在很大程度上依賴於發現正確的蛋白質結構來執行所需的任務,這對幾乎所有生物技術領域都有影響,從食品到藥品、從時尚到生物燃料、從洗衣粉到農業......

AlphaFold 已經徹底改變了蛋白質結構預測,使單鏈和複雜蛋白質組裝的建模成為可能。然而,它需要大量計算並且耗時。

在此,法國里爾大學(Université de Lille)、瑞典林雪平大學(Linköping University)的科學家提出了 MassiveFold,這是 AlphaFold 的最佳化和可定製版本,可將蛋白質結構預測的計算時間從數月大幅縮短至數小時。

比較分析表明,MassiveFold 可以為多個 CASP15 靶標生成良好的模型,有時甚至優於 AlphaFold3。

MassiveFold 有效地增強了蛋白質和蛋白質組裝的結構建模,同時降低了計算成本,提高了預測質量,並可在各種硬體設定中擴充套件。其可以在從單臺計算機到大型 GPU 基礎設施的任何裝置上執行,從而充分利用所有計算節點。

相關研究以《MassiveFold: unveiling AlphaFold’s hidden potential with optimized and parallelized massive sampling》為題,於 11 月 11 日發表在《Nature Computational Science》上。

圖片

論文連結:https://www.nature.com/articles/s43588-024-00714-4

AlphaFold 需要大量計算且耗時

AlphaFold 中的大規模取樣可以提高結構多樣性。結合其高效的置信度排名,這可以提高單體結構和蛋白質組裝的建模能力。然而,這種方法在 GPU 成本和資料儲存方面存在困難。

研究表明,大量取樣可以揭示單體和蛋白質複合物的結構多樣性和構象變異性,包括奈米抗體複合物和抗原抗體相互作用等複雜組裝。但是,這種高取樣雖然提高了預測準確性,但在 GPU 需求和較長處理時間方面也面臨著重大挑戰。

具體而言,AlphaFold 對圖形處理單元 (GPU) 的高需求及其無法並行執行造成了實際限制。標準 AlphaFold-Multimer 執行,尤其是對於大型組裝,通常會超過計算基礎設施設定的 GPU 叢集時間,從而阻礙複雜預測的完成。這使得在現有的 GPU 資源限制內難以充分發揮 AlphaFold 的全部潛力,這促使人們開發更有效的單鏈和複雜結構預測解決方案。

MassiveFold 甚至優於 AlphaFold3?

為了應對這些挑戰,法國里爾大學的研究人員開發了 MassiveFold,這是 AlphaFold 的並行化、可定製版本,它將計算任務分配到 CPU 和 GPU 之間,以加速蛋白質結構的預測。

MassiveFold 將 AlphaFold 的框架與 AFsample 的增強取樣和 ColabFold 的附加功能相結合。MassiveFold 是一個並行化引擎,它呼叫結構預測工具,該工具可以是 AFmassive(研究人員與 MassiveFold 一起開發的 AFsample 的擴充套件版本)或 ColabFold,然後對結果進行後處理。其他結構預測引擎將來可以整合到 MassiveFold 中,前提是它們啟用了大規模取樣。

MassiveFold 包括 AlphaFold 迄今為止釋出的所有版本的神經網路 (NN) 模型,包含導致結構多樣性增加的多個引數,並且可以指示僅保留最有希望的預測結果。該程式可以並行執行許多例項,每個 GPU 最多可以進行一次預測,因此可以最佳地利用可用的計算基礎設施,並大大縮短獲得預測結果所需的時間,從幾個月縮短到幾個小時。

MassiveFold 可透過 conda 環境輕鬆安裝,使用簡單,只需使用 JavaScript 物件表示法 (JSON) 引數檔案執行簡單的命令列即可。

為了能夠完全訪問多樣性引數,MassiveFold 整合了最佳化的並行化,該並行化由三部分組成:(1) 在中央處理器 (CPU) 上進行比對計算,(2) 在 GPU 上分成多個批次的結構推斷,以及 (3) 在 CPU 上進行最終的後處理步驟,收集結果、對所有預測進行排序並生成圖表。

圖片

圖 1:MassiveFold 自動處理的計算過程。(來源:論文)

MassiveFold 的後處理彙總了所有預測結果並生成了多個圖。

圖片

圖 2:MassiveFold 使用 AFmassive 生成的用於 CASP15 多聚體靶標 H1140 結構預測的圖表。(來源:論文)

研究發現 MassiveFold 可透過調整取樣引數、回收和 dropout 有效提高蛋白質結構預測的多樣性和置信度,從而為複雜的蛋白質靶標生成高置信度結構。例如,在 CASP15 H1140 靶標中,MassiveFold 可透過擴充套件采樣和使用無模板 dropout 生成具有高置信度分數的多個不同結構。

圖片

在 CASP15 靶標上對 MassiveFold 和 AlphaFold3 進行比較的測試表明,MassiveFold 的大規模取樣方法為八個靶標中的七個生成了良好的模型,而 AlphaFold3 僅在八個靶標中的三個上略勝於 MassiveFold。

未來,將 AlphaFold3 與 MassiveFold 整合

未來,可以將 AlphaFold3 整合到 MassiveFold 中,結合兩種工具的獨特優勢,從而進一步增強抗體-抗原預測模型。

MassiveFold 顯著縮短了蛋白質結構預測的計算時間,從數月縮短到數小時。這種效率的提升,可以使研究人員能夠更快地獲得結果,從而加速蛋白質建模和相關科學領域的進步。

此前,AlphaFold 中的大規模取樣已用於生成大量蛋白質結構預測,來探索各種可能的構象,從而提高對複雜蛋白質組裝建模的準確度。

MassiveFold 解決了傳統 AlphaFold 應用程式面臨的高 GPU 資源需求和資料儲存挑戰。它能夠並行執行預測,即使在計算資源有限的情況下也非常實用。

MassiveFold 還具有可擴充套件性和可定製性,能夠在從單臺計算機到大型 GPU 基礎設施的任何裝置上執行。這種靈活性使其能夠充分利用所有可用的計算節點,使其可用於各種研究環境。

根據這項研究,該程式易於使用和安裝,只需要一個帶有 JSON 引數檔案的簡單命令列。

MassiveFold 的程式碼在 GitHub 和 Zenodo 上公開可用。

GitHub 地址:https://github.com/GBLille/MassiveFold

參考內容:https://phys.org/news/2024-11-massivefold-customizable-version-alphafold-protein.html

https://www.news-medical.net/news/20241112/MassiveFold-advances-protein-structure-prediction-with-efficient-parallel-processing.aspx

相關文章