編輯 | 蘿蔔皮
自 2021 年公開發布以來,用 AlphaFold2 (AF2) 預測蛋白質結構研究生物學問題,已經成為一種常見做法。
ColabFold-AF2 是 Google Colaboratory 內部的開源 Jupyter Notebook,也是一個命令列工具,可讓你輕鬆使用 AF2,同時展示了其高階選項。
ColabFold-AF2 最佳化了 AF2 模型的使用,縮短了實驗的週轉時間。
在這裡,韓國首爾國立大學的研究團隊釋出了一項 protocol,可以幫助研究人員更方便簡潔的使用 AF2,同時介紹了一些操作技巧。
在此protocol中,研究人員透過以下三種場景引導讀者瞭解 ColabFold 的最佳實踐:(i)單體預測,(ii)複合物預測和(iii)構象取樣。
前兩種情況涵蓋了經典的靜態結構預測,並在人類糖基磷脂醯肌醇轉醯胺酶蛋白上進行了演示。第三種場景透過預測人類丙氨酸絲氨酸轉運蛋白 2 的兩種構象展示了 AF2 模型的另一種用例。
使用者可以透過 Google Colaboratory 執行該 protocol,而無需計算專業知識,高階使用者也可以在命令列環境中執行該 protocol。
該研究以「Easy and accurate protein structure prediction using ColabFold」為題,於 2024 年 10 月 14 日釋出在《Nature Protocols》。
關於 AlphaFold
僅從蛋白質序列預測其三維結構長期以來一直是結構生物學領域的一項艱鉅任務。機器學習模型的進步在實現這一目標方面取得了重大進展。
AlphaFold2 (AF2) 和 RoseTTAFold 代表了這些突破性的模型。它們首次提供了計算方法,能夠在提供足夠的序列資訊的情況下生成與實驗解決的結構幾乎無法區分的蛋白質結構預測。具體來說,AF2 是一個端到端神經網路,由兩個主要模組組成。
第一個模組處理有關輸入氨基酸 (AA) 序列 (查詢) 的資訊,並根據多序列比對 (MSA) 生成關於哪些 AA 相互接觸的假設。第二個模組彙總這些假設以預測結構(即每個原子的 3D 座標)。
AF2 網路背後的兩個關鍵思想是使用深度學習注意機制,這使網路能夠更好地識別接觸的 AA,並透過多次透過模組來細化預測。類似的原則指導了 RoseTTAFold 的設計,從而產生了一種不同的網路架構,其卓越準確性可與 AF2 相媲美。
AF2 最初設計用於預測單鏈(單個蛋白質鏈)的結構。然而,其模型已成功用於預測多鏈或複合物之間的相互作用。
此外,AF2 模型得到了進一步開發和訓練,專門針對多聚體輸入,從而產生了 AlphaFold-multimer。從那時起,已經開發了許多其他使用 AF2 或其概念作為基礎的模型。
關於 ColabFold
ColabFold 是一個整合的蛋白質預測解決方案,旨在簡化使用者的結構建模過程。因此,它既提供了各種蛋白質預測模型的簡單介面,也提供了預處理和後處理程式。ColabFold 有兩個介面:基於 Web 的介面(使用 Google Colaboratory notebooks,以下簡稱 Colab)和命令列工具。
其基於 Web 的介面包括五個 notebooks:AlphaFold2.ipynb (用於使用 AF2 或 AF2-multimer)、RoseTTAFold2.ipynb、RoseTTAFold.ipynb(主要用於舊版)、ESMFold.ipynb 和 OmegaFold.ipynb(在下面的 ColabFold-AF2 替代品中簡要介紹)。基於 Web 的介面需要免費註冊 Colab,主要用於進行單個或小批次預測。
命令列介面僅包含 AF2 和 AF2-multimer 預測模型,並允許透過處理多個輸入序列進行批次預測。由於 AF2 模型是目前釋出的最準確的模型之一,因此 protocol 專注於 AlphaFold2.ipynb 和命令列介面,它們統稱為「ColabFold-AF2」。
由於其簡單性和功能性,ColabFold 已被廣泛用於眾多研究,其公共 MSA 伺服器每天被使用數萬次。它的適用性涵蓋了許多生物學領域。該論文將指導讀者如何使用 ColabFold-AF2 解決類似的生物學問題。
新的 protocol
在 protocol 中,首爾國立大學的研究人員修改並擴充套件了 del Alamo 等人提出的 protocol,並透過使用人類丙氨酸絲氨酸轉運蛋白 2(ASCT2,一種 Na+ 獨立的中性 AA 轉運蛋白)來展示這種能力。
該轉運蛋白是一種同型三聚體,至少有兩種構象,具體取決於它是面向細胞外(向外)還是細胞內(向內)。
透過調整 ColabFold-AF2,該團隊展示了預測這些不同結構狀態的能力。
論文概述了使用 ColabFold-AF2 進行單體(程式 1、2)和複合物(程式 3、4)預測以及構象取樣(程式 5、6)的臨時方法的綜合方案。
程式 1、3、5 是使用 Colab 的基於 Web 的方法,程式 2、4 、6 是使用命令列介面的本地方法。
ColabFold-AF2 允許透過單擊進行蛋白質預測,稱為「快速啟動」。要快速啟動,請開啟 Web 瀏覽器並導航到 https://alphafold.colabfold.com。接下來,將目標蛋白質的 AA 序列貼上到 query_sequence 欄位中,然後單擊選單欄中的 Runtime → Run all(下圖)。
值得注意的是,如果連續執行多個預測,請單擊「重新啟動會話並執行全部」而不是「執行全部」,以避免任何衝突或記憶體洩漏。這將連續執行 Notebook 中的每個單元而不間斷,並且當前正在執行的單元由左側的旋轉圓圈表示。預設情況下,ColabFold 會計算五個結構模型。
生成每個模型後,會顯示預測的結構和結果圖。處理完所有單元格後,將出現一個彈出視窗,提示你下載各種結果檔案作為單個壓縮 (zip) 檔案。請注意,這些步驟的執行時間可能因 Colab 分配的 GPU 而異。
使用 protocol 的命令列版本需要對 Unix/Linux shell 有基本的瞭解,並且需要能夠處理 AF2 模型的工作站。
研究人員使用人類 GPIT 蛋白演示程式 1-4。程式 1 和 2 將其五個亞基 PIGU、PIGK、PIGT、PIGS 和 GPAA1 中的每一個預測為單體,程式 3 和 4 將它們聯合預測為複合物。在程式 5 和 6 中,他們使用人類 ASCT2。
為了區分方便,研究人員根據引數的作用將其分為幾類。但是,這些引數分佈在 Notebook 的多個單元格中。在每個過程中,論文詳細介紹了使用者如何向 ColabFold 提供輸入蛋白質序列,BOX3 提供了有關 ColabFold 可接受的輸入和輸出格式的完整詳細資訊。
BOX4 提供了 ColabFold-AF2 計算的各種置信度測量的資訊,BOX5 適用於不想使用預設 ColabFold 伺服器進行 MSA 計算的使用者。
此 protocol 的預期結果部分包含有關解釋 ColabFold 圖表和輸出的一般說明,然後演示了每個程式示例的解釋過程。此 protocol 主要面向旨在進行結構分析的生物學家,不需要編碼專業知識。
詳細資訊請閱讀原論文。
論文連結:https://www.nature.com/articles/s41596-024-01060-5