編輯 | ScienceAI
近年來,AI 技術在蛋白質研究領域發揮了越來越重要的作用。從 AlphaFold2 在結構預測任務上的脫穎而出,到各類蛋白質語言模型(PLMs)在功能預測方面的重大進展,生物研究者們可以利用各式各樣的 AI 模型來輔助他們的研究。
然而,隨著模型變得越來越複雜,如何訓練和呼叫這些 AI 模型對於缺乏機器學習專業知識的研究者來說是一件非常具有挑戰的任務,也因此限制了 AI 技術在實際研究中的應用。
為了解決這個限制,來自西湖大學的研究人員推出了 SaprotHub,允許生物學家以互動的方式訓練和呼叫 AI 模型,同時提出了社群共建的概念,鼓勵使用者分享訓練好的模型權重,促進領域的生態發展。
該研究以「SaprotHub: Making Protein Modeling Accessible to All Biologists」為題,於 2024 年 12 月 13 日更新在 bioRxiv 預印本平臺。
SaprotHub 平臺
SaprotHub 包括三個核心部分:Saprot 模型、ColabSaprot 互動介面以及 HuggingFace 模型倉庫。使用者透過 ColabSaprot 來訓練和使用 Saprot 模型,同時可以直接載入 HuggingFace 倉庫中的模型來進行預測。
關於 Saprot 的詳細介紹,請參考作者的文章分享《基於結構感知詞表的蛋白質語言模型 SaProt》。
文章連結:https://zhuanlan.zhihu.com/p/664754366
ColabSaprot
ColabSaprot 以互動介面的形式讓使用者可以不需要編寫任何程式碼就能夠訓練和呼叫模型,包括一鍵配置環境、自動處理資料、模型訓練監控、最佳權重儲存等。
ColabSaprot 目前提供三大功能:模型訓練、模型呼叫以及模型分享。詳細功能介紹如下:
模型訓練
ColabSaprot 將訓練模型所需的繁雜步驟全部進行了封裝。使用者只需要在互動介面中按照需求設定好目標訓練任務,隨後上傳一個指定格式的資料集檔案即可開始訓練。
考慮到使用者可能對相關的機器學習知識並不熟悉(例如 learning rate、batch size 等),ColabSaprot 在每一個選擇欄都有相關的提示說明,確保使用者能夠輕鬆地使用 ColabSaprot 完成自己的模型訓練。
圖示:ColabSaprot 模型訓練介面。(來源:ColabSaprot 平臺截圖)
模型呼叫
ColabSaprot 提供了多種預測任務供使用者呼叫,包括蛋白質屬性預測(利用自己訓練好的模型或者 SaprotHub 模型倉庫的模型進行預測)、突變效應預測(預測單點突變或組合突變對蛋白質 fitness 的影響,例如酶活性等)、蛋白質序列設計(根據上傳的蛋白質骨架反向設計序列)以及蛋白質表徵獲取(獲取模型生成的蛋白質 embedding 進行後續分析)。
使用者可以自由選擇想要使用的功能,跟隨指引即可輕鬆使用。
圖示:ColabSaprot 支援多種預測任務。(來源:ColabSaprot 平臺截圖)
模型分享
為了鼓勵使用者分享自己訓練的模型,共同促進領域內的發展,ColabSaprot 整合了 HuggingFace 的模型上傳功能,讓使用者可以無縫將自己訓練完的模型上傳到模型倉庫中供他人使用,在促進社群發展的同時也能提高自身工作的影響力。
HuggingFace 倉庫
作為 SaprotHub 的另一個核心模組,HuggingFace 模型倉庫儲存了多種已經訓練好的模型,可分別用於不同的下游任務預測。
為了方便模型共享和社群協作,ColabSaprot 在訓練時採用了 LoRA 的訓練機制,透過凍結 backbone 只訓練低秩矩陣,大大降低了模型儲存和傳輸的開銷。
圖示:SaprotHub 模型倉庫。(來源:論文)
除此之外,為了方便使用者在數量眾多的模型中快速找到自己感興趣的模型,作者開發了基於 HuggingFace 的搜尋引擎,允許使用者透過輸入關鍵詞來定位相關的模型以及資料集。
搜尋引擎連結:https://huggingface.co/spaces/SaProtHub/SaprotHub-search
實驗分析
ColabSaprot 使用者測試
為了驗證 ColabSaprot 的可用性,作者招募了 12 位沒有機器學習相關背景的生物研究者進行了使用測試,結果如下:
圖示:supervised fine-tuning 和zero-shot 預測的結果。(來源:論文)
圖中藍色字型代表監督微調任務,橙色字型代表 zero-shot 突變預測任務。
可以看到,利用 ColabSaprot,即使是沒有機器學習背景的使用者也能夠訓練出和 AI 專業的研究者 comparable 的模型,並且使用者還能夠在 SaprotHub 已有的模型的基礎上進一步訓練模型,從而緩解了資料不足導致模型效能較弱的情況(見 eYFP fitness prediction)。
而對於突變預測任務,使用者可以輕鬆地獲得與編寫程式碼跑出來一致的結果,僅僅需要透過滑鼠點選的方式。
溼實驗驗證
為了驗證 ColabSaprot 在實際研究中的可用性,作者對 ColabSaprot 的預測結果進行了多種溼實驗驗證,包括:
木聚糖酶突變最佳化(zero-shot)
在預測的 top 20 個突變中,有 13 個突變都使酶活性增強,其中 R59S 和 F212N 分別是原始酶活性的 2.55 倍和 1.88 倍。
TDG 突變最佳化(zero-shot)
在預測的 top 20 個突變中,有 17 個突變都使編輯效率增強,其中 L74E、H11K 和 L74Q 突變體的編輯效率接近原始蛋白的 2 倍。
GFP 突變最佳化(supervised fine-tuning)
在透過 GFP 突變資料微調過後,利用模型預測的 top 9 個雙點突變中,有 7 個都提高了熒光強度,其中一個突變體達到了野生型 8 倍以上的熒光強度。
結論
研究人員開源的 ColabSaprot 互動式蛋白質語言模型平臺,旨在降低 AI 技術的使用門檻,使生物學研究者無需複雜的機器學習背景或程式設計能力,即可輕鬆訓練和呼叫 AI 模型。
這一創新舉措不僅為研究者提供了強大的工具支援,還顯著提升了 AI 技術在蛋白質科學研究中的可及性和實用性。透過 ColabSaprot,更多研究者能夠便捷地利用先進 AI 技術,加速研究程序,推動蛋白質科學邁入 AI 賦能的新時代。
論文連結:https://www.biorxiv.org/content/10.1101/2024.05.24.595648v5
使用平臺:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb
程式碼倉庫:https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb