加速蛋白質工程,微軟開發蛋白突變效應預測AI框架µFormer

ScienceAI發表於2024-09-14
圖片

編輯 | KX

蛋白質工程是合成生物學領域的重要研究方向之一。近年來,AI 輔助的蛋白質工程逐漸發展成為一種高效的蛋白質分子設計新策略。

近日,微軟研究院科學智慧中心的研究人員提出了深度學習框架 µFormer,其將預訓練的蛋白質語言模型與定製設計的評分模組相結合,從而預測蛋白質的突變效應。

µFormer 在預測高階突變體、建模上位(epistatic)相互作用和處理插入方面,實現了最先進的效能。

透過將 µFormer 與強化學習框架相結合,可以高效探索廣闊的突變空間,涵蓋數萬億個突變候選物,來設計活性增強的蛋白質變體。該模型成功預測了由於酶活性增強而表現出 2000 倍細菌生長率增加的突變體。

相關研究以「Accelerating protein engineering with fitness landscape modeling and reinforcement learning」為題,發表在預印平臺 bioRxiv 上。

圖片

論文連結:https://doi.org/10.1101/2023.11.16.565910

蛋白質工程旨在設計具有所需功能和特性的蛋白質。透過最佳化蛋白質序列實現的高效蛋白質工程可以極大地促進生物藥物、酶等的設計。實現這一目標的一種有前途的方法是將蛋白質序列準確地對映到其相應的功能上,從而能夠高效地搜尋具有所需功能的序列。

零樣本方法無需依賴同源物或多序列比對 (MSA) 即可預測突變效應,減少了一些依賴性,但在預測蛋白質的多樣性特性方面卻存在不足。

基於深度突變掃描 (DMS) 或 MAVE 資料訓練的基於學習的模型,已被用於單獨或與 MSA、語言模型一起預測適應度景觀。儘管如此,當實驗資料稀疏時,這些資料驅動的模型往往難以做出合理的預測。

用於蛋白突變效應預測的深度學習框架 µFormer

為了解決以上問題,微軟研究院的研究人員提出了一個深度學習框架 µFormer,該框架具有三個基於學習的評分模組,旨在捕捉不同序列特徵水平的蛋白質突變效應:單殘基有效性、基序級模式和序列級語義。結合預訓練的蛋白質語言模型,µFormer 能夠更準確、更全面地模擬蛋白質適應度景觀,減少對觀測資料的依賴。

圖片

圖示:µFormer 概覽。(來源:論文)

µFormer 是一種用於突變效應預測的兩步解決方案,即預測突變蛋白質序列的適應度得分。µFormer 由一個自監督蛋白質語言模型和一組監督評分模組組成。

首先,透過在大量未標記蛋白質序列資料集上預訓練掩蔽蛋白質語言模型 (PLM)。在預訓練階段,蛋白質語言模型使用從 UniRef50 收集的超過 3000 萬個蛋白質序列進行訓練。透過採用掩蔽語言建模策略,蛋白質語言模型學會在給定蛋白質序列中其餘殘基的情況下預測目標位置上最可能的氨基酸。

其次,透過使用整合到預訓練模型中的三個評分模組預測適應度得分。這些模組(殘差級、基序級和序列級)捕獲蛋白質序列的不同方面,並結合它們的輸出以生成最終的適應度得分。該模型使用已知的適應度資料進行訓練,最大限度地減少預測分數和實際分數之間的誤差。

此外,µFormer 與強化學習 (RL) 策略相結合,可有效探索可能突變的廣闊空間。該框架中的蛋白質工程問題被建模為馬爾可夫決策過程 (MDP),並使用近端策略最佳化 (PPO) 來最佳化突變策略。在突變搜尋過程中新增狄利克雷(Dirichlet)噪聲,保證有效搜尋,避免區域性最優。

在不同任務上的表現優於同類方法

研究證明,µFormer 可以處理各種具有挑戰性的場景,包括有限數量的測量、同源物很少的孤蛋白、具有多點突變的複雜變體、插入和刪除,以及表現出訓練資料中不存在的過度啟用的突變體。大量實驗表明,µFormer 在不同任務上的表現優於同類方法。

為了評估 µFormer 在適應度景觀建模和突變效應預測方面的能力,研究人員將其與十種替代方法進行了對比,包括基於 MSA 的方法、基於語言模型的零樣本方法和基於學習的方法。

圖片

圖示:µFormer 與最先進的突變效應預測方法的定量比較。(來源:論文)

首先在 ProteinGym 上評估了所有模型。在所有模型中,µFormer 在不同資料集中預測突變效應的能力最強。平均 Spearman 相關性為 0.703,在 78 個測試資料集中的 48 個上取得了最佳效能。

進一步的分析表明,µFormer 對訓練資料大小和同源序列號的變化不敏感,表明 µFormer 是蛋白質突變效應預測的通用工具。

接下來,評估了 µFormer 在插入和刪除 (indel) 預測方面的表現。研究人員對 µFormer 在 indel 任務上的表現與四種替代方法進行了基準測試。µFormer 在兩個具有 indel 突變的基準資料集上始終優於其他方法。

圖片

圖示:使用 µFormer 和強化學習設計高功能序。(來源:論文)

更重要的是,觀察到在使用單個突變體進行訓練時,µFormer 在高階突變效應預測方面表現出色,將 µFormer 部署為「導航」蛋白質設計的通用工具,並結合強化學習,可以在廣闊的適應度景觀中進行有效的序列搜尋。

透過使用此流程對涵蓋數萬億個突變候選物的突變空間進行了有效而全面的探索,研究人員設計了一種 β-內醯胺酶來水解新的底物分子,並確定了許多具有多達 3 個點突變的變體,這些變體可能對新底物的活性表現出顯著增強。

具體來說,透過僅基於單點突變資料訓練模型並探索多點高適應度突變,研究人員在溼實驗室實驗中測試的 200 個樣本中發現了 47 個活性高於野生型的突變。其中包括酶活性比之前發現的最高突變(1000 倍)高 2000 倍的 β-內醯胺酶變體,可作為抵抗耐藥性的預防措施。

µFormer 利用預訓練的大型蛋白質序列模型,在多個不同的預測任務中取得了出色的表現。可以預見,深度學習模型將進一步加速蛋白質適應度的研究,併為生物藥物設計、蛋白質疫苗最佳化和蛋白質工程等各個領域做出貢獻。

參考內容:https://www.marktechpost.com/2024/09/10/%C2%B5former-a-deep-learning-framework-for-efficient-protein-fitness-prediction-and-optimization/


相關文章