蛋白質不僅是人體生命活動的執行者,同時也在生物醫藥、食品加工、釀造業、化工業等多領域發揮著重要作用。所以,人們從未停止圍繞蛋白質結構、功能等展開研究,為工業應用場景遴選出符合需求、穩定性高的蛋白質。
然而,從生物體中提取的「野生型」蛋白質,在工業環境中發揮作用所需的理化條件(如溫度、pH 值)大多與其原生生物環境相去甚遠。換言之,這一類蛋白質的穩定性難以適應嚴酷的工業環境。因此,為了滿足不同應用場景的需求,往往需要透過突變來改善蛋白質的理化特性,從而提高其在極端溫度 / pH 值條件下的穩定性,或是增加酶活性及特異性。
需要注意的是,想要改變蛋白質的生物活性需要對其工作機理進行長達數年的實驗研究,不僅耗時費力,同時也愈發難以滿足快速變化的改造需求。近年來,蛋白質語言模型的出現,雖然已經極大地提高了蛋白質適配性預測的準確度,但在其穩定性預測精度上仍有欠缺。
真正有意義的蛋白質突變,應該在提高穩定性的同時,仍能保持其生物活性;反之亦然。針對於此,上海交通大學自然科學研究院/物理天文學院洪亮教授課題組聯合上海人工智慧實驗室青年研究員談攀,以及上海科技大學和中科院杭州醫學院的合作者,共同開發出了一種新的蛋白質序列大語言模型預訓練方法 PRIME, 同時在蛋白質突變-活性和突變-穩定性預測,以及其他溫度相關的表徵學習上取得了最佳預測效果。
相關研究以「A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity」為題,已發表於知名期刊 Science 旗下的 Science Advances。
研究亮點:
- PRIME 能夠在不依賴提前實驗資料的情況下,預測特定蛋白質突變體的效能改進
- PRIME 能夠有效預測出一種蛋白質的多種屬性,使得研究人員在不熟悉的蛋白質領域也能獲取成功設計
- PRIME 基於「溫度感知」語言模型進行訓練,能夠更好地捕捉蛋白質序列的溫度特徵
論文地址:
https://www.science.org/doi/10.1126/sciadv.adr2641
開源專案「awesome-ai4s」彙集了百餘篇 AI4S 論文解讀,並提供海量資料集與工具:
https://github.com/hyperai/awesome-ai4s
資料集:9,600萬條資料,探索蛋白質序列與溫度之間的關係
透過整合 Uniprot (Universal Protein Resource) 的公開資料,以及透過宏基因組學研究從環境樣本中獲得的蛋白質序列,研究人員整理了一個包含 47 億條天然蛋白質序列的大型資料庫 ProteomeAtlas。
- UniProt 是一個提供蛋白質序列和相關詳細註釋的大型資料庫。
在序列篩選過程中,研究人員僅保留了完整長度的序列,並使用生物序列比對工具 MMseqs2 對這些序列進行處理,將序列同一性閾值設定為 50% 以減少冗餘,進而識別並註釋與細菌菌株最佳生長溫度 (optimal growth temperatures, OGT) 相關的序列。
最終,研究人員以這種方式註釋了 9,600 萬條蛋白質序列, 為探索蛋白質序列與溫度之間的關係提供了豐富的資源。
此外,在模型熱穩定性 zero-shot 預測能力分析中,用於研究熔解溫度變化 (ΔTm) 的資料集來源於 MPTherm、FireProtDB 和 ProThermDB,並確保所有實驗均在相同的 pH 條件下進行。
其中,MPTherm 包含與蛋白質熱穩定性相關的實驗資料;FireProtDB 專門用於儲存與蛋白質熱穩定性及功能相關的突變實驗資料;ProThermDB 專門收集與蛋白質熱力學性質相關的資料。同時,研究人員還結合了深度突變掃描 (DMS) 的資料,主要來源於蛋白質突變分析資料庫 ProteinGym。
ProteinGym 蛋白質突變資料集
https://go.hyper.ai/YlMT5
模型架構:基於「溫度感知」的深度學習模型
該研究所提出的新型深度學習模型 PRIME (Protein language model for Intelligent Masked pretraining and Environment prediction),能夠在不依賴提前實驗資料的情況下,預測特定蛋白質突變體的效能改進。
該模型基於「溫度感知」語言模型進行訓練,依賴 9,600 萬蛋白質序列的資料集,結合 token 層面的掩碼語言建模 (MLM) 任務,和序列層面最優生長溫度 (OGT) 預測目標,並透過多工學習引入 correlation loss 項,能夠篩選出具備高溫耐受性的蛋白序列,以最佳化其穩定性和生物活性。
具體而言,PRIME 由 3 個主要部分組成, 如下圖所示。首先是編碼器模組 (Encoder module),這是一個用於提取序列潛在特徵的 Transformer 編碼器。第二個是 MLM 模組,旨在幫助編碼器學習氨基酸的上下文表徵。同時,MLM 模組還可用於突變體評分。第三個元件是 OGT 預測模組,它可以根據潛在表徵預測蛋白質所在生物體的 OGT。
PRIME 的架構設計
PRIME 在預訓練階段的多工學習包括了 MLM、OGT 預測及 Correlation loss。
其中,MLM 經常被用作序列資料表徵的預訓練方法。 在該研究中,噪聲蛋白質序列作為輸入,部分標記被遮蔽為 或用替代標記表示,訓練目標是重建這些噪聲標記。這種方法有助於模型捕捉氨基酸之間的依賴關係以及序列的上下文資訊,同時還可以利用這一重建過程對突變進行評分。
第二個訓練任務是在監督條件下進行最佳化,研究人員使用一個包含 9,600 萬個用 OGT 註釋的蛋白質序列資料集來訓練 PRIME 模型。該任務的輸入為蛋白質序列 (protein sequence),OGT 模組生成的溫度值範圍為 0° 至 100°C。值得注意的是,OGT 模組和 MLM 模組使用共享編碼器執行。這種結構使模型能夠同時捕捉氨基酸上下文資訊以及其中與溫度相關的序列特徵。
PRIME 在溫度預測中的應用
最後,研究人員引入了 Correlation loss,促進從預測的 OGT 到 MLM 分屬的反饋,對齊 token 和序列層面的任務資訊,使得大模型更好地捕捉蛋白質序列的溫度特徵。
實驗結論:在預測突變蛋白序列的適應性方面優於最先進方法
研究人員透過實驗比較了 PRIME 與當前最先進模型在熱穩定性上的 zero-shot 預測能力,其中包括了深度學習模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle,以及傳統計算方法 GEMME 和 Rosetta。
研究人員使用了來自 MPTherm、FireProtDB 和 ProThermDB 的資料集,其中包含了在相同 pH 環境下收集的熔解溫度變化 (ΔTm),並確保每個蛋白質至少有 10 個資料點,共有 66 項檢測。同時,該研究還納入了深度突變掃描 (DMS) 的檢測方法,將 ProteinGym 用作測試基準。
結果如下圖所示,PRIME 在預測蛋白質可用性和穩定性方面的表現均優於所有其他方法。
在 ProteinGym 基準測試中(下圖中黃色),PRIME 的得分為 0.486,排名第二的 SaProt 得分為 0.457。在 ΔTm 資料集中(下圖中深紫色),PRIME 仍然以 0.437 的得分位居榜首,第二名的得分為 0.412。此外,研究人員還在 ProteinGym 的子資料集 ProteinGym-stability 中(下圖淺紫色)將 PRIME 與其他方法進行了比較,PRIME 仍然優於所有其他方法。
ΔTm 和 ProteinGym 資料集上的無監督模型基準測試
值得關注的是,為了檢測 PRIME 在蛋白質工程實際應用中的有效性及效果,研究人員還進行了溼實驗,選擇了 5 種蛋白質進行驗證, 包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶,以及一個特異性奈米抗體的重鏈可變區。
在 top 30-45 個單位點突變的實驗檢驗中,超過 30% 的 AI 推薦單點突變體在關鍵效能,如熱穩定性、酶促活性、抗原-抗體結合親和力、非天然核酸聚合能力或者極端鹼性條件下的耐受性等方面明顯優於野生型蛋白,個別蛋白質的陽性率超過 50%。
PRIME 預測的 5 種蛋白質單位點突變體的結構和實驗結果
值得一提的是,團隊還基於 PRIME 還展示了一種高效的方法,可快速獲得具備增強活性和穩定性的多位點突變體。 透過這種小樣本微調方法,在不到 100 個溼實驗樣本下,2-4 輪進化就能產生非常優異的蛋白質突變體。
例如 T7 RNA 聚合酶經過 4 輪乾溼迭代,成功獲得了具有高活性和高穩定性的多點突變體,最高的多點突變體 Tm 高出野生型 12.8℃,活性是野生的近 4 倍,且部分產品效能超越國際領先的生物科技公司 (New England Biolabs) 統治市場10年之久的同類產品。並且,在 LbCas12a、T7 RNA 聚合酶的實驗中,Pro-PRIME 能將陰性單點突變疊加得到陽性多點突變。
這表明 PRIME 能夠從序列資料中學習到蛋白質突變的上位效應,這對傳統蛋白質工程意義重大。
深耕蛋白質工程,攻克小樣本難題
在蛋白質工程領域,蛋白質的表達、純化和功能測試通常需要昂貴的試劑、儀器,且實驗耗時較長,這極大限制了可生成的樣本數量。在蛋白質功能研究中,測試蛋白質突變對功能(如催化活性、熱穩定性、結合親和力等)的影響更加需要精確且複雜的實驗,很難透過一次性高通量測量所有可能突變的效能。
這就使得機器學習模型難以在有限樣本上獲得足夠的訓練,導致模型在預測新突變時表現不佳,加之小樣本資料中,實驗誤差或噪聲可能對模型訓練造成更大的干擾。可以說,小樣本資料的挑戰在一定程度上限制了蛋白質工程領域的研究效率及準確性。 功過相伴,這也極大推動了研究人員探索創新技術,結合機器學習、實驗技術和多模態資料分析等突破小樣本的限制。
本文所述的研究團隊便在這方面表現突出,除了上文提到的 PRIME 外,洪亮教授團隊聯合談攀博士還曾面向小樣本學習釋出多項成果。
此前,該團隊綜合利用元遷移學習 (meta-transfer learning, MTL)、排序學習 (learning to rank, LTR) 和引數高效微調 (parameter-efficient fine-tuning, PEFT),開發了一種能在資料極度匱乏的情況下,有效最佳化蛋白質語言模型的訓練策略 FSFP, 可用於蛋白質適配性的小樣本學習,在使用極少溼實驗資料的情況下,極大地提高傳統蛋白質預訓練大模型在突變-性質預測的效果,在實際應用中也顯示出了巨大的潛力。
相關研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」為題,發表在 Nature 旗下 Nature Communications。
*點選檢視詳細報導:20個實驗資料創造AI蛋白質里程碑!上海交大聯合上海AI Lab釋出FSFP,有效最佳化蛋白質預訓練模型
此外,洪亮教授也曾分享過相關觀點,他認為「未來 3 年,在蛋白設計、藥物研發、疾病診斷、新靶點發現、化學合成路徑設計以及材料設計等領域,專業領域的通用人工智慧將帶來明確的正規化變革,將過去依靠人腦零星試錯的科學發現模式,轉變為 AI 大模型自動化標準設計模式」。
具體變革包括了構建零樣本或者小樣本學習方法,以及構建預訓練技術模型,在沒有資料的情況下,則透過物理模擬器產生精度略低的大量假資料來做預訓練,再用真實珍貴的資料進行微調,完成強化學習。
洪教授強調,「假資料指非真實世界的資料,但有一定的可靠度,它可以是 AI 生成的,也可以是物理計算模擬得來進行資料增強,最後真實的溼實驗資料最為寶貴,用於模型的最終微調」。
誠然,資料稀缺挑戰其實不僅存在於蛋白質工程領域,小樣本、甚至是零樣本學習方法至關重要,期待洪亮教授團隊及談攀博士圍繞這一痛點帶來更多高質量成果。