編輯 | ScienceAI
近日,上海交通大學自然科學研究院/物理天文學院/張江高研院/藥學院洪亮教授課題組,聯合上海人工智慧實驗室青年研究員談攀,在蛋白質突變-性質預測上取得重要突破。
該工作採用全新的訓練策略,在使用極少溼實驗資料的情況下,極大地提高了傳統蛋白質預訓練大模型在突變-性質預測的效果。
該研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning》為題,於 2024 年 7 月 2 日發表在《Nature Communications》上。
論文連結:https://www.nature.com/articles/s41467-024-49798-6
研究背景
酶工程或者蛋白質工程是要對蛋白質做突變並篩選得到性質更優的蛋白質產品。傳統的溼實驗方法是類似於貪婪演算法式的搜尋方法,需要進行多輪實驗迭代並反覆進行實驗驗證。
這些溼實驗方法需要耗費大量的人力和時間,做出一個滿足需求的蛋白質產品往往需要數年的時間,而且溼實驗方法能夠篩選遍歷的蛋白質突變序列庫非常有限。
目前有一些深度學習的方法來加速這個蛋白質突變改造程序,但是這些深度學習模型想要得到很高的準確率的話,需要利用成千上萬的蛋白質突變資料來訓練模型。而這個大規模高質量的突變資料的獲取,反過來也是傳統溼實驗的巨大門檻。
因而,行業內急需一種在不需要大量溼實驗資料情況下,依然能夠對蛋白質突變-功能做出準確預測的方法。
目前的蛋白質無監督預訓練模型能在完全沒有溼實驗的情況,以零樣本(zero-shot)預測蛋白質突變-性質的變化,但是這種預測方法往往精度較低,且上述無監督模型無法直接利用有限的溼實驗資料對上面無監督模型進行微調。
研究方法
在本研究工作中,我們提出了一種解決方法(FSFP),綜合利用元學習,排序學習和引數高效的微調方法,在只利用任意幾十個溼實驗資料下便可以訓練蛋白質預訓練模型,並大幅提高對蛋白質突變-性質預測的效果。
在包含87個高通量突變資料集 ProteinGym的測試中,FSFP方法先利用蛋白質預訓練模型評估目標蛋白質與ProteinGym中的蛋白質的相似度,並從ProteinGym中取出與目標蛋白質最相近的兩個蛋白質資料集作為元學習的兩個輔助任務,同時利用GEMME對目標蛋白質的打分資料作為第三個輔助任務。
最後利用排序學習損失函式和Lora訓練方法,在極少量(幾十個)的真實溼實驗資料上訓練蛋白質預訓練模型。
我們的測試結果表明,即便是在原始的蛋白質預訓練模型對突變-性質預測的 spearman相關性低於0.1的情況下,FSFP方法只利用任意20個溼實驗資料訓練模型,也能將上述的預測相關性大幅提高到0.5以上。
圖示:FSFP 概述。(來源:論文)
研究結果
同時,為了研究FSFP的有效性。我們在一個具體的蛋白質Phi29改造案例中進行了溼實驗驗證,FSFP在只使用20個溼實驗資料訓練模型的情況下,能夠將原始蛋白質預訓練模型ESM-1v的top-20的單點突變預測陽性率提高25%,並且能找到將近10個全新的陽性單點突變。
圖示:使用 FSFP 工程化 Phi29。(來源:論文)
總結
在本工作中,作者提出了一個基於蛋白質預訓練模型的全新的微調訓練方法FSFP。
FSFP綜合利用元學習,排序學習以及高效引數微調技術,能在只利用20個隨機溼實驗資料的情況下,高效訓練蛋白質預訓練模型,且能大幅提高模型的單點突變預測陽性率。
上述結果表明,FSFP方法對解決現在蛋白質工程的高實驗週期,降低實驗成本具有重要意義。
作者資訊
自然科學研究院/物理與天文學院/張江高等研究院洪亮教授,和上海人工智慧實驗室青年研究員談攀為通訊作者。
上海交大物理天文學院博士後周子宜,碩士生張良,博士生餘元璽,以及生命科學技術學院博士生吳邦昊為共同第一作者。