編輯丨coisini
作為生命的基本構建單元,蛋白質在幾乎所有基本生命活動中扮演著不可或缺的角色,例如新陳代謝、訊號傳導、免疫反應等。如下圖所示,蛋白質遵循序列 - 結構 - 功能正規化。
圖注:蛋白質遵循序列-結構-功能正規化。(圖源:論文)
隨著科學探索的不斷推進,破譯蛋白質語言並應用蛋白質序列 - 結構 - 功能之間的資訊流動規則面臨更大的挑戰。研究人員積極引入強大的 LLM 技術來推動計算蛋白質科學的發展,開發了蛋白質語言模型(pLMs),這些模型巧妙地掌握了蛋白質的基礎知識,並能夠有效地泛化以解決各種序列 - 結構 - 功能推理問題。
近期,為了幫助具有 AI 或生物學背景的研究人員快速瞭解相關進展並獲得啟發,來自香港理工大學等機構的研究團隊對 LLM 技術支援下的計算蛋白質科學進行了系統性的綜述。
論文地址:https://arxiv.org/pdf/2501.10282
這篇綜述首先概述了蛋白質建模中的生物學基礎和資料概況,其次回顧了三類蛋白質語言模型(pLMs),這些模型能夠理解氨基酸序列、識別結構和功能資訊,並連線多種生物醫學語言,接著該綜述介紹了 pLMs 的利用和適應性,重點強調了 pLMs 在結構預測、功能預測和蛋白質設計中的重大影響。然後,該綜述詳細說明了 pLMs 在抗體設計、酶設計和藥物靶點發現中的應用潛力,最後分享了這一快速發展領域的未來方向。
圖注:生物學基礎與資料概況。(來源:論文)
下面是綜述主要內容概覽。
預訓練蛋白質語言模型
該綜述將現有蛋白質語言模型(pLMs)分類為基於序列的模型、結構與功能增強的模型以及多模態模型。
基於序列的 pLMs
通用 LLM 能夠捕捉子詞 token 之間的相互依賴關係,並深入理解文字的語法和語義。類似地,基於序列的 pLMs 能夠捕捉氨基酸(AA)token 之間的相互依賴關係,提取有利的序列模式,並掌握隱含的結構和功能資訊。基於序列的 pLMs 可以進一步分為基於單序列的模型和基於多序列的模型。前者透過相應的氨基酸序列描述每個蛋白質,後者則採用檢索增強的思想,透過進化或合成中的多個相關序列來描述每個蛋白質。下表提供了基於序列的 pLMs 的全面總結,概述了每個 pLM 的輸入資料、網路架構和預訓練目標。
表注:基於序列的 pLMs。(來源:論文)
結構與功能增強的 pLMs
基於序列的蛋白質語言模型透過大規模預訓練展示了從蛋白質序列中捕捉隱含結構和功能語義的能力,而進一步整合顯式知識可以在更全面的層次上增強其對蛋白質的理解。該綜述介紹了構建結構與功能增強的 pLMs 的最新進展,分別解釋了蛋白質結構和功能的資料形式,並介紹了相應的整合方法。
表注:結構與功能增強的 pLMs。(來源:論文)
多模態 pLMs
上述蛋白質語言模型能夠解析蛋白質序列並理解其結構和功能資訊,其中一些模型整合了與蛋白質相關的文字描述,但它們的主要關注點仍然是圍繞蛋白質的語義。該綜述接下來介紹了在外在語言中表現出色的 pLMs,這些外在語言包括包含世界知識的自然語言、化學分子語言等。由於這些語言傳達了極為多樣化的語義,該綜述將它們視為不同的模態。下表對多模態 pLMs 進行了總結。
表注:多模態 pLMs。(來源:論文)
蛋白質語言模型的利用和適應
該綜述透過考慮蛋白質結構預測、蛋白質功能預測和蛋白質設計中的待解決問題,總結了 pLMs 的利用和適應方法。
蛋白質結構預測
迄今為止,蛋白質資料庫(Protein Data Bank)中僅收集了約二十萬個透過實驗確定的結構。以這種發展速度,要分析數億個已測序但結構未知的天然蛋白質,將需要數百萬個研究年。如果計算模型能夠從氨基酸序列中準確推斷出蛋白質的原子級三維結構,人類對蛋白質結構的理解程序將大大加快。
近年來,人工智慧和計算能力的快速發展極大地推動了蛋白質結構預測的進步。諸如 AlphaFold2 和 RoseTTAFold 等突破性方法在預測蛋白質結構方面展現了接近實驗精度的前所未有的水平。它們已成為科學家在數十分鐘內獲得可靠蛋白質結構的重要工具。
圖注:AlphaFold2 和 ESMFold 的工作流程概述。(來源:論文)
蛋白質功能預測
與明確界定的蛋白質序列和結構不同,蛋白質功能展現出多方面的特性,因為不同的蛋白質在廣泛的生物系統中扮演著多樣的生物學角色。
在 pLMs 出現之前,人工智慧模型是針對各種蛋白質功能預測任務從頭開始單獨訓練的。這種傳統正規化有一個嚴重的缺點:由於模型缺乏可遷移的蛋白質知識,預測效能往往不盡如人意,尤其是在資料稀缺的情況下。為了克服這一問題,pLMs 已成功應用於蛋白質功能預測。
圖注:基於pLMs的蛋白質功能預測的典型技術方案。(來源:論文)
蛋白質設計
為了創造出具有所需功能的新蛋白質,領域研究需要高效地探索廣闊的蛋白質空間,以找到數量可控、合理、功能顯著且多樣化的蛋白質序列。根據是從現有蛋白質開始還是從頭開始,蛋白質設計可以分為兩大類:重新設計和從頭設計。
蛋白質重新設計從現有蛋白質出發,探索蛋白質空間,旨在增強現有的功能特性。
圖注:蛋白質重新設計。(來源:論文)
與改造現有蛋白質不同,從頭設計蛋白質旨在在沒有參考序列的情況下提出全新功能性蛋白質。這是一項極具挑戰性的任務,因為它要求模型在廣闊的蛋白質空間中準確把握哪些序列和結構能夠實現所需的功能。與此同時,從頭設計蛋白質具有顯著優勢,例如揭示自然界中從未見過的功能,並提供對設計過程的完全控制。
通常,從頭設計蛋白質透過逆轉「序列 - 結構 - 功能」正規化來實現:首先指定所需功能,然後設計能夠執行該功能的結構,最後找到能夠摺疊成該結構的序列。
綜述第五章介紹了 pLMs 的一些生物醫學應用,包括抗體設計、酶設計和藥物發現;第六章從資料稀缺、蛋白質相互作用建模、可解釋性、計算與實驗研究的結合、計算效率幾個方面討論了當前挑戰和未來潛在研究方向。
感興趣的讀者可以閱讀綜述原文,瞭解更多研究內容。