蛋白質語言模型綜述

banq發表於2024-05-14


蛋白質“語言”很像人類語言。鑑於這些相似之處,研究人員一直在蛋白質序列資料上構建和訓練語言模型,複製其他領域的成功經驗,具有深遠的影響。在這篇文章中, 我將探討 Transformer 模型如何應用於蛋白質資料以及我們的發現。

蛋白質的“語言”:

  • 蛋白質序列由20種氨基酸組成,類似於人類語言中的詞彙。這些氨基酸的排列順序決定了蛋白質的結構和功能。
  • 就像人類語言利用單詞、短語和句子等模組化元素一樣,蛋白質也由基序和結構域組成。
  • 以各種組合重複使用以構建複雜結構的基本構建塊。

蛋白質基序和結構域類似於蛋白質世界的“單詞”和“短語”,其生物學功能類似於人類語言句子傳達的“含義”。

蛋白質的行為方式可能會根據其環境以及與其他分子的相互作用(例如細胞狀態、其他分子和翻譯後修飾)而變化,但它仍然由基礎序列定義。這意味著從資訊理論的角度來看,蛋白質的資訊(例如其結構)包含在其序列中。

蛋白質語言模型架構:

  • 編碼器模型(Encoder models):主要用於獲取蛋白質在向量空間中的嵌入表示,以便用於下游任務。這些模型通常使用類似BERT的架構,並採用去噪自編碼訓練目標。
  • 解碼器模型(Decoder models):與編碼器模型不同,解碼器模型採用自迴歸訓練,即基於給定上下文預測後續的氨基酸。

條件變換器(Conditional transformers):
這些模型在訓練階段整合了更深層次的生物學背景,確保學習到的模式不僅在統計上正確,而且在生物學上也有意義。

這些方法確保學習到的模式不僅在統計上正確,而且具有生物學意義。

蛋白質模型可以透過兩種主要方式進行調節:

  • i) 透過序列調節,或
  • ii) 透過蛋白質結構調節。

條件序列:
條件變換器語言(CTRL)(一種包含條件標籤的自迴歸模型)的開發標誌著 NLP 的重大進步。這些標籤允許生成有針對性的文字,而不需要輸入序列。這些標籤被稱為控制程式碼,顯著改善了對流派、主題或風格的影響,標誌著目標文字生成的重大進步。

很自然地,CTRL 很快就適應了包含 2.81 億個蛋白質序列的資料集。生成的模型名為ProGen,採用 UniProtKB 關鍵字作為條件標籤。這些標籤涵蓋“生物過程”、“細胞成分”和“分子功能”等 10 個類別,涵蓋 1,100 多個術語。即使在為未包含在其訓練集中的蛋白質家族生成序列時,ProGen 也實現了與高質量英語語言模型相當的困惑度。

ProGen 的效能表明我們在設計與天然蛋白質相似的蛋白質的能力方面取得了重大進步。該模型成功地建立了有效發揮作用的蛋白質序列,經過嚴格的測試證明,它們的效能與天然存在的蛋白質一樣好甚至更好。

具體來說,ProGen 能夠:

  • 建立與天然蛋白質的能量效率和結構準確性相匹配的蛋白質。
  • 生成特定蛋白質結構域的變異被證明比隨機變異更有效,這表明在實際應用中具有高度的預測準確性和實用性。

現在它可以做更多的事情,正如Profluence Bio 的新論文所示,他們使用 ProGen 設計了 ​​Cas9 蛋白,這種蛋白在自然界中不存在,但能夠成功地編輯人類基因。

結構條件:
除了序列之外,我們還可以在訓練時結合蛋白質的結構,以便模型可以學習結構 -> 序列。這被稱為“反向摺疊”,因為它與蛋白質摺疊完全相反,即序列→結構

這聽起來可能違反直覺,但這實際上是蛋白質設計的一個非常有用的過程,特別是對於酶和治療學。假設您希望酶或治療性蛋白質執行一項特定任務,例如與特定分子結合或催化特定反應。傳統方法通常涉及調整現有的蛋白質序列並測試新版本是否能更好地發揮作用。這可能會很慢並且有些偶然。

另一方面,反向摺疊從心中的理想結構開始——您預測最能執行任務的結構。從那裡開始,它向後計算出哪些序列可以摺疊到該結構中。

ESM-IF是在[url=https://alphafold.ebi.ac.uk/?ref=apoorva-srinivasan.com]AlphaFold 資料庫[/url](12M) 和CATH 蛋白質結構分類資料庫(~16,000)上訓練的逆折疊模型的一個示例,該模型使用編碼器-解碼器架構,將結構作為編碼器的輸入,並以結構為條件對序列進行自迴歸解碼編碼。


規模的重要性:
隨著計算能力、資料量和模型大小的增加,模型在複雜任務上的效能得到了提升。例如,ESM-2是一個由Meta構建的150億引數模型,它利用語言模型的內部表示來進行結構預測。

在某些規模上,語言模型表現出有用的功能,這些功能是透過將簡單的訓練過程擴充套件到大型資料語料庫而出現的,例如小樣本語言翻譯、常識推理和數學推理。

從生物學中的序列推斷也存在類似的想法。由於蛋白質的結構和功能限制了其序列的突變是透過進化選擇的,因此也應該可以從序列模式推斷生物結構和功能,這將有助於深入瞭解生物學中的一些最基本的問題。

這正是Meta 構建的 150 億引數模型ESM-2所做的事情。

  • 這太不可思議了!透過擴大模型大小和資料集大小,我們可以擺脫特定的歸納偏差(例如,MSA)並僅使用單個序列作為輸入來生成結構預測。
  • 儘管 ESM-2 的準確性不如如今的 AlphaFold,但它是一種有趣且簡單的方法,可以利用不斷擴大的多樣化且未註釋的蛋白質序列資料池

為了進一步說明 ESM 蛋白質模型令人驚歎的能力,研究人員使用高度最佳化的單克隆抗體進行了一項非凡的實驗,其中包括針對埃博拉和新冠病毒等疾病的抗體。他們將這些抗體的序列輸入 ESM 模型,然後該模型識別出實際氨基酸序列與其預測之間的差異。透過用模型預測的氨基酸選擇性地替換這些不同位點的氨基酸,研究人員顯著增強了抗體的結合親和力、熱穩定性和體外效力——成熟抗體的結合親和力、熱穩定性和體外效力提高了 7 倍,令人驚訝的是 160 倍。


結論:
最近,一種更通用的方法正在形成,較少關注進化譜系,而更多關注蛋白質的基本功能和結構方面。如果這種進展速度繼續下去,我們就站在潛在突破性發現的邊緣——發現熟悉蛋白質的未知方面,甚至合成全新的蛋白質。

深入研究蛋白質語言模型非常有趣。當我閱讀更多內容時,蛋白質科學取得更多突破的潛力似乎很有希望,特別是透過將更大更好的模型與巧妙的實驗設計相結合。
 

相關文章