Nature子刊 | KAUST團隊訓練大語言模型,進行作為近似語義蘊涵的蛋白質功能預測

ScienceAI發表於2024-03-15

Nature子刊 | KAUST團隊訓練大語言模型,進行作為近似語義蘊涵的蛋白質功能預測

編輯 | 蘿蔔皮

基因本體論(Gene Ontology,GO)是一種公理理論,目前擁有超過 100,000 條公理,描述了三個子本體中蛋白質的分子功能、生物過程和細胞位置。

使用 GO 預測蛋白質的功能需要模型擁有學習和推理能力。科學家已經開發出多種方法來自動預測蛋白質功能,但有效利用 GO 中的所有公理進行知識增強學習仍然是一個挑戰。

阿卜杜拉國王科技大學(King Abdullah University of Science & Technology,KAUST)的研究人員開發了 DeepGO-SE,這是一種使用預訓練的大型語言模型根據蛋白質序列預測 GO 功能的方法。

DeepGO-SE 可生成多個 GO 近似模型,然後神經網路預測這些近似模型中有關蛋白質功能的陳述的真值。該團隊彙總了多個模型的真值,以便 DeepGO-SE 在預測蛋白質功能時近似語義蘊涵。

使用多個基準測試表明,與最先進的方法相比,該方法有效地利用了 GO 中的背景知識並改進了蛋白質功能預測。

該研究以「Protein function prediction as approximate semantic entailment」為題,於 2024 年 2 月 14 日釋出在《Nature Machine Intelligence》。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00795-w

蛋白質功能預測仍有挑戰

蛋白質功能預測是生物學和生物資訊學的關鍵挑戰,對於識別藥物靶點、瞭解疾病機制和改善生物技術在工業中的應用等任務是必要的。雖然預測蛋白質結構的準確性在近年來有所提高,但由於已知功能數量較少且其複雜性和相互作用,預測蛋白質功能仍然具有挑戰性。

蛋白質的功能是使用基因本體論(Gene Ontology,GO)來描述的,包括描述單個蛋白質的分子功能(MFO)、蛋白質可貢獻的生物過程(BPO)以及蛋白質活躍的細胞成分 (CCO)。這些註釋通常傳播到同源蛋白,因此,UniProtKB/Swiss-Prot 資料庫包含針對數千種生物體和超過 550,000 個蛋白質手動整理的 GO 註釋。

最新的蛋白質功能預測方法往往依賴於不同的資訊來源,例如序列、相互作用、蛋白質三級結構、文獻、共表達、系統發育分析或 GO 中提供的資訊。這類方法可以使用序列域註釋,直接應用深度卷積神經網路(CNN)或語言模型(例如長短期記憶神經網路和 Transformer),或使用預訓練的蛋白質語言模型來表示氨基酸序列。這類模型還可以透過知識圖嵌入、使用 k 最近鄰的方法和圖卷積神經網路來整合蛋白質-蛋白質相互作用。

然而,許多功能預測方法依賴序列相似性來預測功能。雖然這種方法在應用於具有明確功能且相似的蛋白質時有效,但對於與已知功能域具有很少或幾乎沒有序列相似性的蛋白質來說,它可能不太可靠。分子功能很大程度上源於結構,具有相似結構的蛋白質可能具有不同的序列。重要的是,具有相似序列的蛋白質可以具有不同的功能,具體取決於它們的活性位點和它們所屬的生物體。

另一種思路

本體論是很少用於預測蛋白質功能的另一個資訊來源。本體不僅僅是類的集合;相反,本體論是一種形式理論,它使用基於邏輯的語言指定類的預期含義的某些方面。某些機器學習模型可以使用 GO 公理中包含的背景知識,透過知識增強的機器學習來改進預測。透過將形式公理納入機器學習模型中,可以在學習或預測過程中利用先驗知識,對引數搜尋空間施加約束,從而提高學習過程的準確性和效率,並最終做出更好的預測。

以此為理論基礎,KAUST 的研究團隊開發了 DeepGO-SE,一種蛋白質功能預測方法,該方法使用預訓練的大型蛋白質語言模型結合神經符號模型來預測蛋白質序列的功能,該神經符號模型將功能預測作為近似語義蘊涵進行。

圖片

圖示:DeepGO-SE 模型概述。(來源:論文)

研究人員使用 ESM2 蛋白質語言模型來生成單個蛋白質的表示。與該團隊之前的研發的 DeepGOZero 類似,研究人員將 ESM2 嵌入投影到由 GO 中的公理生成的嵌入空間(ELEmbeddings)中。

圖片

論文連結:https://doi.org/10.1093/bioinformatics/btac256

ELEmbeddings 基於幾何形狀和幾何關係對本體公理進行編碼,並對應於 Σ 代數或「世界模型」,研究人員可以在其中確定陳述是真是假。與 DeepGOZero 相比,研究人員使用這些世界模型來執行「語義蘊涵」:當且僅當 Φ 在每個世界模型中都為真,並且 T 中的所有語句都為真時,語句 Φ 才由理論 T (T⊧Φ) 蘊涵。

雖然一般來說,對於理論 T 或陳述 Φ 有無限多個這樣的世界模型,但是該方法學習多個但有限個這樣的模型,並生成函式的預測作為「近似」語義蘊涵,研究人員在每個生成的世界模型中測試真實性。使用這種形式的近似語義蘊涵,研究人員證明了 GO 擴充套件版本中的公理增強了分子功能的預測。

此外,該團隊透過以蛋白質-蛋白質相互作用網路的形式整合有關生物體蛋白質組和相互作用組的資訊,改進了對複雜生物過程和細胞成分的預測。結果表明,與分子功能不同,生物過程和細胞成分註釋的預測可以從蛋白質-蛋白質相互作用中受益匪淺。

對於生物過程,研究人員發現整合預測的分子功能和相互作用可以顯著提高預測的效能;這一發現表明,生物過程註釋的預測不需要特定蛋白質的知識,而只需要它們的分子功能,從而大大擴充套件了該方法的通用性。

該團隊在帶有實驗註釋的資料集上訓練和評估他們的模型,該資料集根據序列相似性進行分割,從而確保使用與訓練集不共享相似蛋白質的測試集來報告評估。研究人員發現依賴序列相似性的方法在這種情況下表現不佳,而 DeepGO-SE 顯著提高了 GO 所有子本體的預測效能。例如,DeepGOPlus 使用序列相似性和卷積神經網路 (CNN) 來預測函式,但只能依賴 CNN,並且在此測試集上效能下降。

結語

研究人員在論文裡給出了三個主要結論:知識增強的機器學習方法現在能夠改進不依賴背景知識的方法;GO 函式預測最好使用單獨的分層預測方法來制定;基於 ESM2 的功能預測模型現在可以推廣到很大程度上不可見的蛋白質。

儘管 DeepGO-SE 可以僅使用蛋白質序列來預測生物過程和細胞成分,但當該序列與 PPI 結合時,可以實現最佳效能。然而,許多新型蛋白質不具有已知的相互作用,這限制了組合模型在它們上的應用。因此,需要能夠基於唯一可用序列準確預測新型蛋白質的 PPI 的方法。未來,該團隊計劃將基於序列和結構的 PPI 預測器納入模型中。

此外,DeepGO-SE 能夠執行零樣本預測,與 DeepGOZero 類似,並且比其他依賴多個序列比對的方法更快地獲得預測。這是因為 DeepGO-SE 僅依賴於 ESM2 嵌入,而 ESM2 嵌入的計算速度更快。總體而言,DeepGO-SE 模型比現有的蛋白質功能預測方法有了顯著改進,提供了更準確、更全面、更高效的方法。

相關文章