3倍靈敏度,搜尋百萬蛋白對只需幾秒,復旦、山大、上海交大開發新的蛋白質語言模型

ScienceAI發表於2024-04-08

圖片

編輯 | 蘿蔔皮

同源蛋白質搜尋是蛋白質註釋和分析最常用的方法之一。與結構搜尋相比,僅從序列中檢測遠端進化關係仍然具有挑戰性。

復旦大學、山東大學以及上海交通大學的研究團隊提出了 PLMSearch(Protein Language Model),一種僅以序列作為輸入的同源蛋白質搜尋方法,能夠捕獲隱藏在序列後面的遠端同源資訊。

PLMSearch 可以像 MMseqs2 一樣在幾秒鐘內搜尋數百萬個查詢目標蛋白質對,同時將靈敏度提高三倍以上,可與當前最先進的結構搜尋方法相媲美。此外,與傳統的序列搜尋方法不同,PLMSearch 可以召回具有不相似序列但結構相似的大多數遠端同源對。

該研究以「PLMSearch: Protein language model powers accurate and fast sequence search for remote homology」為題,於 2024 年 3 月 30 日釋出在《Nature Communications》。

圖片

同源蛋白質搜尋是生物資訊學領域的核心技術之一,它透過比較蛋白質序列來預測蛋白質的功能和相互作用。儘管基於序列相似性的搜尋方法廣泛應用,但它們在識別遠端進化關係時仍存在挑戰。此外,雖然結構搜尋方法提供了更高的靈敏度,但獲取蛋白質結構的成本和複雜性限制了它們的應用場景。

蛋白質語言模型(PLMs)雖然在結構相關任務中表現出優勢,但在處理大規模資料集時,如何有效利用 PLMs 以實現快速且準確的同源性檢測仍然是一個挑戰。

結合深度學習表示和序列比對演算法的方法,雖然提高了準確性,但仍需面對計算效率和模型泛化能力的問題。因此,開發能夠克服這些侷限性的創新方法,對於推動生物資訊學和相關領域的研究具有重要意義。

在這裡,復旦大學、山東大學、上海交通大學的研究團隊提出了 PLMSearch,這是一種僅以序列為輸入,透過蛋白質語言模型和 Pfam 序列分析來搜尋同源蛋白的工具,能夠挖掘隱藏在序列背後的遠端同源資訊。

圖片

圖示:PLMSearch 概述。(來源:論文)

PLMSearch主要包括以下三部分:

(1)PfamClan 過濾掉共享相同 Pfam 族域的蛋白質對。

(2)SS-predictor(Structural Similarity predictor)使用蛋白質語言模型生成的嵌入來預測所有查詢目標對之間的相似性。如果沒有結構作為輸入,PLMSearch 不會損失太多靈敏度,因為它使用蛋白質語言模型從深度序列嵌入中捕獲遠端同源資訊。此外,該步驟中使用的SS預測器使用結構相似性(TM-score)作為訓練的基本事實。這使得 PLMSearch 即使沒有結構作為輸入也可以獲得可靠的相似性。

(3)PLMSearch 根據預測的相似性對 PfamClan 預先過濾的對進行排序,並相應地輸出每個查詢蛋白質的搜尋結果。接著,使用 PLMAlign 對 PLMSearch 檢索到的蛋白對進行比對,獲取比對分數。

SCOPe40-test 和 Swiss-Prot 上的搜尋測試表明,PLMSearch 可以像 MMseqs2 一樣在幾秒鐘內搜尋數百萬個查詢目標蛋白質對,但將靈敏度提高了三倍以上,效能與當前最先進的結構搜尋方法相當,特別是在遠端同源對中表現突出。與其他基線方法相比,PLMSearch 是最快的搜尋方法之一,並且做到了準確性和速度之間的最佳權衡。

圖片

圖示:PLMsearch 達到與結構搜尋方法相近的靈敏度。(來源:論文)

該團隊詳細討論了搜尋方法(如 PLMSearch)和比對方法(如 pLM-BLAST 和 PLMAlign)之間的區別,並指出基於殘基嵌入的比對方法,例如 PLMAlign 和 pLM-BLAST,均有不錯的靈敏度。

目前,這些方法的主要限制在於目標資料集的大小。這在兩個關鍵方面尤為明顯:

(1)基於殘基嵌入的比對需要保留目標資料集中每個蛋白的所有殘基嵌入,而 PLMSearch 只需要保留每個蛋白的嵌入,這導致了超過三個數量級的大小差異,對於搜尋如 UniRef50 這樣包含 5360 萬蛋白的大型資料集構成了重大挑戰。

(2)基於殘基嵌入的比對透過成對的全域性(區域性)比對來確定蛋白對之間的相似性,而 PLMSearch 只需要透過 SS-predictor 網路的單次前向傳遞就能預測數百萬查詢目標對的相似性。

值得注意的是,PLMSearch 只能預測蛋白對的相似性,而不提供任何比對建議。因此,PLMSearch + PLMAlign 透過 PLMSearch 篩選出相似度高於 0.3 的蛋白質對,併為其提供比對;這不僅彌補了 PLMSearch 的侷限性,還避免了大量低相似度和無意義的比對,從而保持了高效率。

圖片

圖示:PLMSearch 準確檢測遠端同源對。(來源:論文)

未來,研究人員計劃探索查詢和目標殘基嵌入之間的相互作用,從而提供更好的全域性和區域性序列比對結果。

總之,研究人員相信 PLMSearch 已經消除了序列搜尋方法的低靈敏度限制。由於序列比結構更易於獲取和應用, PLMSearch 有望成為一種更方便的大規模同源蛋白搜尋方法。

PLMSearch:https://dmiip.sjtu.edu.cn/PLMSearch

論文連結:https://www.nature.com/articles/s41467-024-46808-5

相關文章