編輯 | 蘿蔔皮
基於質譜的蛋白質組學中肽段鑑定對於理解蛋白質功能和動力學至關重要。傳統的資料庫搜尋方法雖然應用廣泛,但依賴於啟發式評分函式,必須引入統計估計才能獲得更高的鑑定率。
加拿大滑鐵盧大學 (University of Waterloo)和中原人工智慧研究院(中原 AI 院)的研究團隊提出了 DeepSearch,一種基於深度學習的串聯質譜端到端資料庫搜尋方法。DeepSearch 利用對比學習框架下改進的基於 Transformer 的編碼器-解碼器架構。
與依賴離子間匹配的傳統方法不同,DeepSearch 採用資料驅動的方法來對肽譜匹配進行評分。DeepSearch 還可以以零樣本方式分析可變的翻譯後修飾。
團隊在各種資料集中驗證了 DeepSearch 的準確性和穩健性,包括來自蛋白質組成多樣的物種的資料集和富含修飾的資料集。這為串聯質譜中的資料庫搜尋方法提供了新的啟示。
該研究以「Towards highly sensitive deep learning-based end-to-end database search for tandem mass spectrometry」為題,於 2025 年 1 月 6 日釋出在《Nature Machine Intelligence》。
基於質譜(MS)的蛋白質組學中,肽鑑定是一項基本挑戰,通常透過將實驗獲得的 MS/MS 光譜與理論光譜進行資料庫搜尋匹配。然而,現有方法依賴啟發式評分函式,可能忽略大量碎片資訊,需引入機率模型提高鑑定率。
近年來,深度學習技術如 DeepNovo 和 PointNovo 顯著提升了從頭肽測序的準確性,但仍面臨蛋白質組成差異大和翻譯後修飾識別不足的挑戰。
最近引入的對比學習框架下的多模態基礎模型顯著提高了各種下游跨模態理解任務的效能,尤其是在計算機視覺和自然語言處理領域。這些模型能夠學習跨不同模態的聯合嵌入空間,並在零樣本學習任務中表現出色。
最重要的是,這些框架下的弱監督機制不需要跨模態資料對以外的註釋,從而提高了對偏差的容忍度和增強了跨資料集的穩健性。
在最新的研究中,研究人員提出了第一個基於深度學習的端到端資料庫搜尋方法 DeepSearch。DeepSearch 採用跨模態餘弦相似度作為評分方案,而不是離子到離子匹配。
DeepSearch 在對比學習框架下進行訓練,並與 MassIVE v2 上的從頭測序目標聯合最佳化,MassIVE v2 是一組基於人類 MS/MS 庫構建的高質量肽譜匹配(PSM)。
圖示:資料庫搜尋策略和 DeepSearch 模型。(來源:論文)
為了解決在訓練資料中註釋 PSM 的負對和與搜尋引擎演算法相關的偏差的挑戰,DeepSearch 採用了批次對比學習框架,該框架具有質量錨定取樣方案。
與執行離子對離子匹配的傳統資料庫搜尋引擎不同,DeepSearch 使用光譜和肽嵌入之間的餘弦相似性對 PSM 進行排序,從而可以透過單個矩陣乘法進行高效計算。
圖示:搜尋引擎報告了擬南芥資料集按肽長度劃分的得分分佈。(來源:論文)
團隊在來自蛋白質組成各異的物種的多種資料集上評估了該方法。儘管 DeepSearch 只在人類光譜庫上進行訓練,但與所有資料集上最先進的資料庫搜尋引擎相比,它在 1% 偽發現率(FDR)下始終報告了相當數量的 PSM。
實驗結果顯示 DeepSearch 識別的大多數肽段都得到了其他搜尋引擎的高度證實。這些結果表明 DeepSearch 能夠準確報告肽段,並且跨物種具有穩健性。
圖示:多個資料集的蛋白質組範圍資料集上 1% FDR 下的 PSM 數量。(來源:論文)
傳統的資料庫搜尋引擎依賴於啟發式評分函式,這可能會對某些肽組成產生偏差,並且這些搜尋引擎還需要根據評分進行統計估計,以實現更高的識別率。
另一方面,DeepSearch 採用資料驅動的方法來對 PSM 進行評分。無論有沒有統計模型,DeepSearch 都能保持穩定的效能,這可能與其評分方案的偏差較小有關。統計估計與目標誘餌搜尋策略相結合對 PSM 質量的影響需要進一步仔細研究。
圖示:擬南芥資料集的蛋白質組範圍肽鑑定。(來源:論文)
蛋白質組學領域中以前基於深度學習的方法通常無法進行可變翻譯後修飾(PTM)分析,因為編碼可變 PTM 會大幅增加標記空間。此外,將遷移學習應用於所有常見可變 PTM 的 PTM 富集資料集是不切實際的。
DeepSearch 能夠報告具有磷酸化和氧化的 PTM 譜的高精度肽段。儘管如此,DeepSearch 仍需要對各種 PTM 的分析進行更多檢查。
目前為止,DeepSearch 是第一種基於深度學習的方法,能夠進行零樣本變數 PTM 分析,而無需除 PTM 質量之外的任何先驗資訊。DeepSearch 透過將 PTM 移位理論譜與未修改的肽序列聯合編碼,繞過了標記空間限制。
論文連結:https://www.nature.com/articles/s42256-024-00960-1