糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端到端框架,登Nature子刊

ScienceAI發表於2024-08-04

圖片

編輯 | 蘿蔔皮

蛋白質糖基化是糖基對蛋白質進行的一種翻譯後修飾,在細胞的多種生理和病理功能中起著重要作用。

糖蛋白質組學是在蛋白質組範圍內研究蛋白質糖基化,利用液相色譜與串聯質譜 (MS/MS) 聯用技術獲取糖基化位點、糖基化水平和糖結構的組合資訊。

然而,由於結構決定離子的出現有限,目前糖蛋白質組學的資料庫搜尋方法通常難以確定聚糖結構。雖然光譜搜尋方法可以利用碎片強度來促進糖肽的結構鑑定,但是光譜庫構建的困難阻礙了它們的應用。

在最新的研究中,復旦大學的研究人員提出了 DeepGP,一種基於 Transformer 和圖神經網路的混合深度學習框架,用於預測糖肽的 MS/MS 光譜和保留時間(RT)。

兩個圖神經網路模組分別用於捕獲分支糖結構和預測糖離子強度。此外,還實施了預訓練策略以緩解糖蛋白質組學資料的不足。

該研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」為題,於 2024 年 7 月 30 日釋出在《Nature Machine Intelligence》。

圖片

蛋白質翻譯後修飾(PTMs)顯著增加了蛋白質組的複雜性。糖基化作為最重要的 PTMs 之一,影響超過 50% 的哺乳動物蛋白質,在許多生理和病理過程中起關鍵作用。

糖基化過程中,糖分子附著在特定氨基酸殘基的側鏈上,產生結構異質性,導致糖肽異構體的多樣性,增加了識別難度。

液相色譜串聯質譜(LC-MS/MS)是主要技術,透過碎片離子和分子量結合 RT 來鑑定糖肽。單靠質荷比(m/z)不足以確定糖結構,因此科學家採用光譜匹配方法提高識別靈敏度。然而,構建糖肽 MS/MS 光譜庫成本高昂且複雜。

近年來,深度學習在肽 MS/MS 光譜預測方面取得進展。不過,當前糖肽組學資料集的數量相對較少,缺乏標準化的生成糖肽質譜資料的協議,這限制了用於深度學習模型訓練的合適資料的可用性。

為此,復旦大學的研究人員提出了 DeepGP,這是一種基於深度學習的混合端到端框架,用於完整的 N-糖肽 MS/MS 光譜和 RT 預測。深度學習框架由預訓練的 Transformer 模組和兩個圖神經網路 (GNN) 模組組成。

圖片

圖示:模型架構和糖肽MS/MS光譜預測。(來源:論文)

DeepGP 模型接受糖肽作為輸入,並編碼糖肽的多個特徵,包括糖結構、氨基酸序列、PTM型別、PTM位置和前體電荷狀態。糖結構由 GNN 嵌入,將糖肽轉化為圖,其中節點代表單糖。

圖片

圖示:基於 DeepGP 在合成資料集上對相似聚糖組成進行區分。(來源:論文)

兩個 GNN 模組捕獲糖結構和預測糖離子強度

研究人員對三種 GNN 架構進行了評估,即圖卷積網路(GCN)、圖同構網路(GIN)和圖注意網路(GAT),用於糖嵌入和 B/Y 離子強度預測。

GCN 利用卷積操作獲取節點表示並實施訊息傳遞協議以聚合相鄰節點的表示;GIN 在圖同構測試中表現出色;GAT 結合注意機制,使模型能夠關注輸入的最相關部分。

實驗結果表明,GCN 在糖嵌入任務中表現最佳,而 GIN 在 B/Y 離子強度預測任務中表現優異,因此選用了 GCN 和 GIN 進行相應分析。

圖片

圖示:DeepGP 在 MS/MS 預測中的表現。(來源:論文)

預訓練策略來緩解糖蛋白質組學資料的不足

DeepGP 使用大量無標註的自然語言資料進行預訓練,類似於 BERT 等模型。這一步驟可以使模型在正式訓練之前就獲得一定的知識基礎,從而在面對小規模標註資料時表現得更好。

多個生物資料集上進行測試

研究人員使用小鼠和人類樣本資料集證明了 DeepGP 的 MS/MS 和 RT 預測的高精度。

圖片

圖示:DeepGP 結合 pGlyco3(一種糖肽搜尋方法)進行糖肽鑑定。(來源:論文)

DeepGP 在合成和生物資料集上的全面基準測試驗證了其區分相似聚糖的有效性。DeepGP 與資料庫搜尋相結合可以提高糖肽檢測靈敏度。

論文連結:https://www.nature.com/articles/s42256-024-00875-x

相關文章