加速精準醫療,開源GNN實現分子精準建模,質譜識別準確率提升至49%

ScienceAI發表於2025-03-12
圖片

編輯丨&

非靶向代謝組學在推進精準醫學和生物標誌物發現方面前景廣闊。由於譜圖參比庫的不完整,從串聯質譜中鑑定化合物在當前仍是一項頗有挑戰的任務。

為了應對這項挑戰,德國聯邦材料研究與測試研究所(BAM)與柏林自由大學的一支團隊提出了 FIORA,這是一種旨在模擬串聯質譜的開源神經網路。利用鍵的分子鄰域,該模型可以學習斷裂模式並推匯出碎離子機率。

FIORA 不僅在預測質量上超越了最先進的碎裂演算法 ICEBERG 和 CFM-ID,而且還有助於預測其他特徵,例如保留時間和碰撞截面。利用 GPU 加速,FIORA 能夠快速驗證推定的化合物註釋,並透過高質量預測大規模擴充套件光譜參考庫。

這項研究以「FIORA: Local neighborhood-based prediction of compound mass spectra from single fragmentation events」為題,於 2025 年 3 月 7 日刊登於《Nature Communications》。

圖片

FIORA

在過去的十多年中,非靶向代謝組學的進展受到高質量參考光譜稀缺的限制。2016 年的 CASMI 挑戰賽顯示,在註釋以前未知化合物的譜圖時,計算機模擬方法的召回率僅為 34%;2022 年的挑戰賽中,識別率甚至沒有達到 30%。

許多小隊嘗試從分子結構構建理論產物離子譜作為參考,以此來擴充套件公共光譜庫。由於缺少高質量的訓練資料,必須要對演算法進行徹底評估,以確定它們對以前未參考或未見過的代謝物的有效性。

鍵解離是化合物碎裂背後的一個關鍵概念,因為共價鍵在 MS/MS 過程中被裂解,產生出現在質譜中的碎離子。計算機碎裂演算法識別分子結構中的斷點,並使用這些斷點來估算離子機率和峰強度,最後輸出模擬質譜。

圖片

圖 1:實驗性 MS/MS 碎裂與計算機碎裂工作流程的比較示意圖。(圖源:論文)

FIORA 的與眾不同之處在於致力於透過其區域性分子鄰域表達每個鍵裂解。這與許多最新演算法中根據分子的彙總表示預測 MS/MS 譜圖或完整片段集的典型方法不同。它能根據其周圍的分子結構獨立評估鍵解離事件,更直接地模擬 MS 的物理碎裂過程,其將碎片離子預測正式化為分子結構圖中的邊緣級預測任務。

該模型充分利用了高效能 GPU,並在其決策過程中非常強調可解釋性。它可估計保留時間(RT)和碰撞截面(CCS),這為基於 MS 的化合物鑑定增加了更多維度,是光譜預測軟體的真正原創補充。

與效能最好的方法 CFM-ID 和 ICEBERG 對效能進行基準測試,FIORA 學習碎裂模式相對獨立於訓練集和未知化合物之間的結構相似性。這確保了對真正未知結構進行建模的高度泛化性,併為光譜特徵預測奠定了基礎。

團隊承諾,FIORA 完全開源,其可以在 GitHub 上免費獲得。

相關連結:https://github.com/BAMeScience/fiora

方法概述

FIORA 的核心思想是透過預測串聯 MS 碎裂過程中發生的分子鍵斷裂來間接預測質譜。團隊採用 GNN 來學習分子的隱藏表示,並將鍵斷裂作為邊緣性質預測任務。模型考慮了每個鍵的區域性鄰域,從而利用了與破譯碎裂事件和離子重排相關的接近完整的化學表示。

隨後,FIORA 將 MS/MS 訊號建模為單鍵解離後預測片段產物的機率分佈。透過神經網路子模組學習 RT 和 CCS 值,使用分子圖嵌入,FIORA 提供了多個 MS/MS 特徵維度來匹配實驗資料,可用於改進化合物鑑定。

FIORA 不侷限於單一模型架構,展現了多功能性。其模組化設計允許多個預測目標和輕鬆整合不同的深度學習架構。

對於測試拆分、MSnLib 和 CASMI 16 資料集,FIORA 預測的 MS/MS 譜圖與參考測試譜圖的中位餘弦相似度最高,比第二名高出 10% 至 49%。這可能與圖卷積網路(GCN)和關係圖卷積網路(RGCN)的效能優於基於注意力的網路有關。

圖片

圖 2:各種 GNN 架構的光譜預測效能。(圖源:論文)

演示與測試

對於與訓練集具有中到高度結構相似性的化合物(Tanimoto 評分在 0.6 到 1 之間),FIORA 的預測質量保持穩定,中位餘弦相似度為 0.8 及以上。當這個評分位於 0.2-0.3 時, FIORA 在推廣到不熟悉的結構時效能仍然穩健。

圖片

圖 3:測試化合物與訓練化合物的結構相似性區間的餘弦相似性。(圖源:論文)

FIORA 可以很好地推廣到結構上不同的化合物,但 FIORA 相比於 ICEBERG 的改善不太明顯。在不同化合物類別的預測中,FIORA 的預測質量更加穩定。

圖片

圖 4:FIORA 預測的 RT 和 CCS 奇偶校驗圖。(圖源:論文)

作為驗證手段,研究團隊將 FIORA 與基於前驅體 m/z 的線性迴歸模型進行了比較。結果顯示FIORA 的效能始終優於線性模型,儘管差距很小。絕大多數預測的誤差範圍在 10% 之間。

雖然目前的實施無疑受到有限碎片離子集的限制,但 FIORA 能夠透過高度準確的強度預測進行有效補償。儘管存在單步碎裂,但 FIORA 的效能仍優於最先進的方法。

團隊已經證明,他們的方法不會導致化合物超類之間或結構不同的化合物之間的重大效能差異。需要注意的是,單步碎裂會抑制 FIORA 檢測某些化合物的效果,這是未來改進的重要方向。

強大的預測效能

FIORA,一種創新的碎片化演算法,它以多種關鍵方式推動了該領域的發展。透過基於區域性分子鄰域對鍵解離進行建模,片段強度預測得到了顯著改善。

FIORA 還在片段強度預測水平上整合了協變數,包括電離模式、儀器型別、分子量和碰撞能量,特別是碰撞能量對峰強度的顯著影響。

將正譜和負譜的訓練合併到一個模型中,使演算法能夠從其他電離型別的碎裂模式中學習。基於這種嵌入,分子可以在化合物類和超類水平上聚集。

話雖如此,沒有一種演算法在各個方面都客觀上優於其他演算法。FIORA 覆蓋的碎片集較小,呈現效果較差,但在其他方面仍代表了強度預測質量和分子結構建模方面的當前技術水平。

論文連結:https://www.nature.com/articles/s41467-025-57422-4

相關文章