SOTA效能,華盛頓大學開發Transformer模型將質譜轉化為肽序列,登Nature子刊

ScienceAI發表於2024-08-11

圖片

編輯 | 蘿蔔皮

基於質譜的蛋白質組學的一個基本挑戰是識別產生每個串聯質譜的肽。利用已知肽序列資料庫的方法無法檢測意外肽,在某些情況下可能不切實際或無法應用。

因此,無需先驗資訊(即從頭肽測序)即可將肽序列分配到串聯質譜中的能力對於抗體測序、免疫肽組學和元蛋白質組學等任務非常有價值。

儘管已經開發出許多方法來解決這個問題,但它仍然是一個懸而未決的挑戰,部分原因是難以對串聯質譜的不規則資料結構進行建模。

在這裡,華盛頓大學(University of Washington)的研究人員描述了 Casanovo,這是一種機器學習模型,它使用 Transformer 神經網路架構將串聯質譜中的峰序列轉換為構成生成肽的氨基酸序列。

該團隊根據 3000 萬個標記光譜訓練了 Casanovo 模型,並證明該模型在跨物種基準資料集上的表現優於幾種先進方法。

該團隊還開發了一個針對非酶肽進行微調的 Casanovo 版本。該工具改善了免疫肽組學和宏蛋白質組學實驗的分析,並使科學家能夠更深入地研究暗蛋白質組。

該研究以「Sequence-to-sequence translation from mass spectra to peptides with a transformer model」為題,於 2024 年 7 月 31 日釋出在《Nature Communications》。

圖片

質譜法是目前最主流的分析技術,用於鑑定蛋白質組,識別和量化複雜生物系統中的蛋白質。但是,串聯質譜 (MS/MS) 技術產生的資料非常複雜,將這些光譜轉換成蛋白質氨基酸序列的過程非常具有挑戰性。

與許多其他領域一樣,深度學習已成為從頭肽測序的首選解決方案。不過,它們仍然存在一些侷限性。與序列資料庫搜尋相比,從頭測序工具通常只能註釋少數 MS/MS 光譜,它們難以原生編碼高解析度 MS/MS 資料,並且它們採用了複雜的神經網路架構和後處理步驟。

為了解決這些問題,華盛頓大學的研究人員介紹了 Casanovo,它將從頭肽測序任務重新定義為機器翻譯問題:就像將句子中的單詞序列從一種語言翻譯成另一種語言一樣,Casanovo 將 MS/MS 光譜中的峰序列翻譯成生成肽的氨基酸序列。

他們使用了 Transformer架構,允許 Casanovo 直接使用構成 MS/MS 光譜的 m/z 和強度值對,而無需對 m/z 軸進行離散化,並直接輸出預測的肽序列,而無需複雜的動態程式設計步驟。該團隊之前曾使用多物種基準的有限質譜集訓練 Casanovo。

在最新的研究中,研究人員對 Casanovo 進行了重大改進,並展示了其在應對從頭肽測序常見挑戰方面的有效性。

他們擴充套件了訓練集,使用了從 6.69 億個光譜的海量集合中得出的 MassIVE-KB 光譜庫,並結合了極其嚴格的 FDR 控制。

具體來說,資料是在 1% FDR 下搜尋的,之後只保留每個獨特前體的前 100 個 PSM,相當於 3000 萬個高質量 PSM(與原始搜尋相比,FDR 均為 0%)。而且新增了波束搜尋解碼程式來預測每個 MS/MS 光譜的最佳肽。

圖片

圖示:Casanovo 使用 Transformer 架構執行從頭肽測序。(來源:論文)

Casanovo 的出色表現源於兩個方面:一方面是擁有大量高質量訓練資料,另一方面就是用了 Transformer 架構。

Transformer 架構特別適合將可變長度序列的元素置於語境中,因此在自然語言建模方面被證明非常成功。與迴圈神經網路相比,Transformer 架構能夠學習序列元素之間的長距離依賴關係,並且可以並行化以實現高效訓練。

Casanovo 將質譜峰編碼為序列,類似於將句子中的單詞標記化,利用 Transformer 架構的優勢和大型語言模型的快速發展來改進 MS/MS 光譜的從頭肽測序。

有一個重要的未決問題是模型引數的數量如何影響從頭測序效能,研究人員表示將此留待未來研究。

Casanovo 的應用場景非常多。最明顯的是,任何肽資料庫不可用、不完整或非常大的應用都可能受益於從頭測序,例如古蛋白質組學、法醫學或天體生物學。

然而,即使在分析人類或模式生物資料時,Casanovo 也可以協助檢測「外來」光譜,即資料庫中不存在的肽產生的光譜。此類外來光譜可能對應於實驗過程中引入的汙染物,但它們也可能代表微生物物種、遺傳變異或轉接肽。

總的來說,研究人員設想將 Casanovo 用作在標準資料庫搜尋過程中未能分配肽的光譜的後處理器,類似於級聯搜尋的最後階段。

Casanovo 團隊尚未探索的從頭測序的一個重要應用是抗體測序。不過,德國 BAM 的 Denis Beslic 團隊的一項研究對包括 Casanovo 在內的六種從頭測序工具在抗體測序問題上進行了系統比較。

圖片

圖示:Novor、pNovo 3、DeepNovo、SMSNet、PointNovo 和 Casanovo 對 IgG1-Human-HC 上不同酶的總體召回率和精確度。(來源:論文)

相關連結:https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false
結果顯示,Casanovo 在考慮的所有指標上都遠遠優於競爭方法。需要注意的是,這次比較採用了貪婪解碼的 Casanovo 版本,並且僅對 200 萬張光譜進行了訓練。

Casanovo 團隊用九種物種基準測試對 Casanovo 進行了評估。下圖表明,從 3000 萬張光譜中訓練的 Casanovo 新版本能產生更好的抗體測序效能。

圖片

圖示:Casanovo 在九種物種基準測試中表現優於 PointNovo、DeepNovo 和 Novor 等模型。(來源:論文)

未來,Casanovo 模型將有很多機會針對特定應用進行微調。研究人員對非酶模型的分析表明,Casanovo 的酶偏差可以透過使用相對較少的訓練資料進行調整。

因此,短期內,該團隊計劃訓練適用於各種不同裂解酶的 Casanovo 變體。Casanovo 軟體使這種微調變得簡單,因此任何有興趣將模型調整到特定實驗設定的使用者都應該能夠這樣做。

從長遠來看,理想的模型將光譜以及相關後設資料(例如消化酶、碰撞能量和儀器型別)作為輸入,並準確預測多種不同型別的實驗設定。

深度學習方法在提高從頭測序能力方面的潛力現已得到廣泛認可。在該論文接受審查期間,至少有六種其他深度學習從頭測序方法已發表,包括 GraphNovo、PepNet、Denovo-GCN、Spectralis、π-HelixNovo 和 NovoB。顯然,對這一不斷髮展的工具領域進行全面而嚴格的基準比較將使該領域受益。

與此相關的是,現階段該領域的主要瓶頸之一是缺乏嚴格的從頭測序置信度評估方法。

在宏蛋白質組學分析中,研究人員將 Casanovo 預測與目標和相應的誘餌肽資料庫進行了匹配,但這種方法忽略了從頭測序將肽分配給外來譜的能力。

因此,一個懸而未決的問題是,對於給定的資料依賴型採集資料集,Casanovo 是否在檢測肽的統計能力方面優於標準資料庫搜尋程式。

研究人員表示,透過足夠大的訓練集進行訓練,也許可以結束資料庫搜尋在 DDA 串聯質譜資料分析領域的統治地位。

論文連結:https://www.nature.com/articles/s41467-024-49731-x

相關文章