編輯 | 蘿蔔皮
DNA 甲基化在各種生物過程中起著重要作用,包括細胞分化、衰老和癌症發展。哺乳動物中最重要的甲基化是5-甲基胞嘧啶,主要發生在 CpG 二核苷酸的背景下。
全基因組亞硫酸鹽測序等測序方法可以成功檢測 5-甲基胞嘧啶 DNA 修飾。然而,它們存在讀取長度短的嚴重缺陷,可能會引入擴增偏差。
新加坡 A*STAR 的研究人員開發了一種深度學習演算法 Rockfish,該演算法透過使用奈米孔測序(Oxford Nanopore Sequencing,ONT)顯著提高了讀取級 5-甲基胞嘧啶檢測能力。
該研究以「Rockfish: A transformer-based model for accurate 5-methylcytosine prediction from nanopore sequencing」為題,於 2024 年 7 月 3 日釋出在《Nature Communications》。
考慮到需要一種高精度的讀取級別預測方法,研究人員著手使用現代架構 Transformers 開發一種新的、最先進的深度學習方法。他們的方法 Rockfish 依賴於原始奈米孔訊號、核鹼基序列和比對資訊來檢測 5mC 修飾。
研究人員使用高質量的人類和小鼠資料集訓練該模型,並在多個 R9.4.1 和 R10.4.1 資料集上對其進行測試,包括內部測序的 R9.4.1 H1 胚胎幹細胞 (H1ESc) 原生資料集和 R9.4.1 和 R10.4.1 新生小鼠 (C57BL/6 新生兒) 資料,以及一些公開可用的人類癌症和血液資料集。
鑑於 R9.4.1 和 R10.4.1 NA12878 以及新生小鼠資料集均用於評估,研究人員指出了孔版本以區分它們。其餘資料集僅使用 R9.4.1 孔版本進行測序。
對 Rockfish 模型進行了廣泛的評估,並與 R9.4.1 資料集的 Megalodon Remora、Megalodon Rerio 和 Nanopolish 以及 R10.4.1 資料集的 Remora 進行了比較,比較內容包括以下六個方面:讀段級預測、位點級預測、與 WGBS 的位點級相關性、呼叫覆蓋度、執行時間和資源利用率。
圖示:Read-level 評估。(來源:論文)
在 R.9.4.1 資料集上單鹼基準確率和 F1 度量值提高了最多 5 個百分點,在 R10.4.1 資料集上提高了最多 0.82 個百分點。
此外,Rockfish 與全基因組亞硫酸鹽測序表現出高度相關性,需要的讀取深度較低,並且在計算效率高的同時對富含 CpG 的啟動子等生物學重要區域具有更高的置信度。
它在人類和小鼠樣本中的優異表現凸顯了其在研究不同生物體和疾病中的 5-甲基胞嘧啶甲基化方面的多功能性。最後,其適應性架構確保與新版本的孔和化學以及修飾型別相容。
不過,Rockfish 目前無法區分 5mC 和 5hmC 甲基化,因為缺乏高質量的其他型別修飾的對照資料集。模型在計算效率上仍有改進空間,未來可能透過架構和工程最佳化提高效率。
Rockfish 展示了從 ONT 原始訊號中提取甲基化資訊的強大能力,其小型模型在所有資料集上效能更優,執行時間更短,展現了額外資料和知識蒸餾的好處。
5mC 修飾與多種生物學現象相關,如轉錄調控、疾病、衰老等,因此單鹼基解析度的檢測對於深入理解 DNA 甲基化的作用至關重要,可能有助於疾病的早期診斷和治療策略選擇。Rockfish 的架構使其易於擴充套件到檢測各種型別的 DNA 和 RNA 修飾。
論文連結:https://www.nature.com/articles/s41467-024-49847-0