編輯丨ScineceAI
該論文介紹 MATES:一種基於深度學習的單細胞水平轉座子定量工具。MATES 使用基於自編碼器的模型,透過分析轉座子區域周圍獨特比對讀段的分佈,機率性地將多重比對轉座子讀段分配到特定位點。透過深度神經網路,MATES 學習獨特讀段分佈與多重比對讀段來自特定位點的可能性之間的關係。
這一創新方法在多個單細胞測序平臺上進行了嚴格驗證,包括 10X Genomics(scRNA-seq、scATAC-seq 和 Multiome)、Smart-seq 和空間轉錄組學(10X Visium)。該工具的多樣性和精確性已帶來了新的生物學見解,為更廣泛的應用和實驗驗證鋪平了道路。
該研究以「MATES: a deep learning-based model for locus-specific quantification of transposable elements in single cell」為題,於 2024 年 10 月 11 日釋出在《Nature Communications》。
背景介紹
轉座子(Transposon),又稱轉座元件或跳躍基因,是哺乳動物基因組的重要組成部分,在基因調控、基因組進化和細胞間異質性中發揮著關鍵作用。儘管部分轉座子仍然活躍並能夠在基因組中跳躍,但大多數轉座子已經積累了突變和退化,使其失去了主動轉座的能力。因此,許多轉座子被保留在基因組中並作為調控元件發揮作用。這些非編碼功能包括調控基因表達以及形成長鏈非編碼 RNA(lncRNA),這些 RNA 參與關鍵的調控網路,影響基因表達和細胞功能。儘管轉座子扮演著這些重要角色,但由於其重複序列和高複製數導致的多重比對測序讀段(reads)定量的挑戰,我們在單細胞水平上對特定位點轉座子的理解仍然有限。
轉座子高多重比對讀段的挑戰
從轉座子的高對比讀段中準確量化表達量是這個領域的一項重大挑戰。許多現有的單細胞轉座子量化工具過度依賴比對演算法來處理多重比對讀段。然而由於轉座子的重複性,利用對比演算法量化轉座子表達量存在侷限性,即他們忽略了轉座子周圍的基因組上下文資訊。
特定位點轉座子量化的挑戰
現有的方法未能實現精確的特定位點轉座子定量,他們有些只量化轉座子亞家族的表達量,有的僅僅將讀段分配到對比演算法提供的“最佳” 位置,因此在處理轉座子區域中普遍存在的多重比對讀段方面非常有限。這些方法忽視或迴避了由轉座子重複特性導致的多重比對讀段分配挑戰,這種忽視可能低估了轉座子定量中分配多重比對讀段的複雜性和不確定性。
方法總結
利用深度學習模型解決轉座子多重比對讀段的挑戰
為了解決這些挑戰並填補空白,我們提出了 MATES,這是一種基於深度神經網路的方法,專為跨模式的單細胞測序資料中的特定位點轉座子精確定量而設計。MATES 利用轉座子位點周圍獨特比對讀段的分佈資訊,將多重比對轉座子讀段分配到特定位點,從而實現特定位點轉座子的定量。透過深度神經網路的強大能力,MATES 捕捉轉座子位點周圍獨特比對讀段分佈與多重比對讀段被分配到這些位點的機率之間的複雜關係。該方法使 MATES 能夠基於轉座子位點的區域性上下文,以機率方式處理多重比對讀段的分配問題。
MATES 方法包括多個關鍵步驟。首先,將原始讀段比對到參考基因組,識別唯一比對到某個轉座子位點的讀段(獨特比對讀段)以及比對到多個轉座子位點的讀段(多重比對讀段)。接著,為每個轉座子位點計算覆蓋向量,表示圍繞該位點的獨特比對讀段分佈(上下文),並將每個轉座子區域細分為長度為 W(如 10 個鹼基對)的較小區間。根據區間內獨特比對讀段和多重比對讀段的比例,將每個區間分類為獨特佔主導區域或多重佔主導區域。然後,MATES 使用自編碼器模型學習潛在嵌入,用於表示轉座子位點的高維獨特讀段覆蓋向量,即特定位點的比對上下文。
此外,轉座子家族的獨熱編碼資訊也作為模型輸入,用於結合潛在嵌入預測特定位點的多重比對比例 (α)。模型的總損失由重構損失和相鄰區間讀段覆蓋連續性的損失組成,後者反映了多重佔主導區間的覆蓋應接近其相鄰的獨特佔主導區間。透過訓練完成的模型,我們可以以機率方式統計每個轉座子位點的讀段總數,從而實現轉座子在位點水平的精確定量。進一步地,透過將轉座子定量與單細胞資料中的傳統基因定量(如基因表達或基因可及性)結合,MATES 能夠更準確地對細胞進行聚類,並識別全面的生物標誌物(基因和轉座子),以表徵獲得的細胞群。除了高效處理單細胞資料的各種模式,MATES 還提供特定位點轉座子的視覺化功能,支援生成 bigwig 檔案和互動式基因組檢視器(IGV)圖,幫助研究人員直觀地探索和解釋基因組中轉座子位點的讀段分配。
圖1:MATES方法概覽。
a 原始讀段被比對到參考基因組,同時考慮轉座子位點上的多重比對讀段。b 構建轉座子覆蓋向量,包括獨特比對讀段覆蓋向量 V_u 和多重比對讀段覆蓋向量 V_m,以捕獲讀段的分佈資訊。c 自編碼器(AutoEncoder)模型從獨特比對讀段覆蓋向量中提取潛在嵌入。這些嵌入與轉座子家族資料 T_i 結合,用於預測多重比對讀段與每個轉座子位點匹配的機率α。d MATES 計算的多重比對機率 α 對構建轉座子計數矩陣至關重要。該矩陣是細胞分析的關鍵,可單獨使用,也可與傳統基因計數矩陣結合使用。結合使用可以增強細胞聚類和生物標誌物(基因和轉座子)的發現,從而更全面地理解細胞特性。e MATES 實現基因組範圍的讀段覆蓋視覺化,並生成基於基因組瀏覽器的視覺化檔案。該方法在單個細胞中對特定位點的 轉座子進行定量,生成包含從機率分配的多重比對讀段計算的覆蓋的 bigwig 檔案。這些檔案將獨特和多重比對讀段的覆蓋資訊合併,生成全面的 bigwig 檔案,可透過互動式基因組檢視器(IGV)等工具實現基因組範圍的轉座子讀段視覺化。
結果展示
在我們對 MATES 的系統性評估中,使用了不同測序平臺、模式和物種的多種單細胞資料集,結果表明 MATES 始終能夠提供更準確的轉座子定量結果。除了更高的精確性之外,MATES 還提供了特定位點水平的轉座子定量,並且能夠在不同測序平臺和資料模式下推廣使用,從而更全面地理解轉座子在細胞動態和基因調控中的作用。我們還透過 Nanopore 和 PacBio 長讀段測序以及模擬資料對方法的預測結果進行了驗證。透過將 MATES 的單細胞轉座子定量與模擬的真實值或長讀段測序的代理真實值進行比較,我們證明了 MATES 的準確性及其相較於現有方法的優勢。結果表明,MATES 在探索轉座子在單細胞生物學中的作用方面表現出色,併為不同實驗背景下的轉座子定量提供了一個實用的解決方案。
圖2: MATES 增強小鼠化學重程式設計(10X scRNA-seq資料)中的細胞聚類與生物標誌物發現。
a, b UMAP 圖顯示透過整合轉座子和基因,MATES 在細胞聚類中的效果。a 圖按 Leiden 聚類結果著色,而 b 圖按重程式設計階段著色,突出顯示了鑑定的基因(紫色)和 轉座子(紅色)生物標誌物。c, d 額外的 UMAP 圖強調僅使用轉座子進行聚類的 MATES 能力,c 圖按 Leiden 聚類著色,d 圖按重程式設計階段著色。值得注意的是,MT2_Mm 和 MERVL-int 轉座子是 Zscan4c/Zscan4d 陽性細胞中的重要標誌物,與已知的 2CLCs 標誌一致。e 點圖展示 MATES 鑑定的階段特異性標誌基因(紫色)和轉座子黑色)。f 示意圖展示 MATES 的機率性方法如何將多重比對讀段分配到特定轉座子位點,特別是在 2CLCs 中與 Zscan4c/Zscan4d 位點相關的 MT2_Mm 和 MERVL-int。g 條形圖顯示 MT2_Mm 和 MERVL-int 在 Zscan4c/Zscan4d 位點的讀段富集情況。富集的 p 值透過單側二項檢驗計算。h 箱線圖比較 MATES 在特定位點水平和亞家族水平轉座子定量下的細胞聚類效率,使用調整蘭德指數(ARI)評估。
圖 3:MATES 在 Smart-Seq2 單細胞 RNA-seq 資料中定量與疾病相關的轉座子表達。
a, b UMAP 圖展示了基於基因和轉座子標誌物的細胞聚類。MATES 或 Gene+TE 表示透過 MATES 定量的基因表達與轉座子資料相結合。UMAP 初始按 Leiden 聚類著色(a),隨後按細胞型別及特異標誌物著色,包括腫瘤標誌(EGFR、HUERS-P1-int 和 HERVK-int)及免疫細胞標誌(CD74、LTR2B 和 LTR40A1)(b)。c, d 基於 MATES 定量的轉座子表達生成的 UMAP 圖,分別按 Leiden 聚類(c)和按標誌物(如 HERVK-int)著色的細胞型別(d)。e 點圖揭示了 MATES 鑑定的標誌基因、轉座子和細胞型別之間的關聯。f, g 展示了利用 MATES 的特定位點轉座子定量增強聚類精確性的結果,f 圖顯示 Leiden 聚類,g 圖顯示細胞型別。h 列出免疫細胞中特定位點水平高表達的轉座子標誌物(LTR2B)及其非表達位點,證明了 MATES 在位點水平轉座子定量方面的能力。i 條形圖展示免疫細胞和腫瘤細胞中轉座子的平均特定位點表達水平。j 箱線圖比較了基於 MATES 的特定位點水平和亞家族水平轉座子定量的細胞聚類效果,透過調整蘭德指數(ARI)評估,表明 MATES 在生物標誌物識別和細胞分類中的解析度提升。
圖 4:MATES 在成年小鼠大腦 scATAC-seq 資料中的多樣性應用。
a–d UMAP 圖展示了 MATES 在細胞聚類和識別特徵性轉座子標誌物中的定量效果,結合轉座子和峰值資料進行聚類分析。a 圖顯示 Leiden 聚類結果,b 圖按細胞型別及轉座子標誌物著色,鑑定出了關鍵轉座子標誌物,例如在巨噬細胞中的 RMER16_Mm 和 RLTR44B,在星形膠質細胞中的 MamRep434 和 MER124,以及在少突膠質細胞中的 MURVY-LTR 和 MamRep1527。c 和 d 圖展示了 MATES 在以轉座子為中心的聚類中的特異性,僅使用 MATES 的轉座子定量資料進行聚類分析,其中 c 圖聚焦於 Leiden 聚類,d 圖展示細胞型別及之前提到的特徵性轉座子標誌物。e 點圖簡明呈現了 MATES 鑑定的細胞型別特異性轉座子標誌物。f–h 這些皮膚說明了 MATES 使用特定位點水平轉座子定量提升聚類準確性的效果。f 圖展示了基於特定位點水平轉座子定量的 UMAP 視覺化,按顏色標識 Leiden 聚類;g 圖展示了相同的 UMAP,但按顏色區分不同細胞型別;h 圖提供了特定位點水平的轉座子標誌物 RLTR44B 在巨噬細胞中的具體示例,並與該轉座子一個未開放位點進行對比,體現了 MATES 在詳細特定位點水平轉座子定量方面的能力。i 箱線圖比較了 MATES 在特定位點水平與亞家族水平轉座子定量下的細胞聚類效率(調整蘭德指數,ARI),突出了採用特定位點轉座子定量的優勢。j 條形圖展示巨噬細胞、少突膠質細胞和星形膠質細胞中特定位點轉座子的平均表達水平。k 點圖顯示了 MATES 鑑定的特定位點水平轉座子標誌物及其對應的細胞型別。
圖 5:使用 MATES 對人類 PBMCs 進行多模態轉座子分析。
a, b UMAP 圖展示了透過整合 scRNA 和 scATAC 模態的 MATES 聚類結果,a 圖顯示 Leiden 聚類,b 圖展示細胞型別聚類。c–f 跨模態的轉座子定量突出多模態定量的互補性。c 和 d 圖展示了在 scRNA 模態中基因和轉座子聯合的 UMAP 聚類,e 和 f 圖則展示了在 scATAC 模態中峰值和轉座子聯合的 UMAP 聚類。c 和 e 按 Leiden 聚類著色,d 和 f 按細胞型別著色,展示了轉座子如 AluYa5 在兩種模態中的差異性表達,而 MER48、LTR71A 和 MER54A 則特異於 scATAC 模態。g–l 這一系列 UMAP 圖和箱線圖說明了多模態轉座子分析。g 和 j 是轉座子表達的 UMAP 圖,按 Leiden 聚類著色以突出聚類模式;h 和 k 是聚焦於不同細胞型別及其轉座子標誌物的 UMAP 圖,提供了細胞特性和相關轉座子的深入見解;i 和 l 是比較細胞聚類效果的箱線圖(調整蘭德指數,ARI),強調特定位點水平定量相比亞家族水平定量提供的更高解析度。m 展示了透過 scRNA 和 scATAC 模態鑑定的轉座子標誌物,指出高表達的轉座子通常與染色質可及性增強相關,而反向情況並非普遍觀察到,突顯了每種模態的獨特貢獻。n 點圖捕捉了每種細胞型別的特徵性轉座子,驗證了 scATAC 和 scRNA 資料的互補性,為全面瞭解轉座子動態提供了支援。
總結與展望
MATES 利用自編碼器,基於獨特占主導地位的轉座子區域的覆蓋向量,學習單個轉座子位點上獨特比對讀段的分佈模式。它整合了獨特比對和多重比對讀段,從而在位點水平上精確定量轉座子表達。該工具不僅限於亞家族級別的轉座子表達定量,還能夠實現位點水平的定量,從而提高細胞群體分析的解析度,並推動特定位點轉座子標誌物的識別。
論文連結:https://www.nature.com/articles/s41467-024-53114-7