編輯 | 蘿蔔皮
單細胞 RNA 測序 (scRNA-seq) 已廣泛用於疾病研究,其中在不同條件下(包括人口群體、疾病階段和藥物治療)從捐贈者中收集樣本批次。值得注意的是,此類研究中樣本批次之間的差異是批次效應引起的技術混雜因素和條件效應引起的生物變異的混合體。
但是,當前的去除批次效應方法往往同時消除技術批次效應和有意義的條件效應,而擾動預測方法僅關注條件效應,導致由於未考慮批次效應而導致基因表達預測不準確。
在最新的研究中,佐治亞理工學院(Georgia Institute of Technology,GT)的研究人員介紹了 scDisInFact,這是一個深度學習框架,可以對 scRNA-seq 資料中的批次效應和條件效應進行建模。
scDisInFact 學習將條件效應與批次效應分開的潛在因素,使其能夠同時執行三項任務:批次效應去除、條件相關關鍵基因檢測和擾動預測。
研究人員在模擬和真實資料集上評估 scDisInFact,並將其效能與每個任務的基線方法進行比較。結果表明,scDisInFact 優於專注於單個任務的現有方法,為整合和預測多批次多條件單細胞 RNA 測序資料提供了更全面、更準確的方法。
該研究以「scDisInFact: disentangled learning for integration and prediction of multi-batch multi-condition single-cell RNA-sequencing data」為題,於 2024 年 1 月 30 日釋出在《Nature Communications》。
單細胞 RNA 測序 (scRNA-seq) 能夠測量實驗批次中每個細胞中基因的表達水平。這項技術已廣泛應用於疾病研究,從疾病不同階段或接受不同藥物治療的捐贈者身上收集樣本。
因此,每個樣本的 scRNA-seq 計數矩陣與供體的一種或多種生物學狀況相關,這些生物學狀況可以是年齡、性別、藥物治療、疾病嚴重程度等。同時,研究同一疾病的資料集通常是在不同批次中獲得的,這會引入跨批次的技術差異(也稱為批次效應)。
實際上,疾病研究資料集中的可用樣本可能來自不同的條件和批次。研究人員將此類資料集稱為多批次多條件資料集。在此類資料集中,同一批次生成的不同生物條件的資料矩陣之間存在由條件效應引起的生物變異,而同一條件但不同批次的資料矩陣之間存在批次效應引起的技術變異。
因此,這些資料矩陣之間的差異是批次效應(技術變異)和條件效應(生物變異)的混合體,這使得充分利用這些資料集潛力的過程變得複雜。
科學家考慮了使用多批次多條件資料集進行疾病研究時需要解決的一些計算挑戰:(1)消除批次效應,同時保留生物條件效應;(2)檢測與生物狀況相關的關鍵基因;(3)預測對應於一定條件的未見資料矩陣,也稱為擾動預測任務。學界已經針對每個問題分別設計了方法,但沒有現有的方法可以共同解決這三個問題。
在最新的研究中,佐治亞理工學院的研究團隊提出了 scDisInFact(single cell disentangled Integration preserving condition-specific Factors),這是第一個可以執行所有三個任務的方法:批次效應消除、條件相關關鍵基因(CKG)檢測以及多批次多條件 scRNA-seq 資料集上的擾動預測。
scDisInFact 是基於解糾纏分自動編碼器框架設計的。它將多批次多條件資料集中的變化分解為編碼所有資料矩陣共享的生物資訊、特定條件的生物資訊和技術批次效應的潛在因素。解開的潛在空間允許 scDisInFact 執行另外兩項任務,即 CKG 檢測和擾動預測,並克服每個任務現有方法的限制。
特別是,解開的因子允許 scDisInFact 消除批次效應,同時保留基因表達資料中的條件效應。此外,scDisInFact 擴充套件了現有擾動預測方法的多功能性,因為 (1) 它可以對多種條件型別的影響進行建模,(2) 它可以跨資料集中的條件和批次的任意組合進行資料預測。
研究人員在消除批次效應和 CKG 檢測方面比較了 scDisInFact 和 scINSIGHT(一種同型別方法,使用非負矩陣分解將 scRNA-seq 矩陣分解為通用模組和條件特定模組。)。由於 scINSIGHT 不進行擾動預測,因此該團隊在擾動預測方面將 scDisInFact 與 scGen 和 scPreGAN 進行了比較。
對於消除批次效應,scDisInFact 僅消除批次效應並保留資料矩陣之間的生物學差異。對於與病情相關的關鍵基因檢測,scDisInFact不僅可以高水平輸出CKG,而且擾動預測結果還可以用於尋找在特定細胞或細胞型別中從一種條件組合到任何其他條件組合差異表達的基因。
圖示:模擬資料集上的擾動預測結果。(來源:論文)
對於擾動預測,scDisInFact 對與捐贈者相關的多種條件型別進行建模,並可以預測從條件組合到所研究的任何其他組合的資料。這使得在複雜場景中的應用成為可能,例如預測多種藥物組合的效果。
圖示:模擬資料集的結果。(來源:論文)
該團隊在模擬和真實資料集上測試了 scDisInFact,發現它在各種任務中都優於基線方法。由於其卓越的效能和多工能力,scDisInFact 可用於全面分析多批次多條件 scRNA-seq 資料集,有助於更深入地瞭解疾病進展和患者對藥物治療的反應。
論文連結:https://www.nature.com/articles/s41467-024-45227-w