Nature子刊,北大陳語謙團隊提出多模態單細胞資料整合和插補的深度學習方法

ScienceAI發表於2024-10-21

圖片

編輯 | ScienceAI

今天為大家介紹的是來自北京大學資訊工程學院、化學生物學與生物技術學院省部共建腫瘤化學基因組學國家重點實驗室、鵬城國家實驗室合聘研究員和 AI4S 平臺中心主任陳語謙教授團隊發表在《Nature Communications》的論文。

該團隊開發了一種新型的多模態整合方法,能夠實現多模態單細胞資料的整合與插補,這一成果可以促進多模態單細胞資料的分析。

圖片

文章連結:https://www.nature.com/articles/s41467-024-53355-6

背景介紹

異構特徵空間和技術噪聲阻礙了細胞資料的整合和插補。跨模態獲取配對資料的高成本進一步限制了分析。因此,迫切需要深度學習方法來有效地整合和插補不配對的多模態單細胞資料。

在此,作者設計了模態聯結自編碼器 Monae。Monae 聯結模態之間的關係,並在特定模態中採用對比學習,增強聯合空間中的細胞表示。Monae 的整合部分提供模態互補的細胞表示,插補部分利用細胞表示生成具有生物異質性的模態內和跨模態計數。

此外,額外設計的 Monae-E 是 Monae 的一種變體,支援更快收斂並提供可解釋性。在各種資料集上的評估驗證了 Monae 在多模態單細胞資料整合和插補中的準確性。

模型架構

Monae 是一個由自編碼器構建的多模態單細胞資料學習框架,如圖 1 所示。Monae 基於不同模態之間的調控關係構建一個模態聯結圖。圖中的節點對應於特定模態中的單個獨立特徵。Monae 中的圖自編碼器學習每個節點的表示,如圖 1a 所示。

在 Monae 中,不同的自編碼器編碼各個模態,其中的非對稱網路生成對比學習中的正樣本和負樣本,如圖 1b 所示。自適應聚類用於增強 Monae 對比學習的細胞表示,增加異質簇之間的判別性,如圖 1c 所示。

從 Monae 獲得圖聯結節點嵌入和對比學習的細胞嵌入後,後者用作多模態整合的細胞表示(如圖 1d 所示)。

對於插補,Monae 將來自聯合空間的細胞表示與模態聯結節點特徵融合以推理插補計數。對於變體 Monae-E,可以將多模態細胞作為節點新增到圖 1a 中的圖聯結中。

Monae-E 從圖自編碼器獲得所有節點的嵌入,包括細胞嵌入和特徵嵌入,再使用細胞嵌入來替換 Monae 中非對稱網路的計數輸入,後續過程與 Monae 一致,如圖 1e 所示。

圖片

圖 1:模型架構和工作流程

多模態單細胞資料整合

作者在多個資料集上評估 Monae 和基線方法,這些資料集包括配對和不配對場景。

與基線方法相比,Monae 和 Monae-E 在兩個整合指標批次去除和生物異質性上表現更好,並且對不同的隨機資料劃分具有魯棒性,如圖 2b 所示。

為了評估資料集規模的影響,作者首先隨機取樣並獲得不同規模的資料集子集。所有方法在子集上進行了比較,如圖 2c 和 d 所示。

Monae 和 Monae-E 可以取得更好的效能。隨著子集規模的增加,所有方法的表現都會得到提高。圖 2e 中展示了其他資料集上的結果比較,評估標準為批次去除和生物異質性的整體得分。

圖片

圖 2:多模態整合基準

多模態單細胞資料的插補

RNA 模態插補對應於模態內插補。作者使用 MultiVI 以及專用於模態內插補的方法:MAGIC 和 DCA 作為基線方法,在 Muto-2021 上評估基線方法和Monae。

在圖 3a 中,使用 PCA 降維插補計數,並用 UMAP 視覺化,Monae 和 Monae-E 插補後的細胞簇彼此分離得更開,具有更好的判別性。評估結果如圖 3b 所示,Monae 和 Monae-E 的整體效能優於基線方法。

對於跨模態插補,作者使用 scButterfly、MultiVI、JAMIE、UnitedNet 和 BABEL 作為基線。將 Muto-2021 上的 RNA 模態資料轉換為 ATAC 模態。

跨模態插補的評估結果如圖 3c 所示。這些結果體現出 Monae 恢復了 ATAC 模態下的生物異質性。

總體而言,Monae 和 Monae-E 翻譯的圖譜能夠表徵細胞簇之間的差異,從而促進細胞型別識別等下游任務。

同樣的方式,作者評估了從 ATAC 模態翻譯到 RNA 模態的插補結果。Muto-2021 上的跨模態插補的評估結果如圖 3d 所示。雖然 scButterfly 表現更好,但值得注意的是,Monae 和 Monae-E 的效能接近 scButterfly。

圖片

圖 3:多模態插補基準

結論

在本研究中,作者介紹了 Monae,一種用於多模態單細胞資料整合和插補的深度學習方法。

Monae 的設計遵循兩個動機:(1)對於整合,學習模態之間的聯結關係可以促進聯合空間中的對比學習並消除模態之間的差距。(2)對於插補,當前模態中缺失的資訊可以透過其他模態來補充。

因此,Monae 利用整合細胞表示來生成插補計數。作者進行了基準實驗,體現了Monae 在一系列資料集和場景中的表現,包括多模態整合、模態內和跨模態插補。

總體而言,Monae可以作為複雜多模態單細胞資料的綜合分析的工具,其有助於瞭解生物系統內的細胞身份和功能狀態。

程式碼:https://github.com/shapsider/monae

相關文章