更高解析度,更經濟,深度生成模型與主動學習策略結合,推進大規模單細胞研究

ScienceAI發表於2024-09-03

圖片

編輯 | 蘿蔔皮

單細胞測序是分析複雜疾病細胞複雜性的重要工具。然而,其高昂的成本阻礙了其在廣泛的生物醫學研究中的應用。

傳統的細胞反摺積方法可以從更便宜的批次測序資料中推斷出細胞型別比例,但它們無法提供單細胞水平分析所需的精細解析度。

為了克服這一挑戰,加拿大麥吉爾大學(McGill University)的研究人員引入了「scSemiProfiler」,這是一個創新的計算框架,將深度生成模型與主動學習策略結合在一起。

該方法具有高度精確性,能推斷出大群體中的單細胞概況。可與真實的單細胞分析資料緊密結合,支援精細的細胞分析。

該研究以「scSemiProfiler: Advancing large-scale single-cell studies through semi-profiling with deep generative models and active learning」為題,於 2024 年 7 月 16 日釋出在《Nature Communications》。

圖片

單細胞測序大幅改變了生物研究,揭示了細胞間的細微差異,促進了生物標誌物發現和個性化治療策略的發展。然而,單細胞測序的高昂成本(例如 2023 年測序 2 萬個細胞的成本估計為 6000 美元),這是限制其大規模研究的重要因素。

為降低成本,有多種解卷積方法解析混合資料中的細胞群體,包括 CIBERSORTx、Bisque、DWLS、MuSiC、NNLS 和 EPIC,以及使用深度神經網路的 Scaden 和 TAPE。這些方法在經濟性和資料解析度之間取得了平衡,但在解析度和準確性上仍存在侷限,無法達到單細胞級別的分析。

單細胞解析度分析對於深入理解疾病複雜性及其治療反應至關重要。它可以進行 UMAP、路徑啟用模式分析、生物標誌物發現、基因功能富集、細胞-細胞相互作用和擬時序軌跡分析,結合機器學習技術,有助於解碼細胞異質性和動態變化。

為了應對之前強調的挑戰,併為了提供一種經濟有效的廣泛單細胞測序方法,麥吉爾大學的研究團隊推出了 single-cell Semi-profiler (scSemiProfiler)。這種深度生成計算工具,旨在顯著提高單細胞分析的精度和深度。

圖片

圖示:scSemiProfiler 方法概述。(來源:論文)

它是一種更經濟、更可擴充套件的單細胞測序選項,從而以更高的可及性促進高階單細胞分析。

該工具有效地將主動學習技術與深度生成神經網路演算法結合起來,旨在以更實惠的價格提供單細胞解析度資料。scSemiProfiler 旨在同時實現 semi-profiled 過程中的兩個基本目標。

圖片

圖示:semi-profiled 和 real-profiled 在 COVID-19 資料集的總體比較。(來源:論文)

一方面,scSemiProfiler 的主動學習模組整合了深度學習模型和大量資料的資訊,智慧地選擇最具資訊量的樣本進行實際的單細胞測序。

另一方面,scSemiProfiler 的深度生成模型元件有效地將來自代表性樣本的單細胞資料與該群體的批次測序資料合併,透過計算推斷剩餘非代表性樣本的單細胞資料。

圖片

圖示:semi-profiled 和 real-profiled 在 iMGL 資料集的比較分析。(來源:論文)

這種深度神經網路方法可以將目標批次資料更詳細地「反摺積」為精確的單細胞水平測量值。因此,scSemiProfiler 只需對批次測序和代表性單細胞測序進行預算,即可輸出研究中所有樣本的單細胞資料。

目前為止,scSemiProfiler 是同類產品中第一個專為從大量測序資料中進行如此複雜的單細胞水平計算分解而設計的產品。

圖片

圖示:主動學習展示了其在單細胞水平上選擇性分析最具資訊量的樣本的能力。(來源:論文)

透過對各種資料集的全面評估,scSemiProfiler 始終如一地生成 semi-profiled 的單細胞資料,這些資料與實際的單細胞資料集緊密相關,並準確反映下游任務的結果。

因此,scSemiProfiler 有助於改善獲取單細胞資料以進行大規模研究,包括疾病佇列研究等。

透過降低大規模單細胞研究的成本,scSemiProfiler 有望促進單細胞技術在廣泛的生物醫學研究中的應用。這一進步將擴大生物學研究的範圍並增強其深度。

論文連結:https://www.nature.com/articles/s41467-024-50150-1

相關文章