準確率達95.16%,快速識別惡性腫瘤細胞,廈大和上海交大團隊開發域泛化深度學習演算法

ScienceAI發表於2024-03-25

圖片

編輯 | 蘿蔔皮

單細胞和空間轉錄組測序是兩種最近最佳化的轉錄組測序方法,越來越多地用於研究癌症和相關疾病。

細胞註釋,特別是惡性細胞註釋,對於這些研究中的深入分析至關重要。然而,當前的演算法缺乏準確性和泛化性,使得難以一致、快速地從泛癌資料中推斷出惡性細胞。

為了解決這個問題,廈門大學和上海交通大學的研究團隊提出了 Cancer-Finder,一種基於域泛化(Domain Generalization,DG)的深度學習演算法,可以快速識別單細胞資料中的惡性細胞,平均準確率達到 95.16%。重要的是,透過用空間轉錄組資料集替換單細胞訓練資料,Cancer-Finder 可以準確識別空間幻燈片上的惡性 spots。

該研究以「Domain generalization enables general cancer cell annotation in single-cell and spatial transcriptomics」為題,於 2024 年 3 月 2 日釋出在《Nature Communications》。

圖片

人們早已認識到腫瘤異質性是開發有效癌症治療的重大障礙。單細胞 RNA 測序(scRNA-seq)技術能夠在單細胞水平上全面瞭解腫瘤內和腫瘤間的異質性,從而促進個性化治療的開發。

空間轉錄組學 (ST) 伴隨著 scRNA-seq 的腳步,已經成為一種有前途的測序技術。它可以捕獲完整組織內轉錄活動的空間背景,並越來越多地應用於癌症研究,在癌症異質性研究中產生了許多突破性的發現。在這些研究中,對單細胞 spots(ST 中的測量單位)惡性狀態的精確註釋至關重要且基礎。

惡性細胞 spots 主要透過標記基因或複製數變異(CNV)事件來識別。目前,迫切需要一種精度高、泛化效能好、易於擴充套件以處理多種資料型別的無參考惡性細胞註釋演算法。

廈門大學和上海交通大學的研究團隊提出了 Cancer-Finder,一種基於域泛化的惡性細胞註釋策略,可以從具有不同分佈的多個資料集中學習泛化模型。這允許在具有未定義分佈(未知域)的單細胞資料內直接區分泛癌腫瘤微環境中的惡性細胞和正常細胞。

此外,透過替換訓練集,該團隊快速擴充套件 Cancer-Finder 來註釋 ST 資料中的惡性 spots,並在使用小訓練集訓練後證明了其高預測精度。

透過精確識別 5 個 ccRCC ST 載玻片上的惡性 spots,該團隊成功發現了由 10 個基因組成的基因特徵;這些基因往往在腫瘤和正常組織之間的介面處富集,可能與侵襲性腫瘤微環境的形成有關,並可作為理想的預後指標。

圖片

圖示:Cancer-Finder 概述及其應用。(來源:論文)

由於該方法的高效能和計算簡單性,這裡採用風險外推法。在風險外推中結合平均風險和方差風險,使 Cancer-Finder 能夠在資料集、癌症型別和技術平臺上實現良好的泛化效能。

與現有技術相比,Cancer-Finder 對多種癌症的 scRNA-seq 資料集的惡性註釋建立了更高的精度和穩定性,在金標準資料集中實現了 98.30% 的準確率,在銀標準資料集中實現了 90.89% 的相似性。Cancer-Finder 更加準確,是因為深度學習模型比邏輯迴歸等傳統模型更具適應性並且具有更大的擬合能力。

圖片

圖示:Cancer-Finder的效能評估。(來源:論文)

此外,Cancer-Finder還有效利用了積累的癌組織資料和註釋資訊(主要透過演算法計算和手動註釋),從而增加了準確區分惡性和非惡性細胞的機會。雖然大多數現有演算法都基於簡單模型或單資料集分析,但前者容易受到模型限制,而後者容易受到重點資料集的質量及其包含的細胞型別的影響。

與其他方法不同(CopyKAT 必須推斷 CNV 並根據 CNV 配置檔案進行分類,SCEVAN 需要表徵克隆結構,CaSee 必須找到訓練的參考),Cancer-Finder 的推斷過程只需要簡單的前向傳播線性計算。隨著單細胞資料量的增加,相信使用更大量的資料進行再訓練將為 Cancer-Finder 在癌症研究中提供巨大的潛力。

圖片

圖示:Cancer-Finder 在 ccRCC ST 資料集中腫瘤間異質性分析中的應用。(來源:論文)

透過替換訓練資料集,研究人員快速擴充套件 Cancer-Finder 來註釋 ST 資料中的惡性 spots,並在使用小訓練集訓練後證明了其超高的預測精度。

雖然訓練集中只有少量相關 ST 資料,Cancer-Finder 在訓練組織的 ST 資料上顯示出很高的準確性 (82.00-97.37%)。

此外,預先訓練的 Cancer-Finder 可以輕鬆擴充套件到由其他技術生成的具有相當序列解析度的 ST 資料集,驗證了 Cancer-Finder 強大的泛化能力。

除了擴充套件訓練資料型別外,Cancer-Finder 還可以擴充套件為透過替換訓練標籤來註釋其他細胞狀態(或細胞型別)。例如,將訓練標籤更改為免疫細胞,使得 Cancer-Finder 能夠從單個細胞中準確識別免疫細胞。

在外部測試中,Cancer-Finder 識別肺、乳腺、卵巢和肝臟中免疫細胞的準確度在 85.21% 到 95.76% 之間。隨著單細胞資料的積累,研究人員將能夠使用 Cancer-Finder 來註釋各種細胞狀態,例如稀有細胞。

圖片

圖示:與基於外部驗證資料集和大型資料庫應用的現有方法進行效能比較。(來源:論文)

儘管有這些優勢,但目前的模式仍然有發展空間。Cancer-Finder 在大多數癌症上表現良好(準確度 > 0.8),但其在血液腫瘤中的表現有限,可能是由於血液腫瘤和實體瘤之間存在顯著差異。因此,研究人員不推薦 Cancer-Finder 用於血液腫瘤資料。

研究人員表示,Cancer-Finder 忽略了 ST 資料中 spots 之間的空間關係,這是一個有可能提高其整體功效的因素。這些都值得進一步探索。

論文連結:https://www.nature.com/articles/s41467-024-46413-6

相關文章