優於人類專家,GPT-4 準確註釋單細胞型別,成本低且穩健

ScienceAI發表於2024-03-28
優於人類專家,GPT-4 準確註釋單細胞型別,成本低且穩健

編輯 | 蘿蔔皮

GPT-4 是一種專為語音理解和生成而設計的大型語言模型。

哥倫比亞大學梅爾曼公共衛生學院(Columbia University Mailman School of Public Health)的 Wenpin Hou 和杜克大學醫學院(Duke University School of Medicine)的 Zhicheng Ji 證明,大語言模型 GPT-4 可以在單細胞 RNA 測序分析中使用標記基因資訊準確註釋細胞型別。

「註釋單個細胞的細胞型別的過程通常非常耗時,需要人類專家比較跨細胞簇的基因。」Wenpin Hou 博士說。

當對數百種組織和細胞型別進行評估時,GPT-4 生成的細胞型別註釋與手動註釋表現出很強的一致性。此功能可以大大減少細胞型別註釋所需的人類專家工作量和專業知識。並且,研究人員還為 GPT-4 的自動細胞型別註釋開發了 R 軟體包 GPTCelltype。

該研究以「Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis」為題,於 2024 年 3 月 25 日釋出在《Nature Methods》。

圖片

細胞型別註釋是單細胞 RNA 測序 (scRNA-seq) 分析的基本步驟。這個過程通常既費力又耗時,需要人類專家將每個細胞簇中高表達的基因與典型細胞型別標記基因進行比較。雖然自動化細胞型別註釋方法已經開發出來,但手動註釋仍然是主流方式。

生成式預訓練 Transformer (GPT),包括 GPT-3.5 和 GPT-4,是專為語言理解和生成而設計的大型語言模型。最近的研究證明了它們在生物醫學領域的有效性。

在這裡,研究人員假設 GPT-4 可以準確地註釋細胞型別,將註釋過程從手動轉變為半甚至全自動程式。GPT-4 具有成本效益,並且可以無縫整合到現有的單細胞分析流程(例如 Seurat)中,從而無需構建額外的流程並收集高質量的參考資料集。GPT-4 的大量訓練資料可在各種組織和細胞型別中實現更廣泛的應用,其聊天機器人性質允許使用者驅動的註釋細化。

圖片

圖示:GPT-4 細胞型別註釋示例以及與其他方法的比較。(來源:論文)

該團隊系統地評估了 GPT-4 在十個資料集中的細胞型別註釋效能,涵蓋五個物種和數百種組織和細胞型別,包括正常和癌症樣本。

使用他們開發的軟體工具 GPTCelltype 查詢 GPT-4。對於競爭方法,研究人員評估了GPT-3.5(GPT-4的早期版本)以及 CellMarker2.0、SingleR 和 ScType,它們是自動細胞型別註釋方法,提供適用於大量組織的參考。

GPT-4 或競爭方法的細胞型別註釋根據其與原始研究提供的手動註釋的一致性進行評估。使用數字分數來衡量一致性程度。

分析結果

研究人員首先探討了可能影響 GPT-4 註釋準確性的不同因素。當使用前十個差異基因時,以及當使用兩側 Wilcoxon 檢驗匯出差異基因時,GPT-4 表現最佳。

GPT-4 在各種提示策略中表現出相似的準確性,包括基本提示策略、包含推理步驟的思維鏈啟發的提示策略以及重複提示策略。在後續分析中,GPT-4 和 GPT-3.5 均使用基本提示策略,以 Wilcoxon 檢驗獲得的前十個差異基因作為適用資料集的輸入。

在大多數研究和組織中,GPT-4 的註釋完全或部分匹配超過 75% 的細胞型別的手動註釋,證明了其生成與專家可比較的細胞型別註釋的能力。對於來自文獻檢索的標記基因,這種一致性特別高,在大多陣列織中至少有 70% 的完全匹配率。即使透過差異分析鑑定的基因較低,但一致性仍然很高。不過,應謹慎解釋 2021 年 9 月之前釋出的資料集的結果,因為它們早於 GPT-4 的訓練截止時間。

與其他細胞型別相比,GPT-4 對粒細胞等免疫細胞表現更好。它可以識別結腸癌和肺癌資料集中的惡性細胞,但無法識別 B 淋巴瘤,這可能是由於缺乏獨特的基因集。惡性細胞的鑑定可以受益於其他方法,例如複製數變異。

在包含不超過 10 個細胞的小細胞群中,效能略有下降,這可能是由於可用資訊有限。GPT-4註釋在主要細胞型別(例如 T 細胞)中比在亞型(例如 CD4 記憶 T 細胞)中更頻繁地完全匹配手動註釋,而超過75%的亞型仍然實現完全或部分匹配。

圖片

圖示:評估結果。(來源:論文)

在某些細胞型別中,GPT-4 與手動註釋之間的低一致性並不一定意味著 GPT-4 的註釋不正確。例如,分類為基質細胞的細胞型別包括表達 I 型膠原基因的成纖維細胞和成骨細胞,以及表達 II 型膠原基因的軟骨細胞。對於手動註釋為基質細胞的細胞,GPT-4 會分配更高粒度的細胞型別註釋,從而導致部分匹配和較低的一致性。

對於手動註釋為基質細胞但被 GPT-4 識別為成纖維細胞或成骨細胞的細胞型別,I 型膠原蛋白基因的表達量明顯高於 II 型膠原蛋白基因。這與在手動註釋為軟骨細胞、成纖維細胞和成骨細胞的細胞中觀察到的模式一致,表明 GPT-4 為基質細胞提供了更準確的細胞型別註釋。

根據平均一致性分數,GPT-4 大大優於其他方法。使用 GPTCelltype 作為介面,GPT-4 的速度也明顯更快,部分原因是它利用了來自標準單細胞分析流程(例如 Seurat)的差異基因。鑑於這些管道的不可或缺的作用,研究人員認為差異基因可立即用於 GPT-4。

相比之下,SingleR 和 ScType 等其他方法需要額外的步驟來重新處理基因表達矩陣。與其他免費方法相比,GPT-4 使用線上入口網站需要支付 20 美元的月費。GPT-4 API 的成本與查詢的細胞型別數量線性相關,並且本研究中所有查詢的成本不超過 0.1 美元。

研究人員透過模擬資料集進一步評估了 GPT-4 在複雜真實資料場景中的穩健性。GPT-4 可以以 93% 的準確度區分純細胞型別和混合細胞型別,以 99% 的準確度區分已知和未知細胞型別。當輸入基因集包含較少基因或被噪聲汙染時,GPT-4的效能下降但仍然很高。

最後,該團隊使用先前的模擬研究評估了 GPT-4 註釋的再現性。GPT-4 在 85% 的情況下對相同的標記基因產生了相同的註釋,表明具有很高的重現性。兩個 GPT-4 版本的註釋在大多數情況下顯示出相同的一致性分數,Cohen’s κ 為 0.65,證明了顯著的一致性。

「所有這些結果都證明了 GPT-4 在各種情況下的穩健性。」Hou 說。

結語

雖然 GPT-4 在細胞型別註釋方面表現出色,超越了現有方法,但仍存在需要考慮的侷限性。

首先,GPT-4訓練語料庫的未公開性質使得驗證其註釋基礎具有挑戰性,因此需要人工評估以確保註釋質量和可靠性。

其次,人類參與模型的可選微調可能會由於主觀性而影響再現性,並可能限制模型在大型資料集中的可擴充套件性。

第三,scRNA-seq資料中的高噪聲水平和不可靠的差異基因可能會對GPT-4的註釋產生不利影響。

最後,過度依賴 GPT-4 可能會引發人工智慧幻覺。

研究人員建議在進行下游分析之前由人類專家驗證 GPT-4 的細胞型別註釋。

論文連結:https://www.nature.com/articles/s41592-024-02235-4

相關報導:https://phys.org/news/2024-03-gpt-cell-cells-outperforms-expert.html

相關文章