編輯 | KX
大型語言模型(LLM)在自然語言處理和理解領域已取得重大突破。
在生物學領域,一些採用類似 LLM 結構的大型細胞模型(Large Cellular Model,LCM)被開發用於單細胞轉錄組學,比如:scBERT、Geneformer、scGPT、scFoundation 和 GeneCompass。
這些模型展示了 LCM 在各種生物任務中的應用潛力,並說明了 LCM 徹底改變未來生物學研究的可能性。
近日,《Quantitative Biology》期刊採訪了一些最具影響力的 LCM 背後的有影響力的作者。例如:騰訊 AI Lab 楊帆和姚建華(scBERT)、加州大學 Christina V. Theodoris(Geneformer)、多倫多大學王波(scGPT )、清華大學張學工(scFoundation)以及中國科學院李鑫和楊戈(GeneCompass)。
該評論文章詳細介紹了這些模型背後的總體框架和核心人工智慧概念,並前瞻性地討論了這些模型如何與生物學知識有效結合。還討論了 LCM 研究和開發過程中面臨的關鍵挑戰,包括縮放規律問題和資料預訓練的必要性。
這些觀點闡明瞭 LCM 對生物研究的變革性影響,並讓我們看到了 AI 和生命科學融合,回答有關生命的關鍵問題的未來。
ScienceAI 對原論文進行了不改變原意的編輯、整理:
對所有作者的問題
Quantitative Biology:你能否簡要介紹一下你的模型是什麼,以及它可以用於什麼?
楊帆&姚建華:scBERT 是一種預訓練語言模型,旨在將單細胞轉錄組資料轉換為通用嵌入。這種基於 Transformer 的模型使用 BERT 正規化進行訓練,可用於各種應用,包括細胞型別註釋、新細胞型別的發現和新標記基因的識別。
Christina V. Theodoris:Geneformer 是一種基礎深度學習模型,在約 3000 萬個單細胞轉錄組的大規模語料庫上進行預訓練,透過遷移學習,在網路生物學中資料有限的環境中實現上下文特定的預測。透過零樣本學習和有限資料微調,Geneformer 在一系列具有生物學意義的下游任務中持續提高了預測準確性。我們展示了 Geneformer 獲得新生物學見解的能力,包括透過零樣本學習發現心肌細胞中的新轉錄因子,以及使用有限的患者資料揭示心肌病的候選治療靶點,這兩項我們都透過細胞功能分析進行了實驗驗證。Geneformer 對基因網路動態的基本理解現在可以推廣到大量下游任務,以加速發現關鍵網路調節器和候選治療靶點。
王波:scGPT 是一個在 3300 萬個人類細胞上進行預訓練的單細胞基礎模型。受 LLM 的啟發,scGPT 作為基礎模型,首先從大規模多樣化的人類細胞預訓練資料集中學習單細胞生物學,然後有效地將知識轉移到各種下游任務。
scGPT 利用注意力機制的 Transformer 主幹來捕捉基因之間錯綜複雜的互連性。更重要的是,scGPT 設計了一種特殊的注意機制,具有細胞提示和基因提示,能夠以自迴歸的方式使用非序列 scRNA-seq 資料進行生成訓練。預訓練的 scGPT 模型表現出對新資料集的穩健外推能力,在零樣本實驗中準確地聚類細胞型別並與已知的基因網路對齊。透過微調,其知識可以轉移到各種任務中,在細胞型別註釋和擾動預測任務中始終優於專門的模型。
張學工:scFoundation 是一個在單細胞轉錄組學資料上進行預訓練的模型,在引數大小、基因維數和訓練資料大小方面規模很大。得益於模型架構設計和訓練策略,它可以為單細胞和批次分析提供有價值的嵌入。這些嵌入可以應用於各種細胞級任務,例如增強基因表達、註釋細胞型別以及預測組織和單個細胞中的藥物反應。此外,scFoundation 可以生成基因級嵌入,用於推斷基因網路和預測擾動對單細胞的影響。
李鑫&楊戈:GeneCompass 是一個知識型跨物種基礎模型,在超過 1.2 億個人類和小鼠單細胞轉錄組上進行了預訓練。啟動子序列、基因家族、基因調控網路 (GRN) 和共表達關係這四種先驗知識透過將其編碼到輸入中而被整合到 GeneCompass 中。GeneCompass 可以促進整個生物領域的廣泛應用,包括跨物種細胞型別註釋、GRN 預測、藥物劑量反應預測和擾動預測。此外,GeneCompass 可以透過在高維嵌入空間中進行計算機基因擾動來加速關鍵細胞命運調節因子的發現。
關於 scBERT 的訪談
Quantitative Biology:scBERT 是第一個針對單細胞 RNA 序列資料開發的類 Transformer 模型嗎?您是如何啟動這個專案的,以及在工作中遇到了哪些主要挑戰?
楊帆&姚建華:我們於 2021 年初啟動了 scBERT 專案,並於 2021 年 12 月釋出了程式碼和預印本論文。據我們所知,scBERT 是第一個針對單細胞 RNA 序列資料的類 Transformer 模型。受 BERT 正規化在 NLP 中的成功的啟發,我們將 BERT 應用於單細胞 RNA 序列資料。
這項開創性的工作帶來了幾個挑戰,其中最主要的是將單細胞 RNA 序列資料(通常為計數矩陣格式)轉換為 Transformer 的輸入嵌入。在徹底研究了 scRNA 資料的性質並與 NLP 專家討論後,我們設計了基因嵌入和表達嵌入,類似於 NLP 中的位置嵌入和詞嵌入。這些嵌入的成功實現啟發了後續幾個基於 Transformer 的模型的設計。其他挑戰包括收集大量合適的訓練資料,以及如何有效地進行自監督預訓練。
Quantitative Biology:您認為 AI 模型擴充套件或應用於生命科學任務的關鍵技術挑戰是什麼?
楊帆&姚建華:我認為 AI 擴充套件或應用於生命科學任務的關鍵技術挑戰在於定義問題,並將具有生物學價值的問題公式化為 AI 演算法可最佳化的物件。另一個重要的技術挑戰是如何基於極其稀缺的實驗資料構建高效能模型。我認為這是生命科學中常見的場景。
Quantitative Biology:scBERT 是 3 年前建立的。從那以後,你們實驗室的研究進展如何?
楊帆&姚建華:從那時起,我們就一直在探索 AI 在空間組學和單細胞蛋白質組學中的應用。在空間組學方面,我們開發了一種細胞型別註釋演算法和一種微環境分析工具。至於單細胞蛋白質組學,我們開發了一個通用嵌入框架和一種反摺積演算法。我們所有的工作都集中在中心法則及其潛在的生物學應用上。
Quantitative Biology:您對 AI 模型在生物學研究中的潛在應用有何看法?
楊帆&姚建華:AI 可以促進生物學研究的各個方面,從理解、發現到創造。分析單細胞多組學資料使我們能夠從系統的角度瞭解單個細胞中 DNA、RNA 和蛋白質之間的相互作用。將這些資料(可選的其他模態資料)與表型(如患者級標籤)聯絡起來,可以幫助我們瞭解疾病過程並發現新療法的新靶點。透過對蛋白質與其他分子之間的原子級相互作用進行建模,我們可以從頭設計(創造)新型蛋白質結合藥物。本質上,我們可以利用人工智慧幫助我們瞭解生命的本質並改善我們的生活質量。
Quantitative Biology:人工智慧和生物學領域都在快速發展,技術以前所未有的速度更新甚至革命。您如何看待人工智慧在生物研究中的應用?
楊帆&姚建華:眾所周知,AlphaFold2 透過相對準確地從序列預測蛋白質結構,徹底改變了結構生物學。已經出現了更多模型來預測蛋白質與其他分子相互作用的複合物的結構,例如核酸、化學藥物和共價修飾。在不久的將來,我認為用於蛋白質複合物分析的人工智慧,結合單細胞多組學提供的細胞背景,有望為生物研究帶來有價值的應用。
關於 Geneformer 的訪談
Quantitative Biology:您在實際生物學問題上應用 Geneformer 時取得了哪些重大生物學發現?這些發現是否也能透過更傳統的統計或機器學習方法找到?
Christina V. Theodoris:我們展示了 Geneformer 能夠透過零樣本學習和微調在各種生物學環境中進行預測的能力,包括基因網路動力學、染色質動力學、動態細胞軌跡和疾病依賴性失調。我們將 Geneformer 應用於廣泛的組織、疾病和發育階段,以確認其基本知識的普遍性。我們還將 Geneformer 與隨機森林、支援向量機和邏輯迴歸等替代機器學習方法進行了比較,發現 Geneformer 始終提高了預測準確性。
在新發現方面,我們設計了一種計算機擾動方法,透過零樣本學習發現了心肌細胞中的一種新型轉錄因子,我們透過實驗證實了該轉錄因子對細胞產生收縮力的能力至關重要。儘管之前對心肌細胞進行了數十年的研究,但 Geneformer 仍然能夠發現這種新型調節劑,並且這些預測被證實對細胞具有真正的生物學效應,這讓我們感到興奮。
然後,我們將我們的方法擴充套件到計算機治療策略,該方法發現了心肌細胞中的新型治療靶點,可顯著提高心肌病誘導多能幹細胞疾病模型中細胞產生收縮力的能力。我們很高興該模型能夠預測對細胞表型具有真正生物學影響的新型治療靶點,並期待看到其他人如何使用 Geneformer 推動未來在其他疾病和生物學環境中的發現。
Quantitative Biology:您是一位研究心血管疾病的科學家,您能否在心血管研究中給出一些您認為人工智慧尤其是 LCM 將發揮重要作用的場景?
Christina V. Theodoris:從更廣泛的角度看,生物學的主要障礙之一是,要在溼實驗室實驗中測試所有天文數字的擾動,以發現網路調節因子和治療靶點,這是不可行的,而且成本過高。人工智慧的主要前景之一是能夠以無偏見、資料驅動的方式有效地計算下游實驗的優先順序。此外,透過採用閉環方法,溼實驗室中優先考慮的下游實驗的資料可以向模型提供反饋,說明其預測在哪裡是正確的,在哪裡是錯誤的,從而不斷利用真實世界的資料改進模型的預測。
Quantitative Biology:在您文章的討論部分,你預測「隨著公開可用的轉錄組資料的數量不斷擴大,未來的模型在更大規模的語料庫上進行預訓練,可能會有機會在越來越有限的特定任務資料中實現更難以捉摸的任務的有意義的預測」,你能給一些可能屬於這一類的任務的例子嗎?
Christina V. Theodoris:我們在 2021 年 6 月對 Geneformer 進行了預訓練,從那時起,公共領域可用的單細胞轉錄組資料的數量和多樣性迅速增加。我們在 Geneformer 手稿中測試的最困難的任務之一是預測轉錄因子是否在短距離或長距離作用於其靶標。對於模型來說,僅使用轉錄組資料進行預測是一項特別困難的任務,而沒有關於基因組距離的資訊。然而,該模型能夠在一定程度上預測轉錄因子的這種高階屬性,而更傳統的機器學習方法則具有隨機預測。
隨著模型在更大量的資料上進行預訓練,它們可能會獲得更多的基礎知識,從而更好地預測基因的這些高階特徵。此外,Geneformer 能夠用少至 ∼800 個任務特定細胞來預測基因的網路中心性。隨著模型在更大規模的預訓練過程中獲得更多的基礎知識,這些任務可以用更少的任務特定細胞來完成,甚至可以在沒有微調資料的情況下透過零樣本學習來完成。
Quantitative Biology:您的實驗室在開發生物學 AI 模型時面臨哪些障礙?
Christina V. Theodoris:最大的障礙仍然是獲取足夠的 GPU 計算資源來訓練我們感興趣的模型型別,與工業界公司可用的資源相比,這是大多數學術機構面臨的問題。另一個主要障礙是統一儲存在公共領域的資料,這些資料格式極其多變,而且很多時候幾乎沒有關於資料之前如何處理或相關後設資料的資訊,例如樣本是來自健康人還是疾病患者等。隨著我們認識到 AI 在生物醫學研究中的前景,開發系統從而將資料結構化為 AI 就緒資料非常重要,這樣才能最大限度地利用全球投入到生物研究的鉅額資金。CELLxGENE 就是這樣一種資料庫,它允許基於應用程式程式設計介面 (API) 高效訪問大量單細胞資料,為其他型別的生物資料提供了一個效仿的例子。
Quantitative Biology:您的研究成果發表已經一年多了,您能否向我們簡要介紹一下您實驗室正在進行的研究,這些研究是基於 Geneformer 或其他大型細胞模型建立的或與之相關的嗎?如今,許多生物學家都對將人工智慧(尤其是大型模型)引入他們的研究感興趣,您對他們有什麼建議嗎?讓他們的工作更順利,或者他們可能需要注意的陷阱是什麼?
Christina V. Theodoris:我們的實驗室利用人工智慧和實驗基因組學來解決基因網路生物學的主要挑戰。我們實驗室的一部分專注於開發新的人工智慧模型,擴充套件我們的遷移學習方法,以解決新的方向,例如基因網路如何透過空間和時間影響細胞相互作用。我們實驗室的另一部分是應用這些模型來研究基因調控中尚未解答的基本問題,並確定人類疾病的網路校正療法。我們強調計算和實驗成員之間的密切合作,以促進閉環人工智慧和實驗基因組學策略,從而加速我們的發現。
在將 AI 融入生物研究方面,一個常見的陷阱是使用者將預設超引數應用於他們感興趣的所有任務,而超引數調整非常重要,並且可能是模型完全不學習或具有近乎完美的預測準確性之間的區別。其他建議包括確保資料在其他潛在混雜屬性之間保持平衡,並收集足夠的資料以按樣本/個體分成單獨的訓練、驗證和測試集,而不是對所有分割的所有條件的細胞進行子取樣。值得注意的是,如果使用驗證集來最佳化超引數,則使用單獨的保留測試集來確認最佳模型對未見資料的通用性。
Quantitative Biology:AI 和生物學領域都在快速發展,技術以前所未有的速度更新甚至革命。您如何看待 AI 在生物和醫學研究中的應用?
Christina V. Theodoris:這是 AI 和生物學領域極其激動人心的時刻。隨著當前大規模生物資料的蓬勃發展,我們現在正進入一個可以訓練大規模人工智慧模型以對生物學有基本瞭解的領域。隨著基礎模型方法被生物研究界採用,也有機會根據生物系統的獨特特徵推動人工智慧的創新,例如需要遵守限制物理上可能的蛋白質結構的物理定律等。
scGPT 訪談
Quantitative Biology:人們對大型細胞模型在生物學研究中的應用寄予厚望,但也有人懷疑大型模型的必要性。有人認為,LCM 在許多單細胞分析任務上的卓越效能也可以透過針對這些特定任務精心設計的方法實現,但這些方法在資料和計算成本方面可以更輕量。您對這種懷疑有何看法?
王波:毫無疑問,更簡單的模型可以進行最佳化,從而在特定任務的特定資料集上表現良好。LCM 可以彌補「小模型」方法的兩個侷限性。
首先,小模型的建模能力受到引數大小的限制。由於這一限制,大多數當前的分析方法嚴重依賴可變基因選擇或其他預處理步驟來減少輸入大小和異質性。另一方面,LCM 使用注意力來從整個基因組中捕獲基因水平的相互作用,從而呈現更完整的基因相互作用圖,這可能有助於更廣泛的假設生成。
其次,生物實驗的觀察結果很嘈雜。小型模型通常難以推廣到看不見的資料集或實驗條件,並且容易對手頭實驗的噪聲過度擬合。讓模型從大規模異構資料中學習細胞表徵有助於從噪聲中辨別生物訊號,從而呈現對潛在生物學的更公正的看法。
Quantitative Biology:當前的 LCM 都基於最初為 NLP 中的任務開發的基本 Transformer 結構。不同的 LCM 使用不同的方式採用基本結構以適用於生物資料。根據您在開發 scGPT 方面的經驗,將 LLM 用於 LCM 的主要挑戰是什麼?您是否認為有必要或有可能專門為生物資料和任務設計根本不同的結構?
王波:考慮到單細胞資料的非序列性質,我們在開發 scGPT 時面臨的關鍵挑戰是如何將 LLM 中使用的生成預訓練最好地適應 LCM。從高層次來看,自迴歸訓練和生成與捕獲基因相互作用的級聯並預測細胞對擾動的反應的想法一致。替代架構包括 BERT 和擴散模型,它們也值得在不假設序列的情況下進行探索。
Quantitative Biology:一些生物資訊學家表示,隨著大型模型的參與,與大多數研究都可以使用相對簡單的數學模型和基於較小資料的更簡單的演算法完成的「美好舊時代」相比,進行生物資訊學研究的成本激增。您是否同意這個觀點,或者您對計算資源較少的生物資訊學實驗室有什麼建議,關於他們如何從當前 AI 的進步中受益?
王波:我們的目標是開發有益於社群並協助生物學家日常工作的工具。具體來說,對於 scGPT,我們將模型託管在 scGPT Hub 上,生物學家可以透過上傳資料集來微調模型。在設計新模型時,考慮可訪問性非常重要,隨著我們進入 LCM 時代,我們設想生物學家將能夠輕鬆獲得更多基於雲的平臺,從而降低計算障礙。
Quantitative Biology:人工智慧和生物學領域都在快速發展,技術以前所未有的速度更新甚至革命。您如何看待人工智慧在生物和醫學研究中的應用?
王波:人工智慧是一種有價值的工具,它為生物學家提供了更多的建模能力,以模擬生物學中的複雜過程。臨床研究中的最新預測模型使醫院和診所的日常工作流程受益,提高了患者護理的標準。我們設想人工智慧以類似的方式融入生物研究,生物學家參與其中,幫助他們更有效、更高效地解決問題。
scFoundation 訪談
Quantitative Biology:社群中存在一些誤解,認為 LCM 只是將 Transformer 直接應用於單細胞資料。根據您的經驗,設計適用於細胞資料的模型的關鍵挑戰是什麼?scFoundation 與其他 LCM 的區別是什麼?
張學工:設計模型的關鍵挑戰在於處理 scRNA-seq 資料的高維性和高稀疏性特性,以及消除生物變異帶來的技術噪音。具體來說,當將每個細胞建模為一個句子,將每個基因表達值建模為一個單詞時,近 20,000 個蛋白質編碼基因使「句子」異常長,這是傳統 Transformer 難以處理的場景。至於技術噪音,不同技術和實驗室的 scRNA-seq 資料在測序讀取深度方面表現出很大的差異。
為了應對這些挑戰,scFoundation 採用了可擴充套件的基於 Transformer 的架構 xTrimoGene 和一種基於掩碼語言建模原理的新型讀取深度感知 (RDA) 預訓練任務。
xTrimoGene 架構具有一個嵌入模組,可將連續基因表達值轉換為可學習的高維向量而無需近似,並且具有非對稱編碼器-解碼器結構,該結構經過量身定製,可有效學習 20,000 個基因之間的關係,同時適應單細胞基因表達資料的高稀疏性。
在 RDA 建模中,任務是使用同一細胞內其他基因提供的上下文來預測細胞中的掩碼基因表達,無論這些基因表達是具有原始的還是降低的讀取深度。這種方法不僅可以捕獲基因-基因關係,還可以協調不同測序深度的細胞,具有 scFoundation 在其他 LCM 中的獨特設計。
Quantitative Biology:許多生物學家都渴望將 LCM 引入他們的專案,生物學家或生物資訊學家在工作中使用 scFoundation 的最典型方式是什麼?他們可以從這些應用中期待什麼好處?
張學工:為了研究將 scFoundation 等 LCM 整合到生物學研究中,將其應用分為兩大類很有幫助:細胞級任務和基因級任務。細胞級任務通常側重於識別細胞的特徵,例如細胞型別註釋或藥物敏感性預測。基因級任務更多地是瞭解基因之間的關係或預測基因表達的變化,例如透過基因網路推斷或基因擾動預測。
對於細胞級任務,scFoundation 的常見方法是利用模型的編碼器獲得讀取深度增強的嵌入。這些嵌入可以快速生成並應用於各種下游任務,在短短几分鐘內提供讀取深度增強的豐富細胞潛在表示,而無需大量計算資源或耗時的微調。此過程有效地將嵌入的生成與下游分析分離開來,為後續模型的應用提供了極大的靈活性。
對於基因級任務,典型的用法包括從模型的解碼器中提取基因嵌入。重要的是,scFoundation 為每個細胞內的所有基因提供上下文嵌入,從而能夠構建細胞特異性基因共表達網路。對於希望開發更復雜、更準確的演算法的使用者來說,此功能非常寶貴。例如,這些上下文嵌入可以作為擾動預測模型的輸入,從而提高其預測的準確性。這種雙重應用方法允許使用者利用 scFoundation 顯著推進他們的研究,無論是在效率方面還是在科學洞察力方面。
Quantitative Biology:一些生物資訊學家表示,隨著大型模型的參與,與大多數研究都可以使用相對簡單的數學模型和基於較小資料的更簡單的演算法進行相比,進行生物資訊學研究的成本激增。您是否同意這一觀點,或者您對計算資源較少的生物資訊學實驗室有什麼建議,告訴他們如何從當前 AI 的進步中受益?
張學工:我們完全理解人們對 LCM 和傳統生物資訊學方法之間的成本比較的擔憂。然而,我們認為這兩種方法不是競爭對手,而是互補的。例如,在我們的 scFoundation 工作中,我們證明了雖然 scFoundation 模型在針對特定任務進行微調時效能出色,但它也可以有效地與現有模型結合以提高整體效能。這種整合突出了將大規模基礎模型納入使用者工作流程的未來方向,從而減輕了訓練的繁重計算需求。
為了幫助計算資源有限的實驗室,我們提倡開源模型程式碼和權重,例如 scFoundation 和其它在 GitHub/Hugging Face Model Hub 上可用的 LCM。此外,我們還為 scFoundation 開發了線上 Web 服務和 API,允許使用者直接利用預訓練的嵌入執行後續任務。該 API 為各個實驗室提供了更易於訪問和實用的解決方案,無需針對特定資料集進行重新訓練或微調。
Quantitative Biology:在 NLP 領域,人們說他們觀察到一種「縮放定律」,即當涉及更多資料和更大模型時,模型的效能總是會提高。您在 LCM 上觀察到了同樣的定律嗎?有沒有辦法確定「合適的」模型規模?
張學工:確實,我們在工作中觀察到了與 NLP 中類似的縮放定律。我們用 3、10 和 1 億個引數對 scFoundation 模型進行了預訓練,並注意到模型準確預測掩蔽細胞基因表達的能力隨著規模的增加而增加。這表明更大的 scFoundation 模型可能會提供更高的預測效能,這表明我們尚未達到模型規模的上限。
確定「合適的」模型規模涉及幾個因素。首先,積累儘可能多的單細胞資料集對於有效擴充套件模型至關重要。我們在 xTrimoGene 論文中的發現證實,更大的資料集可以顯著提高效能。其次,模型架構本身至關重要;鑑於 LCM 與 NLP 相比具有獨特的損失函式和資料模式,設計保持縮放定律的預訓練模型至關重要。
解決這些因素後,就可以透過參考使用類似資料標記量訓練的 NLP 模型來衡量 LCM 的適當大小。最後,還必須考慮部署成本。由於我們仍處於 LCM 開發的起點,因此必須平衡使用者的成本影響和他們的期望。在 scFoundation 的情況下,我們努力最大化模型大小,同時確保它仍然可管理,例如可在單個 A100 GPU 上訓練並可在更常見的 GPU(如 RTX4090)上部署。這種方法有助於我們在計算能力和可訪問性之間保持平衡。
Quantitative Biology:鑑於 scFoundation 保留了所有用於訓練的基因,該模型是否可以擴充套件以包含多組學資料?這種擴充套件可能為深入瞭解細胞生物過程提供途徑。
張學工:整合多組學資料確實可以提供細胞狀態的整體視角。為了擴充套件 scFoundation 的功能以涵蓋多組學資料(例如 ATAC/RNA 整合),我們可以進行幾種可能的策略。一種可能的方法是設計利用基因表達和 ATAC-seq 資料的任務。例如,我們可以開發模型來根據 ATAC-seq 上下文預測基因表達值,反之亦然。具體而言,在預測 ATAC-seq 資訊時,我們可以透過合併針對從預訓練的 scFoundation 派生的每個基因上下文嵌入量身定製的附加 Transformer 塊來增強現有的 scFoundation 架構。然後,這些嵌入將由新的 Transformer 處理,以預測與特定基因區域相關的染色質可及性峰。考慮到可訪問峰的數量可能非常龐大,探索高階 Transformer 架構以有效處理資料可能是明智之舉。
Quantitative Biology:世界正在見證人工智慧領域的快速發展,即文字、影像、語音和影片等多模態資訊的高保真生成。您認為這些技術很快也會被應用於生物學研究嗎?
張學工:生成學習是當前大型 AI 模型中的一個重要正規化,在許多工中都取得了巨大的成功。在 scFoundation 成功的鼓舞下,我們開發了一個新模型 scMulan,它使用純生成正規化來學習細胞語言,包括基因表達資料和各種型別的後設資料。初步實驗已經證明了它在某些任務中的優勢,以及在有條件生成可以攜帶真實生物資訊的合成單細胞轉錄組資料方面的強大功能。它在進行虛擬細胞實驗方面表現出了巨大的潛力,例如在計算機中擾動和沿著生物事件軌跡生成細胞。
跨多種生物模態的資料學習和生成是許多實驗室正在研究的課題。我們相信,多媒體資料理解和生成的技術進步,必將提供解決方案或解決方案的提示。然而,很難預測這會在多久後取得成功。生物場景和多媒體場景的一個根本區別在於,人們擅長理解多媒體資料及其潛在含義,但還遠未真正理解許多模態中的生物資料及其潛在含義。這是一個值得探索的方向,但找到與當前技術、資料和知識可用性相容的可行角度至關重要。
關於 GeneCompass 的訪談
Quantitative Biology:與其他已釋出的 LCM 相比,GeneCompass 的一個獨特之處在於它使用來自人類和小鼠的資料進行訓練。您認為這種設定有什麼好處?有哪些下游任務只能用 GeneCompass 完成,而僅使用人類資料進行預訓練的 LCM 無法完成?
李鑫&楊戈:正如背景中提到的,大量單細胞資料對於預訓練 LCM 至關重要。人們認為,多樣性更高、容量更大的資料可以實現更好的效能。與僅使用人類資料進行預訓練的 LCM 相比,GeneCompass 是使用最多資料進行預訓練的 LCM,超過 1.2 億個細胞,這使得它在幾個下游任務上的表現優於一些早期的 LCM。其內在的生物學原理是人類和小鼠之間的 GRN 保守性。透過同源基因對映,一個物種中學習到的潛在基因關係將轉移到另一個物種,這對於需要 ChIP-seq 資料的下游任務至關重要。如果只在人類資料上,跨物種細胞型別註釋是無法完成的下游任務之一。
基於預訓練的 GeneCompass,我們利用小鼠細胞型別作為參考,在來自四個不同器官(視網膜、大腦、胰腺和睪丸)的七對資料集上註釋人類細胞。與 CAME 相比,在視網膜上觀察到 7.5% 的改進,表明 GeneCompass 可以與領先的專業跨物種細胞註釋工具相媲美,甚至超越它。
Quantitative Biology:GeneCompass 的一個新功能是將知識整合到基因建模中。許多人認為,在設計 AI 系統時整合資料和知識是複雜生物任務的未來解決方案。您能否根據自己的實踐,就這個主題的可能策略或方法發表見解?
李鑫&楊戈:大多數現有的 LCM 僅透過自監督學習正規化由資料驅動。引入累積的先驗知識可以補充訓練資料可能不包含的生命資訊。知識整合策略應根據知識型別而變化。對於 GeneCompass,我們整合了四種型別的知識,包括啟動子序列、基因家族、GRN 和共表達關係,方法是將每種知識編碼到嵌入向量中,並將它們與單細胞轉錄組的嵌入連線起來。這是一種輸入級的整合策略。此外,還有一些其他策略,例如知識引導的預訓練任務和知識監督損失。最佳策略仍然是正在進行的研究領域,也將是我們未來工作的重點。
Quantitative Biology:當您為跨物種資料構建模型時,GeneCompass 模型及其預訓練方法的開發面臨的關鍵挑戰是什麼?
李鑫&楊戈:開發跨物種 LCM 的關鍵挑戰是如何整合來自人類和小鼠的單細胞資料,它們的基因彼此不同。連線它們的基因列表可能是一種簡單易行的解決方案,但不能利用基因保守性。超長的基因列表需要更多的計算能力和記憶體空間。為了解決這個問題,我們設計了一種同源比對策略,根據同源關係在人類和小鼠之間對映基因。同源基因將在我們的基因列表中共享相同的基因 ID。此外,我們將人類和小鼠的先驗知識編碼到統一的表示空間中,以確保跨物種的語義一致性。我們比較同源基因嵌入相似性與非同源基因嵌入相似性的實驗結果驗證了該策略的有效性。
Quantitative Biology:您的工作包括識別關鍵轉錄因子的例子。由於大多數可用的單細胞資料都是獲取樣本時基因表達的靜態快照,您認為 LCM 如何有助於理解動態細胞過程(例如細胞狀態轉變)並識別可能驅動此類過程的關鍵因素?
李鑫&楊戈:與一般 NLP 領域的 LLM 一樣,預訓練 LCM 的基本理念是,對從各種來源收集的各種資料集進行大量訓練有助於模型學習對細胞、環境和生命的廣泛理解。雖然大多數可用的單細胞資料都是靜態快照,但廣泛的預訓練資料涵蓋了細胞轉變的不同階段。根據預訓練的 LCM,相似的細胞狀態資料在編碼的嵌入空間中具有很強的相似性,這將有助於理解動態細胞過程。
為了確定關鍵因素,我們進行了計算機基因擾動,以過度表達或敲除基因到一定的表達水平。透過對比擾動細胞與原細胞和靶細胞的相似度,可以識別出潛在的關鍵因子。我們的實驗結果和 Geneformer 的結果都驗證了該方法的有效性。我們的溼實驗結果也證明了所識別的關鍵因子的部分功能。這對於發現關鍵的細胞命運調控因子和候選藥物靶點具有重要意義。
Quantitative Biology:人工智慧和生物學領域都在快速發展,技術以前所未有的速度更新甚至革命。您如何看待人工智慧在生物和醫學研究中的應用?
李鑫&楊戈:我相信人工智慧與生命科學的交叉學科將推動生物和醫學研究的重大突破。特別是隨著基礎模型的出現,LCM 可以很好地推廣到新的、未見過的任務,而無需特定的面向任務的訓練或使用相對較小的資料集進行微調,使其成為一系列下游應用的萬能工具。
一方面,使用 LCM 將大大減少與生物和醫學研究相關的時間和經濟成本。越來越多的體內和體外實驗將透過 LCM 進行模擬,這將有助於提高傳統溼實驗任務(如藥物發現、蛋白質結構設計等)的成功率。另一方面,已經出現了不同生命過程水平的 AI 模型,例如轉錄組水平的 LCM、蛋白質水平的 AlphaFold 和 ESMFold,以及 DNA 水平的 EVO。還有多模態 LLM 可用於理解醫學影像等表型資料。我相信將會有一個統一的模型來整合生物學並模擬中心法則,從而建立所有生命體基因型和表型之間的複雜關係。
結束語
這些 LCM 在許多下游生物學任務中取得了巨大成功,但整個領域仍處於早期發展階段。現在問什麼是單細胞轉錄組學資料的最佳或收斂模型結構還為時過早。
幾位 LCM 作者分享了他們針對生物物件開發和採用基於 Transformer 的 AI 模型的關鍵技術挑戰的策略和考慮,這是很有價值的,例如將複雜的單細胞資料轉換為 AI 相容的格式、處理高維和稀疏性,以及在有限的資料和資源下最佳化模型效能。
他們還分享了模型開發和最佳化的策略,包括將通用預訓練技術應用於非序列單細胞資料,以及設計能夠從噪聲中辨別生物訊號的模型。還包括對下游使用者計算資源挑戰以及開發雲平臺,使大型 AI 模型更易於生物學家使用。作者還提供了他們的觀點和建議,以便在未來的生物學研究中更好地使用 LCM。
與 NLP 和計算機視覺中的 AI 領域相比,生物學領域缺乏用於開發機器學習技術的系統基準資料集、任務和測量。每項研究都有自己的資料,並設計自己的實驗來測試他們的模型和演算法,並展示他們的方法的有用性。這種情況不利於該領域的健康發展。
生物學是複雜的,我們不能夢想任何技術能夠突然回答所有主要的生物學問題,即使該技術已經在許多其他領域被證明是成功的。建立一個系統的多層次的測試場,用於開發、評估和選擇適合生物學問題性質的技術,是生命科學人工智慧研究的一個關鍵,但尚未得到充分研究的課題。