作者 | 中國科學院多學科交叉研究團隊
編輯 | ScienceAI
近年來,大語言模型(LLMs)已在自然語言、計算機視覺等通用領域引發了新一輪技術革命,透過大規模語料和模型引數進行預訓練,LLMs能夠掌握語言的共性規律,能夠對多種下游任務產生質的提升,已經形成了新的人工智慧正規化。
在生命科學領域,單細胞組學技術的突破產生了大量不同物種細胞的基因表達譜資料,形成了海量的生命「語料」。如果把基因表達值看作單詞,組合在一起構成細胞「句子」,進而形成組織「段落」和器官「文章」,並將不同物種作為生命「語種」,利用LLMs相關技術有望構建系統精準破解基因密碼的生命基礎大模型,探索生命普遍存在的非線性基因調控機制,增進理解生命底層共性規律並創新各種重大疾病的診療手段。
對此,中國科學院多個院所(包括中國科學院動物研究所、中國科學院計算技術研究所、中國科學院計算機網路資訊中心、中國科學院自動化研究所、中國科學院數學與系統科學研究院等)組成多學科交叉研究團隊「指南針聯盟」(Xcompass Consortium),在生命科學人工智慧(AI for Life Science)研究方面取得了重要突破,於2024年10月在Cell Research上發表了《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with a Knowledge-Informed Cross-Species Foundation Model》的研究論文。
論文介紹了世界首個知識與資料聯合驅動的多物種生命基礎大模型GeneCompass,同時處理了人類和小鼠兩個物種的轉錄組資料,包含了超過1.26億個單細胞並覆蓋3.6萬個基因,融合了啟動子序列、基因共表達關係、基因家族標註和基因調控關係等四種先驗知識,基礎大模型引數量達到1.3億,實現了對基因表達調控規律的全景式學習理解,同時支援細胞狀態變化預測及多種生命過程的精準分析,展示了人工智慧賦能生命科學研究的巨大潛力。
資料集:多物種單細胞資料集
目前,全世界範圍內在單一物種上已獲得的單細胞轉錄組資料規模為千萬級別,研究團隊從美國(NCBI)、歐洲(EMBL-EBI)和中國(CNCB)等公開資料中收集了不同物種的單細胞轉錄組資料,人類和小鼠的同源基因採用相同的Ensembl ID表示,非同源基因則採用各自的Ensembl ID。經過篩選、清洗、均一化等預處理流程,建立了已知最大規模、包含人類和小鼠的超過1.26億細胞、覆蓋兩個物種3.6萬個基因、幾乎全部已知細胞型別的高質量資料集scCompass-126M。
模型架構:知識嵌入的生命基礎大模型GeneCompass
研究人員開發的GeneCompass模型引數量超過1.3億,是國際上首個融入先驗知識的預訓練基礎大模型,探索了知識與資料聯合驅動的新正規化。GeneCompass採用gene2vec、DNABert等工具將啟動子序列、已知基因調控網路、基因家族資訊和基因共表達關係四種生物學先驗知識進行編碼,在單細胞轉錄組的基因ID和表達值基礎上加入人類註釋資訊編碼,提高了對生物資料間複雜特徵關聯關係的理解。透過訓練整合不同物種的資料資訊及先驗知識,GeneCompass顯著提升了多種下游任務的效能,有望進一步提高傳統生物學研究的效率和精準性,為尚無法突破的複雜生命科學難題帶來新的切入點。
GeneCompass採用基於Transformer的深度學習架構,擴充套件傳統的掩碼語言模型Masked Auto Encoder(MAE)方式進行預訓練,根據單細胞轉錄組的上下文同時預測掩碼的基因及其基因表達,捕獲不同基因之間在不同細胞背景下的長程動態關聯,透過多工聯合預訓練形成更加細粒度的生命基礎大模型。預訓練完成後,GeneCompass進一步應用於多種下游任務,用於對單細胞轉錄組資料進行編碼,支撐細胞型別標註、基因擾動預測、藥物反應預測和基因調控關係預測等任務。
規模效應:多物種聯合訓練捕獲生物進化保守規律
研究人員發現對大規模跨物種資料所獲得的預訓練模型對於單物種的子任務符合尺度定律(scaling law):即較大規模的多物種預訓練資料量較單一物種資料量產生更優異的預訓練表徵,並進一步提高下游任務的效能。這一發現顯示了物種間存在保守的基因調控規律,並且這些規律能夠被預訓練模型學習理解。這同時預示著隨物種和資料的擴充套件,模型效能有望不斷提升。
研究結果:GeneCompass具有跨物種表徵能力
研究人員對人類和小鼠同一細胞型別(心肌細胞)中同源基因和非同源基因的GeneCompass編碼進行了相似性分析,可以看出相較於非同源基因,不同物種的同源基因具有更相似的編碼,同源基因在人類和小鼠之間也具有相似的基因調控關係。
研究人員將GeneCompass編碼後的基因嵌入與跨物種細胞型別標註的SOTA方法CAME進行結合,發現在多種細胞尤其是視網膜細胞中,GeneCompass能夠顯著提升跨物種細胞型別標註的精度。這些結果都展示了GeneCompass透過多物種聯合預訓練獲得了生命底層的共性規律,增強了基因表徵的能力。
下游任務:基因擾動預測任務
研究人員利用GeneCompass編碼的基因嵌入來預測由基因擾動所導致的全域性基因表達變化,將其與現有工作GEARS結合起來,替換了原始從共表達知識圖譜中學習到的基因嵌入。在前20個差異表達基因(DEG)的均方誤差(MSE)平均降低了15.4%,使單基因擾動的偏差減少了5.9%,雙基因擾動的偏差減少了12.5%。下圖展示了雙基因擾動TGFBR2+PRTG前20個基因表達變化, GeneCompass 的17/20 DEG預測結果比GEARS 的預測結果更準確。
下游任務:藥物反應預測、基因調控預測、藥物劑量反應預測、基因表達譜預測
GeneCompass作為生命基礎大模型,支援直接使用(zero-shot)和微調(fine-tune)兩種模式。基於此,研究人員在藥物反應預測、基因調控預測、藥物劑量反應預測、基因表達譜預測等多種下游任務上進行了充分實驗,驗證了GeneCompass在不同任務中的適配性。實驗結果表明,GeneCompass 在不同下游任務中均可達到SOTA水平,相比於傳統生物學方法對生命底層規律具有更深的理解。
下游任務:細胞命運預測和關鍵基因篩選
由於基因及其表達值在自監督預訓練過程中同時被掩碼和重建,GeneCompass能夠捕捉複雜的調控機制,實現定量的模擬基因擾動。為了驗證這種能力,研究人員構建iPSC模擬誘導實驗,在人類成纖維細胞中模擬兩個水平的OSKM 基因(Oct4、Sox2、Klf4 和 c-Myc)過表達。透過對比細胞狀態嵌入的相似性可以看出,隨著過表達水平的提高,成纖維細胞逐漸向iPSC細胞發育。這與現有結論是一致的,說明GeneCompass具有用於細胞命運預測的潛力。
此外,GeneCompass可透過模擬基因擾動分析預測細胞命運轉變中的關鍵調控因子,有望提高溼實驗的效率並揭示新機制。研究人員進行了人類ESC細胞向性腺細胞分化的實驗,利用GeneCompass在ESC細胞上開展廣泛的單基因模擬過表達。透過比較初始、模擬和目標細胞嵌入之間的餘弦相似度,研究人員確定了五個潛在基因,即 NR2F1、NR5A1、WT1、TCF21 和 GATA4。其中三個( WT1、NR5A1 和 NR2F1)已有研究成果驗證對小鼠體內性腺發育至關重要。進而,研究人員在 ESC 中分別過表達NR5A1和 GATA4,免疫熒光結果表明,在人類 ESC 中單獨過表達任一基因均可誘導性腺基因。
綜上所述,作為迄今為止最大規模的、具有知識嵌入的跨物種預訓練生命基礎大模型,GeneCompass可實現多個跨物種下游任務的遷移學習,並在細胞型別註釋、定量基因擾動預測、藥物敏感性分析等方面,相比已有方法取得更優效能。這充分展示了基於多物種無標註大資料預訓練,再利用不同子任務資料進行模型微調的策略優勢,有望成為實現基因-細胞特徵相關聯的各種生物問題分析預測的通用解決方案。
上述研究由「指南針聯盟」團隊完成,「指南針聯盟」團隊目前由北京幹細胞與再生醫學研究院/中國科學院動物研究所李鑫團隊聯合計算機網路資訊中心,自動化研究所,計算技術研究所,數學與系統科學研究院等組成,聯盟的目標是建立數智驅動的生命科學研究新正規化,解析生命的本質規律。
加入我們:
中國科學院動物研究所/中國科學院幹細胞與再生醫學創新研究院幹細胞微環境與細胞命運決定研究組(李鑫研究組)長期招聘博士後若干名,助理研究員1名,科研助理(行政崗)1名。實驗室將為申請人提供濃厚的學術氛圍、專注的科研環境和良好的合作平臺,並有機會參與國內外著名實驗室的合作專案,擴充學術視野,在學術界及工業界築造良好的職業前景基礎。
有意者請將相關材料以附件形式傳送到E-mail:xinli@ioz.ac.cn,抄送zhang_jie0115@163.com。郵件及附件名稱為:應聘崗位+個人姓名+最後學歷專業。
聯絡人及聯絡電話:李老師,010-64807060
張老師,18920027879(同微信)
歡迎來電或者郵件諮詢!