編輯 | ScienceAI
只有蛋白質組才能從根本上闡釋生命。
3月20日,騰訊 AI Lab實驗室3篇蛋白質組論文相繼入選國際頂級學術期刊,論文分別在蛋白質組的檢測、分析以及探索發現方面提出全新的研究方案,為人類從根本上闡釋生命提供重要技術參考。
科學界曾經認為,只要繪製出人類基因組序列圖,就能瞭解疾病的根源,但事實並非如此。相同的基因往往有不同的表達,比如,人體不同組織器官的基因組是一樣的,但是各個組織器官的蛋白質組不完全一樣。人和鼠的基因組的差別僅為1%,但是其形態、性狀差別非常大,這就是蛋白質組不一樣的體現。
中國科學院院士賀福初有一個比喻:基因組和蛋白質組的關係就像詞典與文章、元素表與化工廠。基因組學中微小的差異,在蛋白質組學中可以被千倍甚至近萬倍地放大。因此,要真正闡釋生命,必須從蛋白質組中尋找答案。
蛋白質組學是指大規模地對蛋白質的表達水平、翻譯後修飾、蛋白質相互作用等進行研究。 針對蛋白質組的研究不僅可以全景式地揭示生命活動的分子本質,還能闡明生命在生理或病理條件下的變化機制。蛋白組學測序技術發展迅速,相應的資料分析計算方法也方興未艾。對此騰訊AI Lab從資料庫、AI建模和AI輔助臨床分析三個角度,透過AI技術助力蛋白組學研究。
首次推出世界資料量最大單細胞蛋白組資料庫
目前針對蛋白質組學的研究已經深入到單細胞級別,雖然單細胞蛋白質組學能夠直接在單細胞水平上測定蛋白質含量,提供了超越單純從轉錄組分析所能推斷的關於細胞表型的寶貴洞見。然而,缺乏足夠的大規模整合資料庫,阻礙了研究人員獲取和探索單細胞蛋白質組資料,阻礙了這一領域的進步。
為了填補這一不足,騰訊 AI Lab提供了一個綜合性的資料庫,即單細胞蛋白質組資料庫SPDB(https://scproteomicsdb.com/),該資料庫詳細展示了單細胞蛋白質組資料,當前版本包括133個基於抗體的單細胞蛋白質組資料集,涉及超過3億個細胞和超過800個標記/表面蛋白質,以及10個基於質譜的單細胞蛋白質組資料集,涉及超過4000個細胞和超過7000種蛋白質。
SPDB目前已經成為世界上資料量最大,覆蓋技術和資料集最為廣泛的單細胞蛋白組知識庫,標準化的資料處理和使用者友好的網路介面,基於資料集級別和蛋白質級別的資料搜尋和探索功能,為人類探索蛋白質組學的詳細洞見,提供了重要的資料參考。
該技術可以供生命科學工作者和醫生對世界上最全的單細胞蛋白組進行資料探索,也可以供生物資訊和AI科學家對單細胞蛋白組提供更多的演算法和工具,從而促進該領域的科學新發現和工具開發。本論文《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》也因此入選生物資訊學領域資料庫方面專業期刊Nucleic Acids Research。
全新的多功能演算法,提升單細胞蛋白質組測序分析準確率
和基因檢測類似,要研究蛋白質組,需要精準的檢測技術。目前蛋白組學檢測技術已經發展至單細胞解析度。單細胞蛋白質組學測序技術,為揭示細胞中蛋白質-蛋白質相互作用、翻譯後修飾和蛋白質形態動態的研究帶來了新的啟示。然而,肽段定量的不確定性、資料缺失、嚴重的批次效應和高噪聲,阻礙了單細胞蛋白質組資料的準確分析和使用。
騰訊AI Lab研究人員提出了一種新穎的多功能演算法scPROTEIN,它由基於多工異方差迴歸模型的肽段不確定性估計,以及基於圖對比學習設計的單細胞蛋白質組資料分析的細胞嵌入學習組成。scPROTEIN在一個統一的框架中估計了肽段定量的不確定性,去噪了蛋白質資料,消除了批次效應,並編碼了單細胞蛋白質組特異性嵌入。該方法為首個針對單細胞蛋白組表徵的框架,創造性解決了單細胞蛋白組學資料的特殊挑戰。
隨著單細胞蛋白組檢測技術在生命科學和精準醫療領域的普及,該方法可以作為資料處理中重要的步驟,為基於單細胞蛋白組的腫瘤發生發展機制研究、藥物靶點發現和腫瘤早篩和微環境研究提供重要的AI輔助作用。基於這項技術的《scPROTEIN:A Versatile Deep Graph Contrastive Learning Framework for Single-cell Proteomics Embedding》論文也入選Nature旗下方法學專業期刊Nature Methods。
(圖片來源:https://www.nature.com/articles/s41592-024-02214-9)
全新的反摺積方法,助力腫瘤輔診和預後分析
同樣入選Nature旗下專業期刊Nature Machine Intelligence的還有《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,這篇論文從更為宏觀的角度來分析特定組織中不同細胞型別的比例。例如,常用於分析腫瘤組織樣本中不同細胞型別,該方法已經廣泛適用於腫瘤微環境解釋和臨床診斷/分類等領域。
過去蛋白組學研究產生大量的資料,這些資料是組織中所有細胞的平均值,難以直接反映不同型別細胞的比例,而細胞比例對於腫瘤微環境分析較為重要。對此,騰訊AI Lab研究人員以單細胞蛋白組為參考,基於AI方法對現有的組織蛋白組資料進行反摺積(一種數學方法),從組織蛋白質組資料中挖掘出細胞型別比例這一新資訊,應用大量現有的蛋白組資料,獲取其中的腫瘤微環境資訊,助力腫瘤輔診和預後分析。
這種專為組織蛋白質組資料設計的基於深度學習的反摺積方法(scpDeconv),使用自動編碼器利用整體蛋白質組資料的資訊,從而提高單細胞蛋白質組資料的質量,並採用領域對抗模型來連線單細胞和整體資料分佈,將標籤從單細胞資料遷移到整體資料。大量實驗驗證了scpDeconv在反摺積來自不同物種/來源和不同蛋白質組技術產生的蛋白質組資料方面的效能。該方法是首個針對蛋白組進行反摺積的演算法,解決了蛋白組獨特的資料挑戰。
上述三篇論文分別展示了騰訊AI Lab為解決蛋白組學中資料庫、AI建模和AI輔助臨床分析問題而進行的一系列探索,為高效精準分析蛋白組資料、理解腫瘤微環境和發現生物學新機制打下堅實基礎。
騰訊AI Lab在AI for Science特別是生命科學領域深耕數年,具有豐富的知識和技術積累,研究領域包括單細胞多組學、蛋白質結構設計、蛋白質摺疊、AI製藥、空間組學和免疫組庫等,已發表scBERT和獼猴大腦圖譜等研究成果。騰訊AI Lab成立於2016年,實驗室強調研究與應用並重發展,以“學術有影響,工業有產出”為目標,基於紮實的學術研究,將AI能力運用在遊戲、內容、虛擬人以及醫療、醫藥、基因計算等多個場景中。
論文連結:
參考文獻