預測精度媲美實驗!哥大團隊開發可解釋細胞「基礎」模型,揭示213種人類細胞調控語法

ScienceAI發表於2025-01-21

圖片

編輯 | 蘿蔔皮

轉錄調控涉及調控序列和蛋白質之間的複雜相互作用,指導所有生物過程。轉錄計算模型缺乏通用性,無法準確推斷未知的細胞型別和條件。

哥倫比亞大學的研究人員介紹了 GET(general expression transformer),這是一種可解釋的基礎模型,旨在揭示 213 種人類胎兒和成人細胞型別的調控語法。

GET 完全依賴染色質可及性資料和序列資訊,即使在以前未見過的細胞型別中,也能達到實驗級的準確度,預測基因表達。

GET 還在新的測序平臺和檢測中表現出顯著的適應性,能夠對廣泛的細胞型別和條件進行調控推斷,並揭示通用和細胞型別特異性的轉錄因子相互作用網路。

該研究以「A foundation model of transcription across human cell types」為題,於 2025 年 1 月 8 日釋出在《Nature》。

圖片

「預測性可推廣的計算模型可以快速準確地揭示生物過程。這些方法可以有效地進行大規模計算實驗,促進和指導傳統的實驗方法。」系統生物學教授、論文的通訊作者 Raul Rabadan 說。

傳統的生物學研究方法擅長揭示細胞如何工作或如何對干擾作出反應。但它們無法預測細胞如何工作或細胞如何對變化作出反應,例如致癌突變。

「能夠準確預測細胞活動將改變我們對基本生物過程的理解。」Rabadan 說,「它將使生物學從一門描述看似隨機的過程的科學轉變為一門能夠預測控制細胞行為的根本系統的科學。」

「以前的模型都是針對特定細胞型別的資料進行訓練的,通常是癌細胞系或其他與正常細胞幾乎沒有相似之處的細胞。」Rabadan 說。

Rabadan 實驗室的研究生 Xi Fu 決定採取不同的方法,利用從正常人體組織中獲得的數百萬個細胞的基因表達資料來訓練機器學習模型。輸入包括基因組序列和顯示基因組哪些部分可訪問和表達的資料。

基於這些想法,他們研發了 GET,這是一種最先進的基礎模型,專門設計用於解釋控制多種人類細胞型別的轉錄調控機制。透過整合染色質可及性資料和基因組序列資訊,GET 實現了與遺漏細胞型別中的實驗重複相當的預測精度水平。

總體方法與 ChatGPT 等流行的「基礎」模型的工作方式類似,使用一組訓練資料來識別底層規則,即語言的語法,然後將這些推斷出的規則應用於新情況。

「這裡完全相同的事情:我們在許多不同的細胞狀態下學習語法,然後我們進入一種特定的狀態 - 它可能是患病的[細胞型別],也可能是正常的細胞型別 - 我們可以嘗試看看我們如何根據這些資訊預測模式。」Rabadan 說。

圖片

圖示:GET 模型及其應用。(來源:論文)

GET 從 213 種人類胎兒和成人細胞型別的染色質可及性資料中學習轉錄調控語法,並準確預測可見和不可見細胞型別中的基因表達。

此外,GET 提供報告基因檢測讀數的零樣本預測,在識別順式調控元件方面優於以前最先進的模型,並識別以前未知和已知的胎兒血紅蛋白上游調節劑。

圖片

圖示:GET 通知 TF–TF 互動發現。(來源:論文)

GET 還提供了豐富的細胞型別特異性調控見解:利用 GET 預測的共調節資訊,研究人員精確定位了潛在的基序-基序相互作用,並構建了人類 TF 和輔啟用因子的結構相互作用目錄。

目錄連結:https://huggingface.co/spaces/get-foundation/getdemo

利用此目錄,研究人員確定了涉及 PAX5 和核受體家族 TF 的淋巴細胞特異性 TF-TF 相互作用,並強調了白血病相關生殖系變異的可能疾病驅動機制,該機制影響 PAX5 無序區域與核受體域的結合。

當然 GET 還存在一些侷限性。GET 目前的侷限性包括主要依賴於染色質可及性資料、有界解析度來區分具有非常相似基序的 TF 同源物,以及僅對粗粒度細胞狀態和區域級序列資訊進行訓練。

GET 未來的增強可能涉及整合多層生物資訊,包括但不限於核苷酸水平的調節足跡、三維染色質結構以及調節表達譜或單細胞嵌入。

GET 的未來迭代可以整合更多患病、受干擾或經過處理的細胞狀態和更廣泛的檢測,包括直接測量 TF 結合、組蛋白修飾和 PolII 活性的檢測,以提供對監管格局的更全面的瞭解。

圖片

圖示:GET 識別受癌症相關種系變異影響的細胞型別特異性 TF-TF 相互作用。(來源:論文)

多路複用核苷酸水平擾動或隨機化將有助於校準 GET,以精確預測非編碼遺傳變異的功能影響。確定非編碼變異在調節基因表達和疾病易感性方面的影響仍然是一個重要的探索領域。

將基因組變異整合到 GET 框架中將使研究人員能夠更準確地預測它們對基因調控的影響,從而深入瞭解複雜性狀和疾病的遺傳基礎。

此外,基因調控動力學反映了轉錄活性在發育線索或環境刺激下的時間變化,這是可以整合到模型中的另一個複雜性維度。

藉助團隊高效的微調框架,使用預訓練和微調的 GET 進行比較解釋分析可用於識別驅動細胞狀態變化的重要調節區域或基序。

基於 GET 構建的生成模型可以開發並用於設計兆鹼基級增強子陣列,並設計細胞型別特異性 TF 或其相互作用抑制劑,以進行有針對性的治療干預。

總的來說,GET 代表了細胞型別特異性轉錄建模的一種先驅方法,在調節元件、上游調節劑和 TF 相互作用的識別方面具有廣泛的適用性。

論文連結:https://www.nature.com/articles/s41586-024-08391-z

相關報導:https://phys.org/news/2025-01-biologists-ai-cells.html

相關文章