從概念到應用,清華團隊開發DeepTFBU工具包助力基因表達精準調控

ScienceAI發表於2025-02-21
圖片

編輯 | 蘿蔔皮

增強子透過與轉錄因子 (TF) 相互作用,在各種生物過程中充當基因表達的關鍵調節器。雖然轉錄因子結合位點 (TFBS) 被廣泛認為是 TF 結合和增強子活性的關鍵決定因素,但其周圍背景序列的重要作用仍有待定量表徵。

清華大學的研究團隊提出了轉錄因子結合單元(transcription factor binding unit,TFBU)概念,透過使用深度學習模型量化 TFBS 周圍上下文序列的影響,模組化地建模增強子。

基於這一概念,研究人員開發了 DeepTFBU,這是一個用於增強子設計的綜合工具包。

該團隊證明設計 TFBS 上下文序列可以顯著調節增強子活性併產生細胞型別特異性反應。DeepTFBU 在從頭設計包含多個 TFBS 的增強子方面也非常高效。此外,DeepTFBU 可以靈活地解耦和最佳化廣義增強子。

該研究以「Modeling and designing enhancers by introducing and harnessing transcription factor binding units」為題,於 2025 年 2 月 8 日釋出在《Nature Communications》。

圖片

相關背景

精確調控基因表達在發育和分化等複雜生物過程中至關重要。這種調控的核心是轉錄因子 (TF) 與增強子的結合。解讀增強子的活性有助於深入瞭解基因調控的基本原理,並有助於設計合成增強子以在基因工程和基因治療應用中操縱基因表達。

傳統上,轉錄因子結合位點(TFBS),特別是通常為 5 至 20 個鹼基對的 TF 結合基序,被認為是 TF 與增強子結合的關鍵決定因素。研究表明,在 DNA 序列中排列多個 TFBS 可以提高其作為增強子的功能。TFBS 的方向和序列順序也會顯著影響增強子活性。利用這些特性,操縱 DNA 序列上的 TFBS 排列和組合被廣泛用於設計合成增強子。

TFBU 概念

在最新的研究中,研究人員提出了轉錄因子結合單元(TFBU)的概念,用於模組化增強子建模和設計。TFBU 概念整合了核心 TFBS 及其周圍上下文序列(TFBS-context)的作用。

這種整合使得定量評估長 DNA 序列結合目標 TF 和驅動特定細胞型別中的轉錄(增強子活性)的潛力成為可能。利用深度學習模型,研究人員從染色質免疫沉澱測序 (ChIP-seq) 資料中確定了影響 TF 結合的 TFBS 環境中的關鍵模式。這些模型有助於合理設計具有所需功能的合成增強子,將特定 TF 的設計範圍從核心 TFBS 擴充套件到整個增強子序列。

DeepTFBU 工具包

圖片

圖示:基於 TFBU 構建 TFBS-上下文模型及下游任務的過程。(來源:論文)

基於 TFBS 上下文模型,該團隊開發了一系列增強子設計方法,並將它們整合到名為 DeepTFBU 的工具包中。

該研究中,基於大規模並行報告基因檢測 (MPRA) 實驗的限制和模型效能,TFBU 的典型長度被設定為 168 個鹼基對。每個 TFBU 由兩部分組成:核心 TFBS 及其上下文序列(表示為 TFBS-context)。

為了評估 TFBU 的繫結效果,研究人員分別量化了特定 TF 的兩個部分的匹配分數。核心 TFBS 的匹配分數是使用位置機率矩陣直接計算的。與核心 TFBS 不同,TFBS 上下文包含無法直接量化的複雜和隱式特徵。為了解決這個問題,我研究人員採用深度學習模型來提取人類基因組中 TFBS 上下文的 TF 特定偏好,從而獲得 TFBS 上下文匹配分數。

測試與應用

研究人員測量了 DeepTFBU 設計的超過 36,000 個序列的增強子活性,用於驗證在各種情況下的增強子建模和設計策略。結果表明,功能性 TFBS 上下文的序列模式可以特定於 TF 和細胞型別。

設計 TFBU 內的上下文序列可以顯著調節大多數 TFs(82.9%,97/117)的增強子活性。對於單個 TFBU,這樣的設計可以在不引入其他明顯 TFBS 的情況下實現平均 20 倍以上的增強子活性增加。

圖片

圖示:MPRA 實驗表明 TFBS 環境顯著影響增強子活性。(來源:論文)

它還可以產生高達 60 倍的細胞型別特異性增強子活性。此外,基於 TFBU 的策略可以擴充套件到包含多個 TFBS 的增強子的從頭設計。並且,設計上下文序列可以將包含串聯重複 TFBS 的典型合成增強子的活性提高 30 倍以上。

研究人員還提出了一個靈活且通用的增強子最佳化框架,將增強子效應分解到各個 TFBU 中。利用這個框架,他們僅用少量突變就將鉅細胞病毒 (CMV) 增強子的活性提高了 60%。

圖片
圖示:將增強子效應分解為單個 TFBU 效應的組合,並用基於 TFBU 的框架最佳化現有的強增強子。(來源:論文)

這表明增強子序列可以模組化為 TFBU,並以直觀易懂和模組化自下而上的方式使用 TFBU 進行重新設計。所有這些結果證明 TFBU 是增強子建模和設計的關鍵概念,而 DeepTFBU 是合理設計增強子的強大工具包。

結語

該團隊之前的工作中,研究人員利用深度學習模型 DeepSEED 提取的天然增強子的共同特徵,透過在 TFBS 之間設計序列成功地提升了增強子的活性。該方法適用於提供靶基因調控元件一般模式資訊的序列資料。

在這項工作中,研究人員強調了 TF 特異性和細胞型別特異性偏好對核心 TFBS 周圍上下文序列的影響。

這使得對核心 TFBS 之外的序列進行詳細而精確的建模成為可能,並且可以在大量公開資料的支援下作為增強子的通用基本特徵。該方法還可以精確設計針對特定 TF 和細胞型別的基因調控元件。

在未來的研究中,透過利用更多有關 TFs 和 TFBU 特性的資訊,研究人員可以構建更詳細、更全面的 TFBU 系統,從而促進基於 TFBU 的更精確的 DNA 序列建模和調控元件設計。

論文連結:https://www.nature.com/articles/s41467-025-56749-2

相關文章