登Nature,AI設計DNA開關,MIT團隊實現精確的細胞控制

ScienceAI發表於2024-10-31
圖片

編輯 | 蘿蔔皮

近年來,基因編輯技術以及各種基因治療方法使科學家能夠改變活細胞內的基因。然而,隻影響特定細胞型別或組織中的基因,而不是影響整個生物體的基因,一直很困難。部分原因是人們對控制基因表達和抑制的 DNA 開關 [即順式調控元件 (CRE)] 的理解仍面臨挑戰。

傑克遜實驗室(JAX,The Jackson Laboratory)、麻省理工學院(MIT)和哈佛大學布羅德研究所以及耶魯大學的研究人員利用人工智慧設計了數千個新的 DNA 開關,可以精確控制基因在不同細胞型別中的表達。他們的新方法開啟了控制基因在體內何時何地表達的可能性,以前所未有的方式造福人類健康和醫學研究。

「這些合成設計的元素的特別之處在於,它們對其設計的目標細胞型別表現出了顯著的特異性。」傑克遜實驗室副教授兼論文共同通訊作者 Ryan Tewhey 博士說,「這為我們創造了機會,讓我們可以在不影響身體其他部位的情況下,僅在一種組織中提高或降低基因的表達。」

該研究以「Machine-guided design of cell-type-targeting cis-regulatory elements」為題,於 2024 年 10 月 23 日釋出在《Nature》。

圖片

論文連結:https://www.nature.com/articles/s41586-024-08070-z

順式調控元件 (CRE) 控制基因表達,協調組織身份、發育時間和刺激反應,這些共同決定了體內數千種獨特的細胞型別。雖然在需要組織特異性的治療或生物技術應用中戰略性地整合 CRE 具有巨大潛力,但不能保證自然產生出適合這些預期目的的最佳 CRE。

科學家們知道,人類基因組中有數千種不同的 CRE,每種都發揮著略有不同的作用。但 CRE 的語法一直很難弄清楚,「沒有簡單的規則來控制每個 CRE 的作用。」JAX Tewhey 實驗室的計算科學家,論文的第一作者之一 Rodrigo Castro 博士解釋說,「這限制了我們設計僅影響人體某些細胞型別的基因療法的能力。」

「如果我們從語言的角度來思考,這些元素的語法和句法就很難理解。因此,我們嘗試構建機器學習方法,以便學習比我們自己能學習的更復雜的程式碼。」

人工智慧來設計 CRE

Castro 所在的聯合研究團隊建立了 Malinois,這是一個深度卷積神經網路 (CNN),用於預測任何序列的細胞型別相關資訊 CRE 活性(透過 MPRA 測量)。

圖片

圖示:Malinois 能夠準確預測染色體外報告基因中 CRE 的轉錄啟用。(來源:論文)

在此基礎上,研究團隊提出了一種從頭設計新型合成 CRE 的方法 CODA,該 CRE 能夠在三種轉化細胞系中驅動細胞型別特異性轉基因表達。

「該專案本質上提出了一個問題:『我們能否學會讀取和編寫這些調控元件的程式碼?』」耶魯大學遺傳學助理教授、該研究的通訊作者之一 Steven Reilly 博士說。

圖片

圖示:CODA 有效地設計了特定於細胞型別的 CRE。(來源:論文)

研究人員透過整合之前在跨細胞型別建模調控語法、高效序列空間搜尋和可並行驗證數千個 CRE 的 MPRA 實驗系統方面的創新來實現這一目標。

研究人員使用了最近生成的統一處理的 MPRA 實驗資料庫,該資料庫表徵了前所未有的數量的 CRE,以訓練精確的深度學習模型,該模型可以快速預測任何序列的活動。

「天然的 CRE 雖然數量眾多,但只代表了可能的遺傳元素的一小部分,而且它們的功能受到自然選擇的限制。」該研究的共同第一作者、Sabeti 實驗室的博士後研究員 Sager Gosai 博士說,「這些人工智慧工具在設計基因開關方面具有巨大潛力,可以精確調整基因表達,以實現生物製造和治療等超出進化壓力範圍的新應用。」

三種細胞系中測試

結合序列生成演算法,研究人員部署他們的模型在三種細胞系中生成具有程式特異性的數千種合成 CRE,並使用 MPRA 在體外對其進行功能驗證,並透過探測小鼠和斑馬魚的生理相關組織在體內對其進行功能驗證。

在轉化細胞系中檢測的報告系統中,CODA 設計的合成序列在驅動細胞型別特異性基因表達方面確實優於天然序列。研究人員表明,CODA 可以識別出通常表現優於天然序列的合成序列,其效率遠高於隨機搜尋,但無法確定全域性最優值。

CODA 設計的合成 CRE 透過以獨特的組合部署靶向啟用和脫靶抑制 TF 來實現更高的特異性,而這種組合在人類基因組中並不常見。這說明該模型已經學習了控制 CRE 的基本規則的一部分,並且能夠將這些知識推廣到很少觀察到的 TF 組合。

使用 Malinois(CRE 轉錄輸出的直接模型),該團隊能夠識別具有中等細胞型別特異性活性的基因組序列,儘管程度低於合成序列。

圖片

圖示:解釋功能序列內容。(來源:論文)

需要注意的是,在該研究的轉化細胞系中,在識別基因組中能夠進行細胞型別特異性報告基因表達的序列方面,Malinois 比傳統的 CRE 活性標記(如 DNase 和 H3K27ac)更熟練。這強調了在生成用於訓練高效能模型的庫時,需要仔細考慮通常研究的候選 CRE 之外的序列。

體內評估

該團隊在體外建模、生成和測試特定於單個轉化細胞系的序列方面的高成功率,促使他們決定將評估這種活性如何擴充套件到體內複雜組織。儘管存在組織型別不完全保守、異時性和譜系特異性調控語法的潛在挑戰,但他們的 CRE 在斑馬魚和小鼠中表現出保守的組織水平跨物種活性。

圖片

圖示:合成元素的體內驗證。(來源:論文)

這些發現表明,體外開發的具有新功能的 CRE 可以在體內類似組織中保持特異性。研究人員透過單一轉化的 SK-N-SH 細胞系設計的神經元 synN1 CRE 在小鼠中表現出高度特異性的皮層下表達。

「合成的 CRE 在語義上與天然元素相差甚遠,因此對其有效性的預測似乎難以置信。」Gosai 說道,「我們最初預計許多序列會在活細胞內出現異常。」

但事實是「CODA 在設計這些元素方面表現得如此出色,這讓我們感到非常驚喜。」Castro 說。

侷限性與展望

接下來,需要進一步研究以制定最佳策略,將體外模型轉化為體內精確靶向。將人類細胞系與全生物實驗模型相結合的綜合框架可能是快速識別能夠在人類中實現新功能的 CRE 的有效方法。

轉基因應用(例如需要組織、細胞型別或患病細胞狀態特異性的基因療法)可能會受益於具有可程式設計功能的合成 CRE 的設計和驗證。在具有更高臨床相關性的其他細胞型別中對 MPRA 模型進行訓練可以使 CODA 更好地設計具有針對治療應用量身定製的特異性的 CRE。

隨著序列到功能模型的基礎技術不斷髮展,研究人員認為合成元件設計將變得更加可靠,並減少體外和體內驗證的實驗負擔。

該團隊表示,該平臺的設計可靈活適應任何目標函式。透過在未來將替代實驗平臺和模型與 CODA 相結合,研究者可以探索合成 CRE 的廣闊前景,以實現進化可能未最佳化的目標,包括藥物反應性(例如對糖皮質激素的反應性)、微調錶達輸出或響應癌細胞特有的複雜語法。

Tewhey 表示:「這項技術為編寫具有預定義功能的新調控元件鋪平了道路。此類工具不僅對基礎研究很有價值,而且可能具有重要的生物醫學意義,你可以使用這些元件來控制特定細胞型別中的基因表達,以達到治療目的。」

相關內容:https://phys.org/news/2024-10-ai-dna-flip-genes-precise.html

相關文章