編輯 | 蘿蔔皮
設計功能更佳的蛋白質需要深入瞭解序列和功能之間的關係,這是一個難以探索的廣闊空間。透過識別功能上重要的特徵來有效壓縮這一空間的能力極其寶貴。
清華大學的研究團隊建立了一種稱為 EvoScan 的方法,用於全面分割和掃描高適應度序列空間,以獲得能夠捕捉其基本特徵(尤其是在高維度中)的錨點。
該方法適用於任何能夠與轉錄輸出耦合的生物分子功能研究。
然後,研究人員開發深度學習和大型語言模型,以從這些錨點準確地重建空間,從而無需先前的同源性或結構資訊即可計算預測新的、高度擬合的序列。
他們將這種混合實驗計算方法(稱為 EvoAI)應用於阻遏蛋白,發現僅 82 個錨點就足以壓縮高適應度序列空間,壓縮率為 1048。
該研究以「EvoAI enables extreme compression and reconstruction of the protein sequence space」為題,於 2024 年 11 月 11 日釋出在《Nature Methods》。
蛋白質工程和設計可以建立具有最佳化功能的蛋白質,用於生物技術、醫學和合成生物學的各種應用。
蛋白質工程的基本挑戰是理解和操縱蛋白質適應度景觀,這是一個高維且複雜的空間,包含大量可能的序列和功能。
儘管過去幾十年來科學家們進行了大量嘗試來尋找這個空間中的高適應度序列,但我們對這個空間的規則和特徵的理解仍然比較淺層。
雖然現有的定向進化技術能提供有價值的資訊,但這些實驗方法需要在精確度與覆蓋度之間進行權衡,且通常無法充分考慮高維空間中的自然選擇壓力。
計算方法,如基於結構或序列的建模,雖然能評估更大的序列空間,但受限於訓練資料的可用性,且往往忽略了生物學因素。
EvoAI
理想的方案應結合高通量實驗資料和高效的計算模型,透過識別「錨點」來壓縮設計空間,為深度學習模型提供指導,探索整個適應性景觀。
在最新的研究中,清華大學的研究人員開發了 EvoAI,這是一種經驗性地詢問序列空間,然後對其進行建模、壓縮和重建的方法。該方法結合了高通量實驗進化和計算方法來捕捉和學習空間的基本特徵。
圖示:EvoScan 方案,蛋白質-蛋白質相互作用進化的開發和驗證。(來源:論文)
研究人員首先開發了一種進化掃描方法,該方法透過結合基於 EvolvR 的分段誘變系統來適應噬菌體輔助非連續進化 (PANCE)。
然後,團隊開發了一個深度學習和大型語言模型,從這些錨點重建序列空間並設計新的蛋白質,所有十種蛋白質都表現出比野生型(WT)大大提高的活性(高達 11 倍)。
研究人員將 EvoAI 應用於阻遏蛋白,結果顯示僅 82 個錨點就足以壓縮高適應度序列空間,壓縮率為 1048。
圖示:EvoScan 生成的 82 個錨點的遺傳關係和特徵。(來源:論文)
幾個重要優勢
與現有方法相比,該方法有幾個重要優勢。
首先,它平衡了現實的適應度最佳化和序列空間的均勻取樣,可以快速探索高維度,生成更多樣化和功能性的變體,並提供有關序列功能關係的更豐富資訊。
其次,透過在 EvoAI 中整合經驗進化掃描和深度學習模型,它可以利用兩種方法的優勢。它可以利用深度學習學到的屬性來動態地指導掃描過程。可解釋的深度學習的未來發展可以揭示潛在的規則或模式,並深入瞭解蛋白質如何適應和克服進化的限制或權衡。
圖示:徹底的片段掃描以瞭解蛋白質-配體相互作用的演變。(來源:論文)
第三,該方法可以擴充和研究缺乏結構資訊或涉及具有挑戰性的相互作用的蛋白質。實驗表明,EvoScan 可以捕獲具有多種功能的蛋白質的錨點,例如蛋白質-蛋白質、蛋白質-配體和蛋白質-核酸相互作用。
理論上,該方法應該與任何可以與轉錄輸出耦合的生物分子功能相容(例如,透過小分子感測器的酶),因此可以應用於研究各種生物分子的序列空間。
同時,研究人員表示,研究中測試的化學空間(例如酶反應)或配體空間(例如蛋白質相互作用)可能有所不同,需要進一步探索。
最佳化方向與展望
研究人員表示,該方法未來可以進一步最佳化改進。
接下來,研究人員可以使用具有更多原型間隔區相鄰基序選項的 Cas9 變體來增加 gRNA 平鋪和突變靶向片段的選擇。它們還可以修改編輯系統,一次性在多個位點引入突變,避免宿主切換並加快探索過程。
此外,將 EvoScan 的靶向誘變方法整合到 PACE 中可能會實現對序列空間片段的更深入取樣。並且,將 EvoScan 與 Evoracle 等基因型重建方法相結合,可以更系統、更智慧地探索序列空間。
另外,該系統的模組化使其非常適合自動化,例如最近報導的 PRANCE 方法,並且可以擴大規模以提供不同蛋白質靶標更全面的適應度景觀分析資料,說明高適應度基因型的設計空間的極端壓縮性是普遍的還是不尋常的,或者整個蛋白質適應度景觀是否可壓縮。
研究人員還希望他們的方法能夠激發人們對基因型和表型之間的關係以及生物系統進化的新見解。設計空間的可壓縮性可能表明,大自然以某種方式找到了一種方法,透過達爾文進化論在地球上相對較短的生命期內搜尋看似無限的空間。大型有性群體中染色體區域的基因重組可能使這種維度壓縮從而促進進化。
然而,重要的是要認識到自然進化是多方面的,受到不同的選擇壓力、波動的環境條件、條件中性和基因組背景的影響——這些因素在目前的方法中尚未完全考慮。
該方法將來與高通量實驗相結合,可能有助於研究生物系統進化結果的路徑依賴性,併為生物技術和生物醫學應用中的進化和蛋白質設計提供寶貴的見解。
論文連結:https://www.nature.com/articles/s41592-024-02504-2