編輯 | 蘿蔔皮
酶是人類生活中不可或缺的天然催化劑,不僅助我們消化食物,還能增強香水香味、提高洗衣效率,甚至用於疾病治療。科學家們正使用酶工程創造新酶,用於吸收溫室氣體、降解環境毒素、研發高效藥物。
但是,酶工程受限於快速生成和使用大量序列功能關係資料集進行預測設計的挑戰。
為了應對這一挑戰,史丹佛大學(Stanford University)、西北大學(Northwestern University)的研究人員開發了一個機器學習 (ML) 引導平臺,該平臺整合了無細胞 DNA 組裝、無細胞基因表達和功能分析,可以快速繪製蛋白質序列空間中的適應度景觀並最佳化酶。
他們利用該平臺對 10,953 個獨特反應中的 1217 種酶變體的底物偏好進行評估,從而設計出醯胺合成酶。
研究團隊使用這些資料構建了嶺迴歸(Ridge Regression)增強 ML 模型,用於預測能夠生產 9 種小分子藥物的醯胺合成酶變體。這九種化合物中,ML 預測的酶變體相對於母體活性提高了 1.6 至 42 倍。
該研究以「Accelerated enzyme engineering by machine-learning guided cell-free expression」為題,於 2025 年 1 月 20 日釋出在《Nature Communications》。
工程酶有望對能源、材料和醫藥等應用產生變革性影響。為了製造這樣的酶,需要改變蛋白質的氨基酸序列以增強其天然功能或促進新的化學反應。這個過程通常依靠定向進化的方式完成。
計算技術的出現加速了現有的定向進化方法。但是,快速構建資料集來導航巨大的序列空間仍然是一個挑戰,特別是考慮到大多數基因型-表型聯絡在高通量酶工程活動中丟失。
在最新的研究中,科學家開發了一種高通量、ML 引導的方法,用於探索化學空間多個區域的適應度景觀,以便對生物催化劑進行正向設計。
「我們開發了一種計算過程,可以讓我們更快地設計酶,因為我們不必像現在這樣使用活細胞來生產酶。」論文的通訊作者,史丹佛大學生物工程學教授 Michael Jewett 表示,「相反,我們使用機器學習來預測高活性設計酶,這些酶是由計算機建模的突變 DNA 序列設計而成,而不是在實驗室中手工製作的。我們可以在幾天內完成這些實驗,而不是通常情況下的幾個月。」
圖示:機器學習引導的無細胞酶工程平臺。(來源:論文)
該方法的一個關鍵特徵是使用無細胞基因表達(CFE)系統,從而可以在設計-構建-測試-學習(DBTL)工作流程中快速合成和功能測試蛋白質。
該框架首先針對從酶底物混雜性評估中確定的特定化學轉化,繪製具有單階突變的酶變體的序列-功能關係。然後,這些資料用於擬合監督式嶺迴歸 ML 模型(該模型增強了進化式零樣本適應度預測器),並推斷出活性增加的高階突變體。
重要的是,ML 模型可以在普通計算機的中央處理器上執行,這使得整個方法易於使用且易於理解。
該框架獨特地整合了 CFE 和誘變方法、機器學習,從而加速定向進化過程;還可以發散進化,將一種通用酶轉化為多種專用酶。
「我們現在可以在計算機上完成所有這些工作。」他補充道,「我們不必執行 10,000 次化學反應來反覆提高酶活性,而是可以使用機器學習模型來預測仍然具有同樣效果的高活性變體。」
圖示:McbA 的多樣化可及化學空間表明它是一種能夠合成多種高價值分子的生物催化劑。(來源:論文)
團隊應用該框架對耐熱海洋孢菌的 McbA 進行發散進化,將形成醯胺鍵的通用酶轉化為多種不同的專用酶。醯胺鍵的生物催化形成(在藥物、農用化學品、聚合物、香料、香精和其他高價值產品中普遍存在)與合成化合物相比具有獨特的優勢(例如,反應條件溫和以及化學、立體和區域選擇性),並促進可持續的生物製造。
McbA 是一種代表性的 ATP 依賴性醯胺鍵合成酶,參與了 marinacarboline 次級代謝物的生物合成。McbA 及其同源蛋白 ShABS35 已被證實具有較寬的底物範圍,可以接受藥物中常見的幾種簡單酸和胺。
結果顯示,該團隊的方法將 McbA 酶活性相對於野生型酶提高 1.6 至 42 倍,以產生 9 種化合物。
Jewett 說:「蛋白質的結構決定了它們的功能,而蛋白質的結構是由分子中氨基酸的序列形成的。定向進化是一個已有數十年曆史的領域,它已經開發出透過改變氨基酸來改變蛋白質功能的能力。我們只是利用機器學習和計算機來加快這一程序。」
圖示:快速生成序列適應度景觀資料,用於 ML 引導的 McbA 定向進化。(來源:論文)
從理論上講,該方法可以應用於任何酶,但需要在資料收集和 ML 模型生成方面進行針對特定反應的微調。
「我們可以探索可持續發展和生物經濟領域的多種機會。你可以開始考慮一些分子,它們可以降解環境中的毒素,提高富含蛋白質的食物的生物利用度,或者其他分子,它們可以採用現有的需要高壓、昂貴成分或毒性反應的工藝,使它們更快、更安全、更便宜,」Jewett 說。
不過,在資料收集方面,生物催化反應的實驗篩選方法仍然是一個瓶頸。Jewett 說:「我們都知道人工智慧需要大量資料,但目前還沒有。」
Jewett 指出,隨著科學越來越多地使用機器學習模型來加速設計,這些資料需求只會增加。在這項研究中,Jewett 最終能夠評估約 1,000 種產品和約 10,000 種化學反應中的約 3,000 種酶突變體,但他的資料需求要大幾個數量級。
「如果我想變異一種酶來測試數萬種變體。」Jewett 舉了一個具體的規模化例子說道,「我可能會找到一些論文,但它們可能會報告 10 種變體的突變資料。不是數百種,不是數千種,更不是數萬種反應,而是 10 種。因此,我們在資料方面還有很長的路要走,但我們會做到的。這是第一步。」
論文連結:https://www.nature.com/articles/s41467-024-55399-0