同時生成蛋白序列和結構,David Baker團隊序列空間擴散新模型登Nature子刊

ScienceAI發表於2024-09-29
圖片

編輯 | KX

蛋白質去噪擴散機率模型用於從頭生成蛋白質骨架,但其在引導生成具有序列特異性屬性和功能特性的蛋白質方面存在侷限。

為了克服這一限制,華盛頓大學 David Baker 團隊,開發了一種基於 RoseTTAFold 的序列空間擴散模型 ProteinGenerator (PG),可同時生成蛋白質序列和結構。

從噪聲序列表示開始,PG 透過迭代去噪生成序列和結構對,並以所需的序列和結構蛋白質屬性為指導。

研究設計了具有不同氨基酸組成和內部序列重複的耐熱蛋白質和籠狀生物活性肽,例如蜂毒肽。

PG 設計軌跡可以由實驗序列活性資料指導,為蛋白質功能的綜合計算和實驗最佳化提供了一種通用方法。

該研究以「Multistate and functional protein design using RoseTTAFold sequence space diffusion」為題,於 9 月 25 日釋出在《Nature Biotechnology》上。

圖片

論文連結:https://www.nature.com/articles/s41587-024-02395-w

蛋白質設計

蛋白質功能源於序列和結構特徵的複雜相互作用;因此,設計新的蛋白質功能需要對序列和結構空間進行推理。

許多蛋白質設計方法分步對結構和序列進行取樣,通常先生成蛋白質主鏈,然後使用逆折疊方法生成序列。

傳統方法,如 Rosetta 靈活主鏈蛋白質設計,在結構和序列設計之間交替進行,而最近基於深度學習的方法通常先生成主鏈,然後使用序列設計方法,如 ProteinMPNN (MPNN),來識別摺疊成給定主鏈的序列。在後一類方法中,去噪擴散機率模型 (DDPM) 在連續資料領域顯示出相當大的前景,它允許生成受廣泛結構約束的蛋白質主鏈。

DDPM 透過學習對受高斯噪聲破壞的樣本進行去噪來近似資料分佈上的機率密度函式,從而能夠從高斯先驗中生成高質量樣本;它們在蛋白質序列中的探索較少。

PG:基於 RoseTTAFold 的序列空間擴散模型

研究人員推斷,在序列空間而不是結構空間中進行擴散,可以使用基於序列的特徵指導設計,並可以明確地設計包含多個狀態的序列。

為了能夠對序列和結構特徵進行調節,研究人員從 RoseTTAFold 結構預測網路開始,將其視為從輸入序列和結構資訊到輸出序列和結構的對映,就像 RFdiffusion 的情況一樣。推斷 RoseTTAFold 可以適應序列空間擴散,透過對蛋白質資料庫 (PDB;http://www.rcsb.org/) 中的蛋白質序列進行噪聲處理,並進行訓練以消除噪聲,同時對結構預測精度造成損失,從而確保生成的模型對序列和結構都有深入的理解。

圖片

圖示:PG 概覽。(來源:論文)

PG 在無條件設計準確度方面優於早期的幻覺方法,並且在從不同的高斯混合模型中取樣時會生成結構多樣的蛋白質。PG 很容易設計出支撐特定結構基序的蛋白質;透過 ESM 偽困惑度測量的 PG 序列質量與從 UniProt 取樣的天然序列沒有區別,並且明顯高於使用 6.4 億引數序列擴散模型 EvoDiff 生成的序列。

使用 PG 進行無條件生成可產生氨基酸組成與天然蛋白質相似的序列-結構對。

設計多狀態和功能蛋白

計算模擬和實驗結果表明,PG 可以輕鬆從頭生成各種蛋白質,這些蛋白質受到各種序列域約束的影響,包括氨基酸組成偏差、重複序列對稱性、生物活性肽籠和多型設計。

富含稀有氨基酸的蛋白質的設計

為了評估 PG 在 PDB 訓練分佈之外推理序列結構關係的能力,研究人員試圖設計富含進化欠取樣氨基酸的蛋白質,這些氨基酸賦予結構或功能特性。

使用此程式生成色氨酸、半胱氨酸、纈氨酸、組氨酸和蛋氨酸的高頻率(20% 組成)蛋白質,其序列與天然蛋白質的序列非常不同。對生成的設計進行篩選,以獲得高 AF2 置信度 (pLDDT > 90) 和自洽性 (設計的 RMSD < 2 Å),並選取 96 個進行實驗表徵。

圖片

圖示:具有指定序列組成的蛋白質的設計。(來源:論文)

結果表明,PG 可以推理超出天然蛋白質樣序列組成的序列-結構關係,從而設計具有所需序列特性的摺疊、熱穩定性蛋白質。

序列重複蛋白的設計

含有序列結構單元串聯複製的重複蛋白在自然界中普遍存在,在分子識別和訊號傳導中起著核心作用。

PG 可以很容易地適應生成重複蛋白,只需給定重複單元的序列長度和所需的重複次數,在每個時間步長上將重複對稱性應用於噪聲序列分佈。

圖片

圖示:使用 PG 設計序列重複蛋白。(來源:論文)

研究人員透過實驗表徵了 74 種帶螺旋帽的重複蛋白和 86 種不帶螺旋帽的重複蛋白。其中,27 種帶帽的重複蛋白和 10 種不帶螺旋帽的重複蛋白透過 SEC 可溶且為單體,使用圓二色性評估的 8 種蛋白中有 7 種具有預期的二級結構。解析了由四螺旋束不對稱單元組成的五重複單元設計的晶體結構,發現該設計具有原子精度:設計與晶體結構的 C RMSD 為整個結構 1.38 Å,不對稱單元 0.47 Å。

生物活性肽籠的設計

設計活性取決於外部輸入的蛋白質對於具有空間和時間控制的治療劑和生物感測器的設計具有相當大的意義。

給定肽序列和支架長度,PG 會生成包含肽序列作為蛋白質結構組成部分的設計,預計摺疊至設計的支架的摺疊時間大於 85 pLDDT,RMSD 小於 2 Å。

圖片

圖示:用 PG 搭建生物活性肽和內在條形碼。(來源:論文)

研究使用 PG 設計了將成孔肽蜂毒肽囚禁的蛋白質,該蛋白質可在末端環的蛋白水解裂解後有條件地釋放。

儘管蜂毒素在分離時處於無序狀態,PG 仍能夠生成蜂毒素序列呈螺旋結構的溶液,隨後對其進行了實驗測試。在 13 種實驗表徵的設計中,有 5 種透過 SEC 可溶且單分散,透過 CD 摺疊成螺旋二級結構且具有熱穩定性。

多狀態設計

研究人員透過對有不同結構約束的擴散軌跡之間的序列對數進行平均,設計了多狀態父子蛋白質三元組(multistate parent–child protein triples),其中相同的序列在父級中完整時摺疊成不同的超二級結構,而不是分裂成兩個子域。

為了使 PG 適應多狀態設計,向 RoseTTAFold 輸入了相同序列但不同結構條件資訊,並將輸出對數的線性組合作為下一個時間步的輸入。

圖片

圖示:PG 的多型設計。(來源:論文)

除了多狀態設計之外,預計 PG 能夠直接基於序列進行指導的生成方法,可用於在定向進化活動中生成連續幾輪序列以進行實驗表徵。

雖然可以使用在現有實驗資料上訓練的分類器直接使用貝葉斯最佳化和其他方法生成序列,但使用這些分類器來指導 PG 擴散軌跡具有相當大的優勢,即可以利用 PG 網路中表示的豐富序列結構先驗資訊,這增加了生成的序列摺疊和發揮作用的可能性。

相關文章