編輯 | 白菜葉
在過去的 2-3 年裡,去噪擴散機率模型 (DDPM) 在生成高質量文字、影像和影片方面取得了前所未有的成功。這激發了人們對在蛋白質結構的從頭設計中使用生成式 DDPM 的熱情。
然而,大多數此類研究都遇到了相當大的困難,無法獲得可以輕鬆生成可透過高解析度結構分析驗證的無缺陷蛋白質結構的 DDPM。
在這裡,中國科學技術大學生命科學與醫學部劉海燕教授、陳泉教授團隊提出了 SCUBA-diffusion(SCUBA-D),這是一種蛋白質主鏈去噪擴散機率模型,透過考慮序列表示的共擴散進行新訓練,以增強模型正則化和對抗性損失,以最大限度地減少資料分佈外誤差。
在生成實驗可實現的蛋白質結構方面,SCUBA-D 與基於預訓練 RoseTTAFold 的 RFdiffusion 的效能相當,但它可以輕鬆生成尚未觀察到的整體摺疊與 RoseTTAFold 可預測的摺疊不同的蛋白質結構。
SCUBA-D 的準確性已透過 16 種設計蛋白質和一種蛋白質複合物的 X 射線結構以及驗證設計的血紅素結合蛋白和 Ras 結合蛋白的實驗得到證實。
這項工作表明,透過解決資料分佈誤差等突出問題,影像或文字的深度生成模型可以有效地擴充套件到蛋白質結構等複雜的物理物件。
該研究以「De novo protein design with a denoising diffusion network independent of pretrained structure prediction models」為題,於 2024 年 10 月 9 日釋出在《Nature Methods》。
從頭蛋白質設計旨在生成針對特定功能的人工蛋白質,其主要問題是生成可設計且物理上合理的蛋白質結構,即可被某些氨基酸序列自主採用的蛋白質結構。
到目前為止,唯一能夠應對這個任務的 DDPM(至少在一定程度上)是 RFdiffusion,它依賴於對預訓練結構預測網路 RoseTTAFold 進行微調,以完成各種結構去噪任務。
為了避免潛在偏差的繼承,這是預訓練結構預測網路的一個限制,科學家旨在開發新訓練的 DDPM,其效能至少與 RFdiffusion 相當,但不依賴於以前的結構預測網路。
同時,科學家還希望從此類研究中獲得的洞察力和理解將加速未來用於生物分子結構預測的生成式 DDPM 的發展。
在這裡,透過結合資料恢復和最小化對抗損失的目標進行訓練,中國科學技術大學劉海燕教授、陳泉教授團隊開發了一種新訓練的 DDPM,它可以生成多樣化的蛋白質骨架。該模型被命名為 SCUBA-D(sidechain unknown backbone arrangement-diffusion),因為它可以生成可設計的骨架而無需預先確定氨基酸序列。
在前期工作中,該團隊建立並實驗驗證了利用神經網路能量函式從頭設計主鏈結構的 SCUBA 模型(Nature 2022),SCUBA-D 是基於深度學習的主鏈設計演算法的迭代升級。
研究人員證明 SCUBA-D 可以執行各種蛋白質設計任務,包括從隨機噪聲中生成可設計的主鏈(無條件生成)、圍繞使用者繪製的、不可設計的初始主鏈生成可設計的主鏈(基於草圖輸入的生成)以及生成主鏈以支撐預定義基序,具有結合小分子或結合其他蛋白質的功能(基序支架)。
圖示:無條件或有偏差的二級結構分佈的結構生成。(來源:論文)
團隊對 SCUBA-D 在多類蛋白質從頭設計任務中的應用進行了實驗驗證。針對單體結構從頭設計任務,團隊對共計70條設計序列進行了實驗表徵,其中近 80% 的序列(53 條)可溶表達,實驗解析的 16 個高分辨晶體結構與目標結構高度一致(主鏈原子位置均方根位移在 0.96 到 2.11Å 之間)。
在小分子結合蛋白設計任務中,團隊對非經典血紅素降解酶進行了保留結合位點的主鏈結構重設計,對設計的 12 條序列進行實驗驗證,其中 5 條具有與血紅素的結合能力,三條序列與血紅素的親和力與天然蛋白相當或高於天然蛋白。
在結合蛋白設計任務中,30個人工設計的 Ras 結合蛋白 14 個與 Ras 有相互作用,其中 3 個設計蛋白與 Ras 的結合親和力與天然蛋白相當,複合物晶體結構更進一步驗證了設計的精確度。
圖示:SCUBA-D 用於設計蛋白質結合蛋白。(來源:論文)
與其他剛訓練好的蛋白質結構 DDPM 不同,SCUBA-D 不只考慮了通常的資料恢復目標,還考慮了最小化對抗損失這一額外目標。這使得 SCUBA-D 能夠生成比其他剛訓練好的 DDPM 具有更高可設計性的主幹。
目前,只有 Chroma 和 SCUBA-D 能夠透過實驗解決使用新訓練的 DDPM 設計的蛋白質結構。Chroma 研究考慮了 300 多種設計蛋白質進行實驗表徵,並僅報告了兩種全螺旋蛋白質的晶體結構,這反映了使用常規資料恢復目標訓練的 DDPM 在生成可透過高解析度實驗確認的蛋白質結構方面存在困難。
相比之下,由於模型訓練時增加了最小化對抗損失的目標,SCUBA-D 取得了比其他剛訓練好的 DDPM 更廣泛的實驗成功率。
此外,使用 SCUBA-D 成功設計全 β 蛋白質可被視為使用 DDPM 設計蛋白質骨架的重要一步。這些結果強調了考慮物理約束物件(例如蛋白質結構)與非物理約束物件(例如影像和文字)之間的不同容錯能力的重要性。
這種洞察力可用來加速深度生成方法的擴充套件,這些方法在生成計算機物件方面具有明顯的優勢,可以生成需要物理上合理的物件,包括可設計的核酸結構和蛋白質-核酸複合物。
相關內容:https://www.nature.com/articles/s41592-024-02465-6
論文連結:https://www.nature.com/articles/s41592-024-02437-w