編輯 | ScienceAI
蛋白質作為生命活動的物質基礎,就像一塊塊精巧的「樂高積木」,支撐著生物體內幾乎所有的化學反應和生命過程。
從肌肉的收縮到大腦的思維,從病毒的侵染到免疫系統的防護,幾乎都依賴這些功能多樣的分子。
然而,自然界中的天然蛋白質並不能完全滿足人類日益多樣化的需求,因此科學家們致力於透過設計與定製蛋白質,賦予其更多複雜的功能。
隨著生成式人工智慧和生物技術的快速發展,科學家們在蛋白設計領域取得了顯著突破。華盛頓大學的 David Baker 教授因其在這一領域的開創性貢獻,榮獲2024年諾貝爾化學獎。
在此背景下,中國科學技術大學認知智慧全國重點實驗室劉淇教授指導的博士生張載熙,與哈佛大學醫學院 Marinka Zitnik 教授課題組合作,開發了深度生成演算法 PocketGen。
這一演算法在蛋白質生成效率和成功率上全面超越了新晉諾貝爾化學獎得主 David Baker 教授實驗室的生成模型 RFDiffusion 和 RFDiffusionAA,成為當前效能最快、成功率最高的蛋白質口袋設計演算法之一。
相關研究成果《Efficient generation of protein pockets with PocketGen》於 2024 年 11 月 15 日正式發表在《Nature Machine Intelligence》 [1]。
論文連結:https://www.nature.com/articles/s42256-024-00920-9
圖 1:PocketGen 生成示意圖。(來源:論文)
研究團隊基於前期蛋白質口袋生成工作 FAIR(NeurIPS 2023 Spotlight)[2] 和 PocketFlow(NeurIPS 2024 Spotlight)[3] 的成果,進一步研發了 PocketGen(見圖 2)。
PocketGen 能夠基於蛋白質框架和結合小分子,生成蛋白質口袋的序列和結構(圖 2a)。該模型的核心架構由兩部分組成:
1、雙層圖 Transformer 編碼器(圖 2b)
受到蛋白質固有的層級結構啟發,PocketGen 的編碼器設計為氨基酸層級和原子層級的雙層圖 Transformer。
氨基酸層級編碼器:學習蛋白質中氨基酸之間的宏觀相互作用資訊。
原子層級編碼器:捕捉更細粒度的原子級相互作用,並動態更新氨基酸和原子表示及其空間座標。這一層級設計有效整合了蛋白質多尺度的結構特性,為生成高質量的口袋設計奠定了基礎。
2、蛋白質預訓練語言模型(圖 2c)
PocketGen 在蛋白質語言模型 ESM2 的基礎上進行高效微調,透過固定大部分模型層,僅微調部分適應層引數,結合序列-結構交叉注意力機制,進一步增強序列與結構的協調一致性。這種策略不僅降低了訓練開銷,還顯著提升了預測精度。
PocketGen 的優勢
PocketGen 的獨特優勢在於結合了多層次資訊和預訓練模型的能力,實現了序列與結構設計的一體化。
在實驗中,PocketGen 不僅在親和力和結構合理性等關鍵指標上優於傳統方法,還在計算效率上取得了革命性進步,相較傳統方法效率提升超過 10 倍。
這使得 PocketGen 成為當前蛋白質口袋設計領域的前沿工具,為藥物研發和分子設計提供了新技術方案。
圖 2:(a)用 PocketGen 進行蛋白質序列-結構共同設計。(b) 雙層圖 Transformer 編碼器;(c)蛋白質預訓練語言模型用於序列預測及高效微調技術。(來源:論文)
PocketGen 在計算效率和成功率方面均表現優異,成為目前全球最頂尖的蛋白質口袋設計演算法之一。
在計算效率上,PocketGen 表現尤為亮眼。相比傳統方法,計算效率提升超過 10 倍,顯著縮短了蛋白質口袋設計的時間(圖 3)。
團隊還將其與新晉諾貝爾化學獎得主 David Baker 實驗室的生成模型 RFDiffusion 和 RFDiffusionAA 進行了對比,發現 PocketGen 在計算效率上也領先約 10 倍,大幅最佳化了生成效率。
在蛋白質口袋設計的成功率方面,PocketGen 同樣取得了突出成績。蛋白質口袋的親和力是評估蛋白質與小分子結合成功率的重要指標。親和力越高,意味著蛋白質與小分子結合得越緊密、穩定,就像兩塊吸鐵石間的吸引力。
PocketGen 在親和力指標上的表現超越了傳統方法 5 個百分點,顯著提升了蛋白質與小分子結合的可能性。
PocketGen 的綜合表現使其在蛋白質口袋設計領域樹立了新標杆,為藥物研發和分子設計等領域提供了更加高效、精準的工具。
圖 3:(a)生成效率比較。(b)生成多樣性比較。(c)PocketGen可以靈活生成不同大小的蛋白質口袋。(來源:論文)
PocketGen 推進了深度生成模型用於功能蛋白質設計,為進一步理解蛋白質設計規律並開展生物實驗驗證奠定了基礎。
未來,在藥物開發、生物感測器、酶催化等領域具有廣泛的應用前景。這種跨領域、跨技術的協同創新,不僅為生物工程和藥物研發提供了全新思路,也展現了人工智慧與自然科學融合的無限可能。
參考文獻
[1] Zhang Z, Shen W X, Liu Q, et al. Efficient generation of protein pockets with PocketGen. Nature Machine Intelligence, 2024: 1-14.
[2] Zhang Z, Lu Z, Zhongkai H, et al. Full-atom protein pocket design via iterative refinement. Advances in Neural Information Processing Systems, 2023, 36: 16816-16836.
[3] Zhang Z, Zitnik M, Liu Q. Generalized Protein Pocket Generation with Prior-Informed Flow Matching. Advances in Neural Information Processing Systems, 2024.