「定製化」結合蛋白質,幾何深度學習方法加速開發精準藥物,登Nature

ScienceAI發表於2025-01-26

圖片

編輯 | 蘿蔔皮

蛋白質是生命的基礎,具有多樣的生物功能,如輸送氧氣、傳遞化學訊號和防禦病原體。

其分子表面的特異性決定了其功能,這一特性被用於藥物開發,透過設計分子與特定蛋白質結合來改變其結合方式,甚至開發「分子膠」來治療疾病。

奧地利科學院(ÖAW)的 Michael Bronstein、瑞士洛桑聯邦理工學(EPFL)的 Bruno Correia 等,率先使用了一種名為「MaSIF(molecular surface interaction fingerprinting)」的幾何深度學習架構,用於設計具有所需分子表面特性的新蛋白質。

在最新的論文中,該團隊將 MaSIF 應用於結合藥物分子的蛋白質,並展示瞭如何用它設計「定製化」的蛋白質。

該研究以「Targeting protein–ligand neosurfaces with a generalizable deep learning tool」為題,於 2025 年 1 月 15 日釋出在《Nature》。

圖片

大多數基於深度學習的蛋白質設計流程主要以天然氨基酸庫為條件,因此缺乏對小分子相互作用設計的泛化能力。

這一差距主要是由於基於蛋白質資料庫(PDB)的訓練集中缺乏蛋白質-配體結構資料,尤其是三元複合物,而此類結構在 PDB 中非常罕見。

幾何深度學習方法以分子表面的物理和化學特徵為原則,可以克服這些限制,併為蛋白質和小分子複合物提供聯合表徵。

由此產生的新表面能夠捕獲可推廣的分子特徵,從而可以針對這些混合介面,設計蛋白質結合劑。

圖片

圖示:捕獲 Neosurface 屬性來識別介面位置和結合伴侶。(來源:論文)

研究人員提出了一種基於幾何深度學習的框架,稱為 MaSIF,用於研究蛋白質表面特徵和設計新的 PPI。

在幾何深度學習框架 MaSIF 中,研究人員之前開發了兩個應用程式:

(1) MaSIF-site,用於準確預測蛋白質表面中與另一種蛋白質形成介面的可能性較高的區域;

(2) MaSIF-search,用於根據互補表面斑塊快速查詢和對接蛋白質伴侶。

在 MaSIF 搜尋中,先提取表面斑塊描述符(指紋,fingerprints),以便具有互補幾何和化學性質的斑塊具有相似的指紋,而非相互作用的斑塊具有較低的指紋相似度。

圖片

圖示:使用 MaSIF-neosurf 設計配體誘導的蛋白質相互作用。(來源:論文)

表面指紋能夠利用它們之間的歐幾里德距離以無需對齊的方式實現初始超快速搜尋。指紋距離低於閾值的斑塊隨後在三維空間中進一步對齊,並使用介面後對齊 (IPA) 分數進行評分,以最佳化選擇。

「機器學習方法面臨的一個關鍵挑戰是它們的泛化能力,或者說該方法對從未見過的資料的處理效果如何。」Bronstein 解釋道,「我們的研究結果令人驚訝且令人滿意,即經過蛋白質間自然相互作用訓練的神經網路可以很好地推廣到從未見過的蛋白質-配體新表面。看來,我們的方法提取的分子表面幾何描述符是蛋白質相互作用的一種『通用語言』。」

圖片

圖示:小分子依賴性結合劑的從頭設計和篩選。(來源:論文)

在最初的構想中,MaSIF 僅將典型氨基酸視為蛋白質分子表面的一部分,與小分子、聚糖或其他配體不相容。

因此,研究人員推出了 MaSIF-neosurf,它將小分子作為目標蛋白質分子表面表示的一部分,以根據新表面指紋預測介面和伴侶。

MaSIF 最初被訓練用於處理生物分子的一般化學和幾何表面特性,同時抽象底層結構。因此,它不僅限於蛋白質表面,原則上也應該捕捉非蛋白質表面產生的表面模式。

在生成蛋白質-配體複合物的分子表面後,MaSIF-neosurf 計算兩個幾何特徵:形狀指數和距離相關曲率。

此外,還使用了三個化學特徵:泊松-玻爾茲曼靜電(可以直接從小分子計算得出);氫鍵供體/受體傾向和疏水性。為此研究人員還開發了新的特徵化器,專門用於捕捉小分子的化學性質。

圖片

圖示:設計的粘合劑的結合模式、親和力和結構確定。(來源:論文)

為了驗證提出的策略,研究人員設計了位點特異性結合劑,以由小分子配體和蛋白質表面部分組成的新表面為目標,從而產生從頭配體依賴的蛋白質相互作用。儘管最先進的工具在配體-蛋白質相互作用的預測和設計方面表現出良好的效能,但它們並不適合從頭三元複合物的設計,由於資料稀缺,這尤其具有挑戰性。

在這裡,研究人員成功設計並表徵了新的藥物誘導蛋白結合劑,該結合劑可識別 B 細胞淋巴瘤 2 (Bcl2) 蛋白與臨床批准的抑制劑 venetoclax 的複合物、孕酮結合抗體 DB3 與其配體的複合物,以及最後識別來自銅綠假單胞菌的肽脫甲醯酶 1 (PDF1) 蛋白與抗生素放線菌素 30 的複合物。

圖片

圖示:計算設計的 CID 在基於細胞的系統中發揮作用。(來源:論文)

「MaSIF 的引數數量相對較少,大約只有 70,000 個,而大型深度學習系統(如 ChatGPT)的引數數量則多達數十億個。」論文共同一作 Arne Schneuing 解釋道,「這是可能的,因為我們只使用關鍵的表面特徵,從而實現了高度的抽象。換句話說,我們不會給系統完整的畫面;我們只提供我們認為對解決問題很重要的部分。」

論文的共同一作 Anthony Marchand 表示,他對新方法的前景感到興奮。「我們的想法是設計一種相互作用,讓一個小分子使兩種蛋白質結合在一起。一些方法專注於篩選這樣的小分子,但我們希望設計一種能與確定的蛋白質-藥物複合物結合的新型蛋白質。」

Marchand 認為:「此類設計的化學誘導蛋白質相互作用,將有可能擴大感測範圍和工程細胞中新合成途徑的組裝,從而實現創新的藥物控制細胞療法。」

論文連結:https://www.nature.com/articles/s41586-024-08435-4

相關報導:https://phys.org/news/2025-01-geometric-machine-method-precision-drug.html

相關文章