藥物分子設計新策略,微軟條件擴散模型DiffLinker登Nature子刊

ScienceAI發表於2024-04-16

圖片

編輯 | 紫羅

藥理學領域的化學空間高達 10^60,在廣闊的化學空間中進行搜尋,給藥物設計帶來了巨大的挑戰。

基於片段的藥物發現一直是早期藥物開發的有效範例。然而,該領域面臨的一個挑戰是,如何設計斷開的感興趣分子片段之間的連線子(linker),生成化學上合理的候選藥物分子。

在此,來自微軟研究院科學智慧中心(AI4Science)、洛桑聯邦理工學院、牛津大學和 MIT 的研究團隊,提出了一種用於分子 linker 設計的 E(3) 等變三維條件擴散模型 DiffLinker。

與以前只能連線分子片段對的方法不同,新方法可以連線任意數量的片段。此外,模型會自動確定 linker 中的原子數量及其與輸入片段的連線點。

DiffLinker 在標準資料集上優於其他方法,可生成更多樣化且可合成的分子。在實際應用中對其方法進行實驗測試,表明它可以成功生成以靶標蛋白口袋為條件的有效 linker。

研究人員表示,術語「linker」泛指任何能夠連線起始分子片段的化學物質,並不特指與所討論任一領域相關術語的特定含義。

相關研究以《Equivariant 3D-conditional diffusion model for molecular linker design》為題,於 2024 年 4 月 11 日釋出在《Nature Machine Intelligence》上。

藥物分子設計新策略,微軟條件擴散模型DiffLinker登Nature子刊

論文連結:https://www.nature.com/articles/s42256-024-00815-9

據估計,藥理學相關分子的空間超過 10^60 個結構。減小該空間大小的一個成功方法是從「片段」開始,這些小分子化合物通常不超過 20 個重(非氫)原子。這種策略稱為基於片段的藥物設計 (FBDD)。

給定蛋白質口袋,透過計算確定與口袋相互作用的片段是比實驗篩選方法更便宜、更有效的替代方法。一旦相關片段被識別並與靶標蛋白對接,就需要將它們組合成單個連線的化合物。

機器學習方法方法可以超越可用資料並更有效地生成不同的 linkers。然而,這些方法在原子排列方面並不等變,並且只能組合片段對。迄今為止,還沒有考慮靶標蛋白口袋的分子 linker 設計計算方法。

最先進的生成方法:條件擴散模型 DiffLinker

在此,研究人員解決了放置在三維 (3D) 環境中的片段連線起來的問題,並可以將設計過程調節到靶標蛋白口袋。

DiffLinker 是一種條件擴散模型,可以為一組表示為 3D 原子點雲的輸入片段生成分子 linker。

首先,模型生成預期 linker 的大小,然後從正態分佈中取樣初始 linker 原子型別和位置。接下來,使用以輸入片段為條件的神經網路迭代更新連線原子型別和座標。最終,去噪後的連線原子和輸入片段原子形成一個 linker 的分子。

圖片

圖 1:分子 linker 生成過程概述。(來源:論文)

DiffLinker 有幾個理想的屬性:它與平移、旋轉、反射和排列等價;它不受輸入片段數量的限制,不需要有關連線原子的資訊,並且生成沒有預定義大小的 linker。

此外,研究人員提出了一種新的歐幾里得擴散模型的 3D 調節機制,這使得 DiffLinker 成為一種多功能且最先進的生成方法,適用於各種基於結構的藥物設計任務。

表 1:ZINC、CASF 和 GEOM 測試集的效能指標。(來源:論文)

圖片

研究表明,DiffLinker 在生成片段對之間的化學相關 linker 方面的效能優於以前的方法。

該方法在合成可及性和藥物相似性方面取得了最先進的結果,這使得它在藥物設計管道中非常有用。

此外,DiffLinker 在生成的 linker 的化學多樣性方面明顯優於其他方法。

圖片

圖 2:在口袋條件和非條件條件下使用 DiffLinker 生成配體。(來源:論文)

研究人員進一步提出了一個更具挑戰性的基準,並表明該方法能夠成功 link 兩個以上的片段,這是其他方法無法做到的。

研究還證明了 DiffLinker 可以以靶標蛋白口袋為條件;模型尊重周圍蛋白質原子施加的幾何約束,並生成在結構上與相應口袋相容的分子。

三個案例研究

為了證明 DiffLinker 在實際藥物設計應用中的相關性,研究人員提供了三個案例研究:熱休克蛋白 90 (Hsp90) 和肌苷 5'-單磷酸脫氫酶 (IMPDH) 抑制劑的基於片段的設計,以及用於提高 c-Jun 氨基末端激酶 (JNK) 選擇性的支架跳躍(scaffold hopping)。

Hsp90 是一種分子 chaperone,參與多種蛋白質的摺疊,包括那些參與致癌轉化的蛋白質。DiffLinker 成功復現了參考文獻中報告的抑制劑。重現參考抑制劑分子的所有三個 DiffLinker 樣品的對接分數與參考分數相當。

圖片

圖 3:Hsp90 作為基於片段的配體生成的實際示例。(來源:論文)

IMPDH 是一個有吸引力的結核病藥物靶點,在鳥嘌呤核苷酸的從頭合成中發揮著重要作用。DiffLinker 復現文獻報導的兩個最有效的抑制劑:化合物 30 和化合物 31。儘管 DiffLinker 沒有重現化合物 29,但它生成了 Tanimoto 距離相似的分子。

圖片

圖 4:基於片段的 IMPDH 抑制劑設計案例研究。(來源:論文)

JNK 是絲裂原啟用蛋白激酶的一個重要蛋白家族,可調節多種細胞過程,包括細胞增殖、凋亡、自噬和炎症。研究了 DiffLinker 生成一組不同支架的能力。

DiffLinker 復現了吲唑和氨基吡唑支架。此外,還確定了生成的支架的 238 個獨特拓撲,這表明 DiffLinker 能夠透過 linker 區域的取樣來廣泛探索潛在相關支架的空間。

圖片

圖 5:探索化學多樣性以提高 JNK 抑制劑的選擇性。(來源:論文)

研究人員表示,「DiffLinker 是第一個不受輸入片段數量限制並考慮口袋資訊的方法。我們的總體目標是,為從業者提供在真實藥物設計中生成分子 linker 的有效工具。」

相關文章