編輯 | KX
基於結構的虛擬篩選在藥物發現中發揮著重要作用,科學家對數十億種化合物庫的篩選越來越感興趣。
但只有少數的篩選取得成功,此外,對於基於物理的對接方法而言,對整個超大型庫進行虛擬篩選耗時且成本高昂。
基於此,華盛頓大學研究團隊開發了一種高度準確的基於結構的虛擬篩選方法 RosettaVS,用於預測對接姿勢和結合親和力。
RosettaVS 在廣泛的基準測試中優於其他最先進的方法。研究人員將其整合到一個新的開源 AI 加速虛擬篩選平臺中,用於藥物發現。
利用這個平臺,針對兩個不相關的靶標,即泛素連線酶靶標 KLHDC2 和人類電壓門控鈉通道 NaV1.7,篩選了數十億種化合物庫。對於這兩個靶標,研究都發現了命中化合物,所有化合物的結合親和力均為個位數微摩爾。兩種情況下的篩選都在不到七天內完成。
相關研究以「An artificial intelligence accelerated virtual screening platform for drug discovery」為題,於 9 月 5 日釋出在《Nature Communications》上。
虛擬篩選用於藥物發現
基於結構的虛擬篩選是早期藥物發現的關鍵工具,隨著包含數十億種化合物的化學庫的出現,科學家對篩選廣闊的化學空間,從而發現先導化合物的興趣日益濃厚。
然而,虛擬篩選的成功在很大程度上取決於計算對接預測的結合姿勢(pose)和結合親和力的準確性。
近年來,已有許多技術用於超大型庫虛擬篩選,包括開發可擴充套件的虛擬篩選平臺,在高效能運算叢集(HPC)上並行對接執行、深度學習引導的化學空間探索、基於分層結構的虛擬篩選和 GPU 加速的配體對接等。
然而,使用上述技術進行虛擬篩選研究的成功,取決於用於預測蛋白質-配體複合物結構的配體對接程式的準確性,以及區分和優先考慮真正的結合物和非結合物。
在此,研究人員旨在開發一種「最先進的」(SOTA)基於物理的虛擬篩選方法和一個開源虛擬篩選平臺,能夠穩健高效地篩選數十億種化合物庫。
AI 加速虛擬篩選平臺
該團隊此前開發的 Rosetta GALigandDock 是一種配體對接方法,它使用基於物理的力場 RosettaGenFF,在配體對接精度方面表現出色。該方法可以精確建模蛋白質-配體複合物。然而,它不能直接適用於大規模虛擬篩選,基於物理的虛擬篩選方法對數十億種化合物庫中的每種化合物進行對接的成本過高。
為了解決這些問題,研究人員整合了多項增強功能並糾正了幾個關鍵問題,來促進對數十億種小分子的建模。
首先,透過整合新的原子型別和新的扭轉勢(torsional potentials )改進了 RosettaGenFF,並改進了預處理指令碼。其次,開發了 RosettaGenFF-VS 用於虛擬篩選,以對與同一靶標結合的不同配體進行排序,它將其之前模型的焓計算(∆H)與估計配體結合時熵變化(∆S)的新模型相結合。
為了能夠針對超大化合物庫進行篩選,研究人員採用了兩種策略。首先,開發了一種改進的對接協議 RosettaVS,它實現了兩種高速配體對接模式:虛擬篩選快速版 (VSX) 專為快速初步篩選而設計,而虛擬篩選高精度版 (VSH) 是一種更準確的方法,用於對初始篩選中的最佳匹配進行最終排序。兩種模式之間的主要區別在於 VSH 中包含了完整的受體靈活性。
即使有了這些加速,對接超過十億種化合物的成本也非常高昂。基於此,研究人員開發了一個開源虛擬篩選 (OpenVS) 平臺,該平臺使用主動學習技術在對接計算過程中同時訓練目標特定的神經網路,以高效地分類和選擇最有希望的化合物進行昂貴的對接計算。該平臺高度可擴充套件和可並行化,適用於大規模虛擬篩選。
RosettaVS 在虛擬篩選基準上表現出色
研究人員首先使用評分函式比較評估 2016 (CASF2016) 資料集對 RosettaGenFF-VS 的效能進行基準測試。RosettaGenFF-VS 取得了領先的效能,可以準確區分天然結合姿勢和誘餌結構。進一步分析表明,RosettaGenFF-VS 在廣泛的配體 RMSD 中都表現出色,與其他方法相比,它可以更有效地搜尋最低能量最小值。
接下來,進行了篩選能力測試。RosettaGenFF-VS 的前 1% 富集因子 (EF1% = 16.72) 遠遠優於次優方法 (EF1% = 11.9)。同樣,RosettaGenFF-VS 在識別排名前 1/5/10% 的分子中的最佳結合小分子方面表現出色,超越了所有其他方法。
最後,研究人員進一步評估了 RosettaVS 協議中 VSX 和 VSH 模式在「有用誘餌目錄」(DUD) 資料集上的虛擬篩選效能。
就受試者工作特徵 (ROC) 曲線富集和 ROC 曲線下面積 (AUC) 而言,結果表明 RosettaVS 為領先的虛擬篩選方法。
值得注意的是,RosettaVS 的表現比次優的方法高出兩倍(0.5/1.0% ROC 富集),在早期 ROC 富集方面取得了最先進的效能,進一步凸顯了 RosettaVS 的有效性。此外,由於它能夠模擬由配體引起的口袋側鏈的構象變化,VSH 模式略優於 VSX 模式。
先導化合物發現
研究使用 OpenVS 平臺篩選針對兩種不相關蛋白質的數十億個化合物庫:KLHDC2(一種人類泛素連線酶)和人類電壓門控鈉通道 NaV1.7。
整個虛擬篩選過程在本地 HPC 叢集上在七天內完成,每個目標配備了 3000 個 CPU 和一個 RTX2080 GPU。
從最初的虛擬篩選活動中,研究人員發現了一種 KLHDC2 化合物(命中率為 14%)和四種 NaV1.7 化合物(命中率為 44%),它們都表現出個位數 µM 的結合親和力。使用該虛擬篩選平臺的重點庫,可以發現另外六種與 KLHDC2 具有相似結合親和力的化合物。
最後,透過 X 射線晶體學驗證了 KLHDC2 複合物的對接結構,結果與預測的結合姿勢非常一致。這種探索、整理和測試的迭代過程強調了所提方法的穩健性及其在大型分子庫中發現有希望的化合物的潛力。
可進一步改進
儘管 RosettaVS 在各個方面都優於現有方法,但仍有進一步改進的空間。
GPU 加速和深度學習模型的整合,例如使用 GPU 加速配體對接或使用生成式 AI 進行有效的姿勢生成。
改進替代主動學習模型,以更好地指導化學空間探索,並結合可推廣的基於深度學習的評分函式,從而更好地區分真正的結合劑。
能夠使用已知的非小分子結合劑作為模板結構來指導小分子虛擬篩選。
未來,基於結構的虛擬篩選與深度學習技術的進一步發展將顯著提高虛擬篩選研究的準確性和效率。