編輯 | ScienceAI
小分子力場是藥物發現中的重要工具,在計算機輔助藥物設計中發揮關鍵作用。化學空間覆蓋廣泛且高效精確的小分子力場將為藥物發現奠定可靠的基礎。
儘管基於機器學習的 MLFF(如 ANI-2x,MACE-OFF23 等)能夠提供非常精確的小分子勢能面預測,但它們的訓練需要海量資料量,且推理速度較慢,還存在外推場景不確定度大等問題。這些問題限制了它們在藥物發現場景的應用。
以 Espaloma 為代表的一系列工作,在保留傳統力場勢函式形式的基礎上,使用 GNN 預測傳統力場引數,一定程度上平衡了力場的精度與效率,為傳統力場的發展開創了新的道路。
在此基礎上,位元組跳動的研究人員設計了符合物理約束的模型結構,構建了覆蓋廣闊化學空間的量化資料集,使用配套的訓練方案,開發了 ByteFF 力場。測試結果表明,ByteFF 在結構最佳化,分子勢能面預測等多項指標上都達到了 SOTA 水平。
相關研究以「Data-Driven Parametrization of Molecular Mechanics Force Fields for Expansive Chemical Space Coverage」為題,發表在《Chemical Science》上。
論文連結:https://pubs.rsc.org/en/content/articlehtml/2025/sc/d4sc06640e
研究背景
小分子力場是藥物發現中的重要工具,在虛擬篩選,分子對接以及自由能預測等計算方法中發揮關鍵作用。
隨著計算機輔助藥物設計(AIDD)和有機合成技術的發展,藥物發現中探索的化學空間範圍不斷擴大,迫切需求在廣闊化學空間內都能夠提供高精度預測的小分子力場。
近年來,量子化學和機器學習(ML)技術的發展,給上世紀發展起來的小分子力場提供了新的機遇。備受關注的機器學習力場(MLFF)儘管能夠提供高精度的預測,但由於 ML 模型的複雜性,存在訓練資料需求量大,推理速度慢等問題。因此很難構建一個計算效率高,且能覆蓋廣闊化學空間的 MLFF。
2022 年,Espaloma 力場提出了一種平衡精度和效率的方法。他們維持了傳統力場的勢函式形式,同時拋棄傳統的查表賦參方法,使用圖神經網路(GNN)預測傳統力場引數。資料驅動的引數化方法能夠最大限度提升傳統力場的精度,同時維持了計算效率。
在此基礎上,提高力場的精度與化學空間覆蓋,不僅是簡單的資料量放大,還需要與之匹配的模型結構和訓練策略設計。
模型結構與訓練策略
ByteFF 模型結構由 Featurization, GNN, Output 三層組成。
在 Featurization 層中,將每個原子和化學鍵的化學特徵提取為向量表示。GNN 層中,使用 EGT 結構進行資訊傳遞,充分利用原子和鍵的特徵,獲得每個原子和鍵的化學環境表示。Output 層中,根據結構的化學環境預測力場引數。
透過模型結構設計,ByteFF 保證了引數預測結果符合諸多物理限制,比如相同化學環境的結構有相同的結構引數預測,原子 partial charge 之和嚴格等於分子的總電荷等。
在訓練方面,研究人員構建了含有 2.4 M 不同分子碎片的 optimization 資料集和旋轉 3.2 M 不同二面角的 torsion 資料集。基於該資料集,研究者針對性地設計了 partial Hessian loss,能夠 end-to-end 對批次資料進行訓練。
由於傳統力場形式簡單,幾乎不可能完美擬合量化勢能面,研究者提出在 torsion 資料集上使用迭代「結構最佳化-訓練」的策略,保證 ByteFF 能夠在二面角這個關鍵自由度上提供準確的勢能面預測。
此外,研究者們使用預訓練、訓練、微調等多階段訓練流程,取得了最優的訓練效果。
效能評估
結構最佳化方面,ByteFF 顯著優於業界 SOTA(OPLS4+ffbuilder,標記為「OPLS4 cst」)。
ByteFF 能夠準確預測小分子包括環內和非環的二面角勢能面。
更多結果請參考原文獻。
總結與展望
得益於先進的網路結構設計,充足的訓練資料和與之匹配的訓練流程,ByteFF 在結構最佳化,分子勢能面預測等多個方面取得了卓越的效果。
ByteFF 繼承了 GAFF2 的非鍵引數,雖然保證了與 Amber 力場的適配,但在非鍵相互作用方面仍存在較大的提升空間,是今後重要的研究方向。
目前 ByteFF 免費 API 測試正在進行中,如有需要請聯絡論文的通訊作者,並註明單位和用途。歡迎同行們的試用與反饋。