作者 | 佐治亞理工學院王浩瑞
編輯 | ScienceAI
分子發現作為最佳化問題,因其最佳化目標可能不可微分而帶來顯著的計算挑戰。進化演算法(EAs)常用於最佳化分子發現中的黑箱目標,透過隨機突變和交叉來遍歷化學空間,但這會導致大量昂貴的目標評估。
在這項工作中,佐治亞理工學院、多倫多大學和康奈爾大學研究者合作提出了分子語言增強進化最佳化(MOLLEO),透過將擁有化學知識的預訓練大語言模型(LLMs)整合到進化演算法中,顯著改善了進化演算法的分子最佳化能力。
該研究以《Efficient Evolutionary Search Over Chemical Space with Large Language Models》為題,於 6 月 23 日釋出在預印平臺 arXix 上。
論文連結:https://arxiv.org/abs/2406.16976
分子發現的巨大計算挑戰
分子發現是一個複雜的迭代過程,涉及候選分子的設計、合成、評估和改進,在現實世界有廣泛的應用,包括藥物設計,材料設計,改善能源,疾病問題等。這個過程通常緩慢且費力,由於複雜的設計條件與評估分子屬性通常需要昂貴的評估(如溼法實驗、生物測定和計算模擬),即使是近似的計算評估也需要大量資源。
因此,開發高效的分子搜尋、預測和生成演算法已成為化學領域的一個研究熱點,以加速發現過程。特別是,機器學習驅動的方法在快速識別和提出有前途的分子候選物方面發揮了重要作用。
由於問題的重要性,分子最佳化受到了極大的關注,包括已經發展測試的超過20多種分子設計演算法(其中遺傳演算法和強化學習等組合最佳化的方法領先於其他生成模型和連續最佳化演算法),詳見最近Nature子刊的綜述文章。其中效果最佳之一的方法為進化演算法(EAs),這些演算法的特點是不需要梯度評估,因此非常適合用於分子發現中的黑箱目標最佳化。
然而,這些演算法的一個主要缺點是它們隨機生成候選結構而不利用任務特定的資訊,從而導致需要大量的目標函式評估。因為評估屬性的昂貴,分子最佳化除了找到最佳期待屬性的分子結構,同時也要最小化目標函式評估次數(也等同於提高搜尋效率)。
最近,LLM在多項與化學相關的任務中表現出了一些基本能力,如預測分子屬性、檢索最優分子、自動化化學實驗和生成具有目標屬性的分子。由於LLM在包含廣泛任務的大規模文字語料庫上進行了訓練,它們展示了通用的語言理解能力和基本的化學知識,使其成為化學發現任務的有趣工具。
然而,許多基於LLM的方法依賴於上下文學習(in-context learning)和提示工程,這在設計具有嚴格數值目標的分子時可能會出現問題,因為LLM可能難以滿足精確的數值約束或最佳化特定的數值目標。此外,單純依賴LLM提示的方法可能會生成物理基礎較差的分子,或者生成無法解碼為化學結構的無效SMILES字串。
分子語言增強進化最佳化
在本研究中,我們提出了分子語言增強進化最佳化(MOLLEO),該方法將LLM整合到EA中以提高生成候選物的質量並加速最佳化過程。MOLLEO利用LLM作為遺傳運算子,透過交叉或變異生成新的候選物。我們首次展示瞭如何將LLM整合到EA框架中以進行分子生成。
在該研究中,我們考慮了三個不同能力強度的語言模型:GPT-4、BioT5和MoleculeSTM。我們將每個LLM整合到不同的交叉和變異程式中,並透過消融研究證明了我們的設計選擇。
我們透過多個黑箱最佳化任務的實驗證明了MOLLEO的優越效能,包括單目標和多目標最佳化。對於所有任務,包括更具挑戰性的蛋白質-配體對接,MOLLEO均優於基線EA和其他25個強基線方法。此外,我們還展示了MOLLEO在ZINC 250K資料庫中的最佳JNK3抑制劑分子上進一步最佳化的能力。
我們的MOLLEO框架基於一種簡單的進化演算法,Graph-GA演算法,並透過在遺傳操作中整合化學感知的LLM來增強其功能。
我們首先概述了問題陳述,強調在黑箱最佳化中最小化昂貴目標評估的必要性。MOLLEO利用LLM(如GPT-4、BioT5和MoleculeSTM)在目標描述的指導下生成新的候選分子。
具體而言,在交叉步驟中,我們不是隨機結合兩個父分子,而是使用LLM生成最大化目標適應度函式的分子。在變非同步驟中,運算子根據目標描述對當前種群中最適應的成員進行變異。然而,我們注意到LLM並不總是生成適應度高於輸入分子的候選物,因此我們構建了選擇壓力,基於結構相似性過濾編輯過的分子。
實驗結果
我們在18個任務上評估了MOLLEO。任務選自PMO和TDC基準測試和資料庫,可以分為以下幾類:
- 基於結構的最佳化:根據目標結構最佳化分子,包括基於目標分子公式的同分異構體生成(isomers_c9h10n2o2pf2cl)和兩個基於匹配或避免骨架和亞結構基序的任務(deco_hop, scaffold_hop)。
- 基於名稱的最佳化:包括找到與已知藥物相似的化合物(mestranol_similarity, thiothixene_rediscovery)和三個多屬性最佳化任務(MPO),這些任務在重新發現藥物(如Perindopril, Ranolazine, Sitagliptin)的同時最佳化其他屬性,如疏水性(LogP)和滲透性(TPSA)。儘管這些任務主要涉及重新發現現有藥物而非設計新分子,但它們展示了LLM具有基本的化學最佳化能力。
- 屬性最佳化:包括簡單的屬性最佳化任務QED,衡量分子的藥物相似性。然後,我們關注PMO中的三個任務,衡量分子對以下蛋白質的活性:DRD2(多巴胺受體D2),GSK3β(糖原合酶激酶-3β),和JNK3(c-Jun氨基末端激酶-3)。此外,我們還包括了TDC中的三個蛋白質-配體對接任務(結構性藥物設計),這些任務比簡單的物理化學性質更接近現實世界的藥物設計。
為了評估我們的方法,我們按照PMO基準測試的方法,綜合考慮了目標值和計算預算,報告了前k個平均屬性值與目標函式呼叫次數的曲線下面積(AUC top-k)。
作為對比基準,我們使用了PMO基準測試中的頂級模型,包括基於強化學習的REINVENT、基礎進化演算法Graph-GA和高斯過程貝葉斯最佳化GP BO。
圖示:單目標任務的Top-10 AUC。(來源:論文)
我們在PMO的12項任務中進行了單目標最佳化實驗,結果上表所示,我們報告了每項任務的AUC top-10 得分以及各模型的總體排名。結果表明,使用任意一個大型語言模型(LLM)作為遺傳運算子,都能提高效能,超過預設的Graph-GA和其他所有基線模型。
GPT-4在12項任務中有9項表現優於所有模型,展示了其作為一個通用大語言模型在分子生成中的有效性與前景。BioT5在所有測試模型中取得了第二好的結果,總分接近GPT-4,說明在領域知識上訓練與微調的小模型在MOLLEO中也有很好的應用前景。
MOLSTM是基於CLIP模型在分子的自然語言描述和分子的化學式上微調的小模型,我們在進化演算法中在相同的自然語言描述上使用梯度下降演算法來產生不同的新分子,它的表現也優於其他的基準方法。
圖示:JNK3抑制隨迭代次數增加而出現的群體適應度。(來源:論文)
為了驗證將LLM整合到EA框架中的有效性,我們展示了初始隨機分子池在JNK3任務上的得分分佈。隨後,我們對池中的所有分子進行了一輪編輯,並繪製了編輯後分子的JNK3得分分佈。
結果表明,經過LLM編輯後的分佈都略微向更高的得分方向偏移,這表明LLM確實提供了有用的修改。然而,總體目標得分仍然較低,因此單步編輯並不足夠,在這裡使用進化演算法進行迭代最佳化是必要的。
圖示:與DRD3、EGFR或腺苷A2A受體蛋白對接時前10個分子的平均對接得分。(來源:論文)
除了PMO中的12個單目標最佳化任務外,我們還在更具挑戰性的蛋白質-配體對接任務中測試了MOLLEO,這些任務比單目標任務更接近於現實世界中的分子生成場景。上圖是MOLLEO和Graph-GA的前十個最好分子的平均對接評分與目標函式呼叫次數的關係圖。
結果表明,在所有三種蛋白質中,我們的方法生成的分子的對接評分幾乎都優於基線模型,並且收斂速度更快。在我們使用的三種語言模型中,BioT5表現最佳。在現實中,更好的對接評分和更快的收斂速度可以減少篩選分子所需的生物檢測次數,使這一過程在成本和時間上都更有效。
圖示:多目標任務的求和和超體積分數。(來源:論文)
圖示:Graph-GA和MOLLEO在多目標任務上的帕累托最優視覺化。(來源:論文)
對於多目標最佳化,我們考慮了兩個指標:所有最佳化目標的得分之和的AUC top-10和帕累托最優集的超體積。我們展示了多目標最佳化在三個任務中的結果。任務1和任務2受到藥物發現目標的啟發,旨在同時最佳化三個目標:最大化分子的QED、最小化其合成可及性(SA)評分(意味著更容易合成)以及最大化其對JNK3(任務1)或GSK3β(任務2)的結合評分。任務3更加具有挑戰性,因為它需要同時最佳化五個目標:最大化QED和JNK3結合評分,以及最小化GSK3β結合評分、DRD2結合評分和SA評分。
我們發現,在所有三個任務中,MOLLEO(GPT-4)在超體積和總和方面都始終優於基線的Graph-GA。在圖中,我們視覺化了任務1和任務2中我們的方法和Graph-GA的帕累托最優集(在目標空間中)。當在引入多個目標時,開源的語言模型的效能下降。我們推測這種效能下降可能源於它們無法捕捉大量資訊密集的上下文。
圖示:使用ZINC 250K中的最佳分子初始化MOLLEO。(來源:論文)
進化演算法的最終目標是改進初始分子池的性質並發現新分子,為了探索MOLLEO探索新分子的能力,我們用ZINC 250K中的最佳分子初始化分子池,然後使用MOLLEO和Graph-GA進行最佳化。在JNK3任務上的實驗結果顯示,我們的演算法始終能優於基線模型Graph-GA,並且能夠改進現有資料集中找到的最佳分子。
此外,我們還注意到BioT5的訓練集是ZINC20資料庫(包含14億化合物),MoleculeSTM的訓練集是PubChem資料庫(約25萬分子)。我們檢查了每個模型在JNK3任務中生成的最終分子是否出現在相應的資料集中。結果發現,生成的分子與資料集中並沒有重疊。這表明模型能夠生成新的、未在訓練集中出現的分子。
可應用於藥物發現、材料、生物分子設計
分子發現和設計是一個具有眾多實際應用的豐富領域,許多應用超出了當前研究的範圍,但與我們提出的框架仍然相關。MOLLEO將LLM與EA演算法結合,透過純文字的結合方式提供了靈活的演算法框架,在未來MOLLEO可以應用於藥物發現、昂貴的計算機模擬以及材料或大型生物分子的設計等場景。
未來工作我們將進一步關注如何提高生成分子的質量,包括其目標值和發現速度。隨著LLM的不斷進步,我們預計MOLLEO框架的效能也將繼續提升,使之成為生成化學應用中的一個有前景的工具。