成功率提升15%,浙大、碳矽智慧用LLM進行多屬性分子最佳化,登Nature子刊

ScienceAI發表於2024-10-23
圖片

編輯 | 蘿蔔皮

最佳化候選分子的物理化學和功能特性一直是藥物和材料設計中的一項關鍵任務。

雖然人工智慧很適合處理平衡多個(可能相互衝突的)最佳化目標的任務,但是例如多屬性標記訓練資料的稀疏性等技術挑戰,長期以來阻礙瞭解決方案的開發。

在最新的研究中,浙江大學侯廷軍團隊、中南大學曹東昇團隊以及碳矽智慧團隊聯合開發了一種分子最佳化工具 Prompt-MolOpt。

它利用大型語言模型中使用的基於 Prompt 的嵌入來提高 Transformer 最佳化分子進行特定屬性調整的能力。

Prompt-MolOpt 擅長處理有限的多屬性資料(即使在零樣本設定下),因為它可以有效地概括從單屬性資料集中學習到的因果關係。

在與 JTNN、hierG2G 和 Modof 等成熟模型的比較評估中,與領先的 Modof 模型相比,Prompt-MolOpt 的多屬性最佳化成功率相對提高了 15% 以上。

此外,Prompt-MolOpt 的一個變體,即 Prompt-MolOptP,可以在結構變換下保留藥效團或任何使用者指定的片段,進一步拓寬其應用範圍。

透過構建定製的最佳化資料集,Prompt-MolOpt 將分子最佳化引導至與領域相關的化學空間,從而提高最佳化分子的質量。

該研究以「Leveraging language model for advanced multiproperty molecular optimization via prompt engineering」為題,於 2024 年 10 月 21 日釋出在《Nature Machine Intelligence》

圖片

在材料和分子設計領域,目標從來都不是簡單的,也從來都不是單一的。設計任務通常必須滿足許多(有時甚至可能相互衝突的)約束,例如要求候選藥物具有高效力和特異性。

然而,研究人員通常會簡化問題,並在漫長的設計過程的初始階段專注於發現滿足一些主要先決條件的分子。例如,在藥物設計中,首先透過篩選確定的命中化合物必須對特定的分子靶標表現出強活性。

在關鍵的藥物形成特性(如功效、安全性和藥代動力學)之間實現平衡是一項具有挑戰性的多目標最佳化。當前的分子最佳化方法主要針對單目標最佳化。

LLM 結合 Prompt 來靈活應對

大型語言模型 (LLM)(例如 GPT-3)最近已成為計算領域的關鍵實體,並在多學科領域獲得了廣泛關注。

這些 LLM 的一個顯著特點是它們善於利用 Prompt,這使它們具有無與倫比的零次和少次學習能力,以及在一系列任務中獨特的多功能性。

在分子最佳化中,基於 Prompt 的技術的應用可以有效地定製模型以解決複雜的最佳化目標,從而克服傳統的多目標障礙。

這種靈活的方法有助於描繪複雜的目標函式,從而避免了多目標最佳化中長期存在的需要明確構建多目標函式的瓶頸。

這種靈活性在藥物研發領域尤為重要,因為藥物研發領域經常受到資料稀缺的阻礙。

Prompt-MolOpt

浙江大學、中南大學、碳矽智慧的研究人員認為,透過使用具有特定於屬性的 token 嵌入的 Prompt,可以充分利用現有資料(無論多麼稀疏)來實現零次和少量學習能力,從而緩解因資料稀缺而引起的問題。

該團隊透過引入基於多功能 Transformer 架構的 Prompt 驅動分子最佳化方案 Prompt-MolOpt 來支援他們的觀點。

圖片

圖示:Prompt-MolOpt 的整體工作流程。(來源:論文)

值得注意的是,子結構掩碼解釋 (SME) 方法提供了類似於 MMPA 的單屬性最佳化方法。透過使用它,研究人員可以為任何可以構建預測模型的屬性生成領域相關的分子最佳化訓練資料集,從而作為 Prompt-MolOpt 的訓練基礎。

該團隊最初使用多圖注意神經網路(MGA)構建一個多工屬性預測模型,該模型能夠生成特定於屬性的原子節點嵌入。在分子結構最佳化過程中,透過向原子標記新增特定屬性的嵌入,引入 Prompt 來引導最佳化朝著指定屬性的方向發展。

測試結果表明,該方法在多屬性最佳化方面的表現遠遠優於現有方法。此外,該模型展示了少樣本學習和零樣本學習的潛力,與分子最佳化中的實際應用場景非常吻合。

圖片

圖示:分子最佳化資料集的構建。(來源:論文)

這種創新方法可以精確指定需要儲存的分子結構,同時巧妙地最佳化剩餘的結構,產生符合所需特性的分子。透過藥效團註釋和 Prompt,Prompt-MolOpt 促進了 AI 與領域專家之間的互動協作。

這種協同作用使專家能夠指導最佳化過程,無論是透過藥效團註釋保留關鍵結構元素,還是使用特定 Prompt 靈活選擇最佳化屬性。

與 JTNN、hierG2G 和 Modof 等成熟模型相比,Prompt-MolOpt 在多屬性最佳化方面表現出色,多屬性最佳化成功率相對提高了 15% 以上。

Prompt-MolOpt 的一個顯著優勢是其零樣本學習能力,即使在沒有直接進行多屬性訓練的情況下也能提供令人稱讚的效能。

值得注意的是,分子最佳化任務的成功複製,特別是在改善 BBBP 和減輕 hERG 心臟毒性方面,凸顯了 Prompt-MolOpt 在實際應用中的顯著有效性。

認識到在實際分子最佳化中保留藥效團的共同要求,研究人員提出了一種可以修復這些關鍵結構的模型變體(Prompt-MolOptp),從而允許有針對性的最佳化,同時保留所需的藥效團。

圖片

圖示:Prompt-MolOptp 分子最佳化框架概述。(來源:論文)

現實世界的最佳化案例(例如涉及血腦屏障通透性最佳化的測試)證實了 Prompt-MolOptp 的有效性,揭示了其在分子結構最佳化中的巨大潛力,併為多目標結構最佳化提供了一條有潛力的途徑。

圖片

圖示:Prompt-MolOptp 現實世界的多屬性和多站點 BBBP 最佳化案例研究。(來源:論文)

此外,Prompt-MolOpt 的綜合工作流程適用於各個領域的類似分子最佳化任務,不僅限於藥物發現,使其成為分子最佳化的有效工具。

改進空間

儘管取得了這些進步,Prompt-MolOpt 仍有改進空間。

首先,當前的最佳化沒有充分整合目標資訊以考慮活性。雖然研究人員將活性視為可最佳化屬性(DRD2)或透過固定的藥學大分子保留它,但利用目標蛋白質的 3D 資料將與現實世界的藥物設計場景更加契合。

其次,目前的方法並非專門用於處理手性,而手性對分子的物理化學性質有重大影響。手性是結構-活性關係中一個長期存在的挑戰,解決手性問題需要進一步探索。

第三,在構建資料集時,這裡依賴於 Murcko 子結構、逆合成有趣的化學子結構 (BRICS) 和功能基團的破壞,而不合並其他子結構,如生物電子等排體。在資料集構建中擴充套件更多的子結構將進一步增強模型的泛化能力。

同時,研究人員強調這三個挑戰更像是有待實施的工程任務,而不是根本性的障礙。

結語

總之,Prompt-MolOpt 在多屬性任務最佳化方面表現出了巨大的潛力,有望成為先進分子設計的強大工具。重要的是,除了藥物分子,這個流程很容易適應其他分子最佳化工作。

論文連結:https://www.nature.com/articles/s42256-024-00916-5

相關文章