自動識別最佳分子,降低合成成本,MIT開發分子設計決策演算法框架

ScienceAI發表於2024-06-21


圖片

編輯 | 紫羅

AI 在簡化藥物發現方面的應用正在爆炸式增長。從數十億種候選分子中篩選出可能具有開發新藥所需特性的分子。需要考慮的變數太多了,從材料價格到出錯的風險,即使科學家使用 AI,權衡合成最佳候選分子的成本也不是一件容易的事。

在此,MIT 研究人員開發了一個定量決策演算法框架 SPARROW,來自動識別最佳分子候選物,從而最大限度地降低合成成本,同時最大限度地提高候選物具有所需特性的可能性。該演算法還確定了合成這些分子所需的材料和實驗步驟。

SPARROW 考慮了一次合成一批分子的成本,因為多個候選分子通常可以從一些相同的化合物中衍生出來。此外,這種統一的方法可以從線上儲存庫和廣泛使用的 AI 工具中獲取有關分子設計、性質預測和合成規劃的關鍵資訊。

除了幫助製藥公司更有效地發現新藥外,SPARROW 還可以用於發明新的農用化學品或發現有機電子產品的專用材料等。

相關研究以《An algorithmic framework for synthetic cost-aware decision making in molecular design》為題,於 6 月 19 日釋出在《Nature Computational Science》上。

圖片

論文連結:https://www.nature.com/articles/s43588-024-00639-y

「化合物的選擇是一門藝術,有時它是一門非常成功的藝術。但鑑於我們擁有所有這些模型和預測工具,它們能提供關於分子可能如何表現以及如何合成的資訊,我們應該使用這些資訊來指導我們做出的決策。」論文通訊作者 、MIT 化學工程系助理教授 Connor Coley 說。

定量決策演算法框架 SPARROW

「合成規劃和基於獎勵的路線最佳化工作流程」(Synthesis Planning And Rewards-based Route Optimization Workflow,SPARROW),是一種用於驅動設計週期的演算法決策框架。

圖片

圖示:SPARROW 概述及其在分子設計週期中的作用。(來源:論文)

該研究建立在早期的問題公式的基礎上,用於同時選擇多個分子的合成路線,以及產品和工藝系統設計的整合。與傳統的篩選方法不同,SPARROW 使用一個多目標最佳化標準,平衡成本與效用,從候選分子庫中對分子及其假設的合成路線進行優先排序。

SPARROW 生成由候選目標分子和合成路線組成的反應網路。透過解決基於圖的最佳化問題,可以篩選出一組分子和合成路線,以最佳地平衡累積合成成本和效用。在此背景下,效用衡量評估分子屬性的價值。

效用的適當衡量標準將因應用和設計的不同階段而異。它可能包含分子屬性預測、這些預測中的不確定性或新資料點改善結構-屬性關係的潛力。必須向 SPARROW 提供一個候選庫,並提供相應的獎勵,以表明與每個候選分子相關的效用。

圖片

圖示:SPARROW 的問題表述。(來源:論文)

選擇一個分子所獲得的獎勵還取決於所選合成該分子的反應步驟是否成功。如果候選分子合成路線中的某個反應步驟失敗,則無法獲得任何資訊。研究人員透過最大化選擇一個候選分子的預期獎勵來形式化這一點,該預期獎勵可以用其獎勵乘以成功合成該分子的機率來表示。

平衡成本和效用,SPARROW 的目標可以形式化為所有選定目標的預期獎勵除以使用選定路線合成所有選定目標的成本。

複雜的成本考量

從某種意義上說,科學家是否應該合成和測試某種分子,歸結為合成成本與實驗價值的問題。然而,確定成本或價值本身就是一個難題。

SPARROW 透過考慮合成分子所涉及的共享中間化合物並將該資訊納入其成本與價值函式來應對這一挑戰。

「當你考慮設計一批分子的最佳化問題時,新增新結構的成本取決於你已經選擇的分子。」Coley 說。

該框架還考慮了諸如起始材料的成本、每條合成路線所涉及的反應數量,以及這些反應在第一次嘗試時成功的可能性等因素。

要使用 SPARROW,科學家需提供一組他們正在考慮測試的分子化合物,以及他們希望找到的屬性定義。

接下來,SPARROW 收集有關分子及其合成途徑的資訊,然後權衡每個分子的價值與合成一批候選物的成本。它會自動選擇符合使用者標準的最佳候選子集,併為這些化合物找到最具成本效益的合成路線。

論文一作 Jenna Fromer 說:「它在一步中完成了所有這些最佳化,因此它可以同時捕捉所有這些相互競爭的目標。」

多功能框架

SPARROW 的獨特之處在於它可以整合人類手工設計的分子結構、虛擬目錄中存在的分子結構,或生成式 AI 模型創造的從未見過的分子結構。

「我們有各種不同的想法來源。SPARROW 的吸引力之一在於你可以將所有這些想法放在一個公平的競爭環境中。」Coley 補充道。

研究人員透過三個案例研究展示了 SPARROW 協調分子設計週期的能力。這些應用說明了 SPARROW 如何(1)成功平衡資訊增益與合成成本,(2)捕捉一批分子合成成本的非加和性,以及(3)擴充套件至包含數百個分子的候選庫。

圖片

圖片

圖示:SPARROW 在 14 個 ASCT2 抑制劑候選庫中平衡成本和獎勵的能力證明。(來源:論文)

他們發現 SPARROW 有效地捕捉了批次合成的邊際成本,並確定了常見的實驗步驟和中間化學品。此外,它可以擴充套件以處理數百種潛在的分子候選物。

「在化學機器學習社群中,有許多模型可以很好地用於逆合成或分子性質預測,但我們實際上如何使用它們?我們的框架旨在發揮這些前期研究的價值。透過建立 SPARROW,我們希望能夠指導其他研究人員使用他們自己的成本和效用函式來思考化合物的篩選。」Fromer 說。

未來,研究人員希望向 SPARROW 中融入更多複雜性。例如,他們希望讓演算法能夠考慮到測試一種化合物的價值可能並不總是恆定的。他們還希望在其成本與價值函式中包含更多並行化學元素。

參考內容:https://news.mit.edu/2024/smarter-way-streamline-drug-discovery-0617

相關文章