作者 | 康奈爾大學杜沅豈
編輯 | ScienceAI
隨著 AI for Science 受到越來越多的關注,人們更加關心 AI 如何解決一系列科學問題並且可以被成功借鑑到其他相近的領域。
AI 與小分子藥物發現是其中一個非常有代表性和很早被探索的領域。分子發現是一個非常困難的組合最佳化問題(由於分子結構的離散性)並且搜尋空間非常龐大與崎嶇,同時驗證搜尋到的分子屬性又十分困難,通常需要昂貴的實驗,至少是至少是模擬計算、量子化學的方法來提供反饋。
隨著機器學習的高速發展和得益於早期的探索(包括構建了簡單可用的最佳化目標與效果衡量方法),大量的演算法被研發,包括組合最佳化,搜尋,取樣演算法(遺傳演算法、蒙特卡洛樹搜尋、強化學習、生成流模型/GFlowNet,馬爾可夫鏈蒙特卡洛等),與連續最佳化演算法,貝葉斯最佳化,基於梯度的最佳化等。同時現有較為完備的演算法衡量基準,比較客觀公平的比較方式,也為開發機器學習演算法開拓了廣闊的空間。
近日,康奈爾大學、劍橋大學和洛桑聯邦理工學院(EPFL)的研究人員在《Nature Machine Intelligence》發表了題為《Machine learning-aided generative molecular design》的綜述文章。
論文連結:https://www.nature.com/articles/s42256-024-00843-5
該綜述回顧了機器學習在生成式分子設計中的應用。藥物發現和開發需要最佳化分子以滿足特定的理化性質和生物活性。然而,由於搜尋空間巨大和最佳化函式不連續,傳統方法既昂貴又容易失敗。機器學習透過結合分子生成和篩選步驟,進而加速早期藥物發現過程。
圖示:生成式 ML 輔助分子設計流程。
生成性分子設計任務
生成性分子設計可以分為兩大正規化:分佈學習和目標導向生成,其中目標導向生成可以進一步分為條件生成和分子最佳化。每種方法的適用性取決於具體任務和所涉及的資料。
分佈學習 (distribution learning)
- 分佈學習旨在透過對給定資料集分子的機率分佈建模來描述資料的分佈,從而從學習到的分佈中取樣新分子 。
條件生成 (conditional generation)
- 屬性條件生成 (property-conditioned generation):生成具有特定屬性的結構,可以為一個文字的描述,或者一個具體屬性的數值 。
- 分子子結構條件生成(molecular (sub)structure-conditioned generation):生成具有特定結構約束的分子,例如設計部分結構、支架跳躍、連線子設計、重新設計整個結構(先導最佳化)或整個分子的條件生成(構象生成)。
- 目標條件生成 (target-conditioned generation):旨在生成對特定疾病相關生物分子靶點具有高結合親和力的分子。與屬性條件生成不同,目標條件生成利用對靶點結構的顯式訪問,透過整合直接的靶點-配體相互作用來提高配體分子與靶點的親和力 。
- 表型條件生成 (phenotype-conditioned generation):涉及從基於細胞的顯微鏡或其他生物檢測讀數(如轉錄組資料)中學習表型指紋,以提供條件訊號,指導生成朝向理想的生物學結果的分子。
分子最佳化 (molecule optimization)
- 分子最佳化在藥物發現中起著關鍵作用,透過細化藥物候選者的屬性來提高其安全性、有效性和藥代動力學特性。涉及對候選分子結構進行小的修改,以最佳化藥物性質,如溶解度、生物利用度和靶點親和力,從而提高治療潛力並增加臨床終點的成功率 。
圖示:生成任務、生成策略和分子表徵的圖示。
分子生成流程
分子生成是一個複雜的流程包括許多不同的組合單元,我們在下圖中列出了代表性的工作,並且介紹每一個部分的代表性單元。
分子表示
在開發分子生成的神經架構時,首先要確定分子結構的機器可讀輸入和輸出表示。輸入表示有助於將適當的歸納偏差注入模型,而輸出表示則確定了分子的最佳化搜尋空間。表示型別決定了生成方法的適用性,例如,離散搜尋演算法只能應用於圖和字串等組合表示。
雖然已經研究了各種輸入表示,但對錶示型別和編碼它們的神經架構的權衡還不明確。分子之間的表示轉換並不一定是雙射的,例如,密度圖和指紋無法唯一識別分子,需要進一步的技術來解決這一非平凡的對映問題。常見的分子表示包括字串、二維拓撲圖和三維幾何圖 。
- 基於字串的分子結構:通常編碼為字串,如簡化的分子輸入線條輸入系統(SMILES)或自引用嵌入字串(SELFIES)。SMILES 用語法規則表示分子,但字串可能無效;SELFIES 透過修改這些規則確定了分子的有效性。分子字串通常透過遞迴網路和 Transformer 模型編碼為序列資料 。
- 基於拓撲和幾何圖的原子和鍵:通常在拓撲圖中表示為節點和邊。圖神經網路(GNNs)常用於建模圖結構分子資料,基於相鄰節點更新節點和邊特徵。在三維資訊可用且相關時,幾何 GNNs 常用於捕捉三維空間中的應用相關對稱性,如平移和旋轉不變性或等變性 。
表示粒度是生成模型設計中的另一個考慮因素。通常,方法利用原子或分子片段作為生成期間的基本組成單元。基於片段的表示將分子結構細化為包含原子組的較大單元,攜帶層次資訊,如官能團標識,從而與傳統的基於片段或藥效團藥物設計方法對齊 。
生成方法
深度生成模型是一類估計資料機率分佈並從學習分佈中抽樣的方法(也稱為分佈學習)。其中包括變分自編碼器,生成對抗網路,正則化流 (normalizing flows),自迴歸模型,擴散模型。這些生成方法中的每一種都有其適用的情境和優缺點,具體的選擇取決於所需任務和資料特徵。
生成策略
生成策略指模型輸出分子結構的方式,一般可以分為一次性生成、順序生成或迭代改進 。
一次性生成:一次性生成在模型的單次前向傳遞中生成完整的分子結構。這種方法通常難以生成具有高精度的真實和合理的分子結構。此外,一次性生成通常不能滿足顯式約束,如價態約束,這對於確保生成結構的準確性和有效性至關重要。
順序生成:順序生成透過一系列步驟構建分子結構,通常按原子或片段進行。順序生成中容易注入價態約束,從而提高生成分子的質量。然而,順序生成的主要限制是需要在訓練期間定義生成軌跡的順序,並且推理速度較慢。
迭代改進:迭代改進透過預測一系列更新來調整預測,避開一次性生成方法中的難點。例如,AlphaFold2 中的迴圈結構模組成功地將骨架框架精細化,這種方法啟發了相關的分子生成策略。擴散模型是一個常見技術,透過一系列降噪步驟生成新資料。目前,擴散模型已應用於多種分子生成問題,包括構象生成、基於結構的藥物設計和連線子設計。
最佳化策略
組合最佳化:對於分子(如圖或字串)的組合編碼,可以直接應用組合最佳化領域的技術 。
連續最佳化:分子可以在連續域中表示或編碼,例如在歐幾里得空間中的點雲和幾何圖,或在連續潛在空間中編碼離散資料的深度生成模型 。
生成性機器學習模型的評估
評估生成模型需要計算評價和實驗驗證。標準指標包括有效性、獨特性、新穎性等。評估模型時應綜合考慮多個指標,以全面評估生成效能。
實驗驗證
生成的分子必須透過溼法實驗來進行明確的驗證,這與現有研究主要關注計算貢獻形成鮮明對比。雖然生成模型並非沒有弱點,但預測與實驗之間的脫節也歸因於進行此類驗證所需的專業知識、昂貴的費用、以及漫長的測試周期。
生成模型規律
大多數報告實驗驗證的研究使用 RNN 和/或 VAE,並以 SMILES 作為操作物件。我們總結了四個主要觀察點:
- SMILES 雖然捕捉到的 3D 資訊有限,但作為一種高效的表示方式,適用於分佈學習和小資料集的微調。
- 許多實驗驗證的研究目標是激酶,這是 ChEMBL 等流行開源資料集中的常見靶點。
- 絕大多數目標導向的方法使用強化學習(單獨或作為元件)作為最佳化演算法,包括基於配體和基於結構的藥物設計。
- AlphaFold 預測的結構可以成功用於生成結構的藥物設計。
未來方向
儘管機器學習演算法為小分子藥物發現帶來了曙光,但是還有更多的挑戰與機遇需要面對。
挑戰
- 分佈外生成:已知化學物質只佔化學空間的一小部分。雖然深度生成模型可以提出訓練分佈之外的分子,但需要確保其合理性。
- 不現實的問題表述:精確的問題表述對於開發適用於現實世界藥物發現的模型至關重要。常常忽略的基本方面包括構象動態、水的作用和熵貢獻,而諸如無限訪問 oracle 呼叫的假設也常被錯誤地認為是理所當然的。這包含了樣本效率問題,最近的研究在有限 oracle 預算下的高效目標導向生成方面取得了進展。
- 低保真 oracle:在藥物發現相關維度上有效評分設計仍然困難,成為工業環境中部署生成模型的瓶頸。例如,高通量結合親和力預測在資料驅動和基於物理的工作流中通常不準確。雖然存在替代的高精度 oracle,但其計算需求限制了可擴充套件性。此外,高質量標註資料的不可獲取性也成為開發具有高精度和可管理 AI oracle 的障礙。
- 缺乏統一的評估協議:用於評估藥物候選物質量的評估協議與我們定義何為良好藥物的標準密切相關。ML 社群通常使用的易於計算的物理化學描述符存在疑問,肯定無法全面反映效能。在生成分子設計與虛擬篩選之間進行嚴格比較也較少見。
- 缺乏大規模研究和基準測試:許多ML方法已經開發出來,但在許多關鍵任務中的不同模型型別上沒有公平的基準測試結果。例如,僅使用了可用資料的一小部分進行訓練,限制了對模型可擴充套件性的理解。最近的基準測試對標準化計算評估協議的重要貢獻。
- 缺乏可解釋性:可解釋性是分子生成模型中一個重要但未充分探索的領域。例如,洞察生成或最佳化過程如何構建分子可以產生化學規則,這對藥物化學傢俱有解釋性。這在小分子領域尤其重要,因為生成模型通常用於向藥物化學家提交想法,合成障礙排除了測試所有生成設計的可能性。
機會
- 超越小分子設計的應用:這裡討論的方法可能在設計其他複雜結構材料(如多糖、蛋白質(特別是抗體)、核酸、晶體結構和聚合物)方面有更廣泛的應用。
- 大語言模型展示了透過文字指導的發現和決策作為代理來革新分子設計的潛力,這得益於大量可用的訓練資料,包括科學文獻。此外,針對分子結構進行定製或微調的模型為研究人員提供了利用自然語言處理中的成熟進展的額外機會。
- 藥物開發的後期階段:分子設計/最佳化佔據了藥物發現的早期階段。然而,由於有限的療效、較差的 ADME/T(吸收、分佈、新陳代謝、排洩和毒性)特性和安全問題導致的晚期失敗是藥物開發管道中的痛點。儘管有限,但將臨床資料整合到設計管道中是提高下游成功率的一個有希望的方向。
- 聚焦模型目的:藥物發現管道是製藥公司多年經驗和艱難教訓的結果。ML 研究人員應該不僅僅設計純粹的從頭設計模型(特別是在缺乏深度表徵能力時),還應設計聚焦於在多年過程中的特定步驟上改進的模型,符合現實約束。
- 自動化實驗室:對高通量實驗的需求不斷增加,以為 ML 設計的分子提供反饋,將越來越多的注意力集中在自動化實驗室上,以加快設計–製造–測試–分析迴圈。
作者: 杜沅豈,康奈爾大學計算機系二年級博士生,主要研究興趣,幾何深度學習,機率模型,取樣,搜尋,最佳化問題,可解釋性,與在分子探索領域的應用,具體資訊見:https://yuanqidu.github.io/。