分子特性預測新框架來了!浙大侯廷軍團隊、匹茲堡大學聯合提出跨通道學習,各大基準表現亮眼

ScienceAI發表於2025-01-09

圖片

編輯 | 蘿蔔皮

可靠的分子特性預測對於各種科學研究和工業應用(例如藥物研發)至關重要。

然而,由於資料稀缺,加上物理化學和生物特性與傳統分子特徵化方案之間的高度非線性因果關係,使得開發穩健的分子機器學習模型變得異常複雜。

匹茲堡大學(University of Pittsburgh)與浙江大學侯廷軍團隊合作開發了一種多通道預訓練框架,可以穩健學習利用化學知識。

它利用分子內的結構層次,透過跨通道的不同預訓練任務嵌入它們,並在微調期間以特定於任務的方式聚合通道資訊。

該方法在各種分子特性基準中表現出了競爭力,並在特別具有挑戰性且普遍存在的場景(如活性懸崖)中具有強大的優勢。

該研究以「Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation」為題,於 2024 年 1 月 6 日釋出在《Nature Communications》。

圖片

自監督學習(SSL)已成為一種流行的解決方案,它利用大規模、未註釋的分子資料來學習化學空間的基礎表徵,這可能有利於下游任務。

然而,現有的分子 SSL 方法在很大程度上忽視了化學知識,包括分子結構相似性、支架組成以及在化學空間中操作時分子特性的上下文相關方面。它們還很難學習結構-活性關係中的細微變化。

當前的挑戰

具體來說,現有方法中的兩個主要缺點:

首先,在對比學習中,語義相似/不相似(即正/負)樣本的傳統公式並不適合分子圖。大多數圖對比方法透過圖擾動(例如節點/邊的新增/刪除)生成正樣本。但是,當應用於分子圖時,化學有效性可能很容易受到質疑。

分子還可能透過擾亂重要基序(例如,破壞芳香環)而失去基本特徵,從而將“語義”轉移得很遠。負樣本(即不同的分子)通常被同等對待,這本質上忽略了分子結構關係和特定分子成分的存在。

其次,幾乎所有現有的工作都試圖學習一個與上下文無關的分子表徵空間,目的是可以使它推廣到各種應用中。然而,這與分子特性通常與環境相關的事實相矛盾,無論是從物理角度(例如周圍環境)還是生物角度(例如與蛋白質的相互作用)。

換句話說,相同的 SSL 任務是否能夠在微調中與具有不同特性的各種下游任務很好地保持一致仍不確定,從而導致學習差距。

多通道學習新方法

為了應對上述挑戰,匹茲堡大學與浙江大學的研究人員提出了一個用於分子表徵學習的提示引導多通道學習框架。k 個通道中的每一個由特定的提示標記引導,負責學習一個專用的 SSL 任務。

本質上,預訓練模型能夠學習 k 個不同的表徵空間。在微調過程中,提示選擇模組將 k 個表徵聚合為一個複合表徵,並將其用於下游分子特性預測。這涉及確定哪個資訊通道與當前應用最相關,從而使表徵依賴於上下文。

同時,研究人員設計了預訓練任務以形成從全域性檢視到分子結構區域性檢視的插值。除了利用全域性分子對比學習和區域性上下文預測之外,他們還引入了支架對比距離的任務,強調了支架在影響分子特徵和行為方面的基本作用。

由於支架通常被視為新化合物設計的起點,支架距離旨在將具有相似支架(透過支架不變擾動生成)的分子對映到表徵空間中更近的位置。此外,它還會將具有不同骨架的分子分開,其中距離邊距是根據結構組成差異自適應計算的。

該框架主要包含三個主要部分,不同於傳統的分子預訓練-微調正規化:(1)提示引導的多通道學習,(2)具有自適應邊距的對比學習,以及(3)支架不變的分子擾動。

圖片

圖示:框架概述。(來源:論文)

整體框架使用 ZINC15 進行預訓練,並在 MoleculeNet5 中的 7 個分子特性預測任務和 MoleculeACE 中的 30 個結合效力預測任務上進行評估。

透過學習利用來自不同通道的資訊來應對不同的應用,該方法在兩個基準測試中都超越了各種表徵學習基準。更重要的是,新方法被證明能夠更有效地應對活性懸崖的挑戰,而競爭方法更容易受到負遷移的影響,從而導致效能大幅下降。

這表明,即使在預訓練之後,這些方法可能仍然更多地依賴於表面模式,或者在微調過程中更容易受到知識遺忘的影響,從而導致它們難以解決需要對化學知識有細緻理解的挑戰性問題。

相反,該框架學習到的表徵在微調過程中表現出了更強的保留預訓練知識的能力,與其他基線相比,提供了更好的可轉移性和穩健性。案例研究表明,即使僅依賴拓撲資訊,該方法也有潛力識別導致活動懸崖的關鍵模式。

圖片

圖示:表徵空間探測。(來源:論文)

侷限性

當然,也存在一些侷限性。該框架的一個限制是需要更有效的提示權重最佳化機制。使用粗糙度指數初始化提示權重可能會導致效能不佳。由於粗糙度指數是針對整個化學空間的全域性 QSPR 指標,因此它不考慮訓練集和測試集之間的任何分佈變化。

對於其他 QSPR 測量(例如 SALI、SARI),情況也是如此。因此,在指定分割下,最終表徵效能可能與初始粗糙度值的相關性較低。

圖片

圖示:結合效力預測。(來源:論文)

未來研究

未來研究有幾個有趣的方向。一個有希望的方向是將不同的輸入表徵形式納入框架。僅透過利用拓撲分子結構,該模型無法區分具有不同構象(例如,功能基團的方向或原子的手性)的分子成分,這可能會顯著改變生化行為。

此外,還有其他先進的資料驅動技術可用於研究結構-活性關係 (SAR),這些技術可能與這裡的框架相容。

如,Manelfi 的《Molecular Anatomy》認為,從支架碎片化和抽象的網路聚類可以實現高質量的 SAR 分析。此類研究旨在將化學資訊學知識轉移到機器學習模型中,從而有可能提高模型的可解釋性和穩健性。

更重要的是,該方法除了對藥物發現具有直接影響,其分子表徵穩健性可以進一步揭示其在化學其他子領域(如材料科學和環境化學)中應用的巨大潛力。

論文連結:https://www.nature.com/articles/s41467-024-55082-4

相關文章