編輯 | ScienceAI
科學研究的核心之一是發現能夠描述自然現象的規律性方程。這些方程不僅能加深我們對自然的理解,還能為複雜問題的解決提供明確指導。
然而,許多領域,尤其是材料和化學等依賴實驗的學科,因為變數眾多、過程複雜,傳統理論推導往往難以建立明確的關係。
近期,來自北京大學深圳研究生院、寧波東方理工大學(暫名)等機構的研究團隊結合自動化實驗平臺與人工智慧演算法,首次成功從實驗資料中挖掘出了物質分離過程中色譜關係的顯式數學公式。
該研究提出了一種知識發現技術、建立了可解釋的公式,將專家經驗(Chemist’s experience)轉化為「人工智慧經驗」(AI experience),為色譜分離實驗條件的確定與最佳化提供了理論支援。相關成果於2025年1月19日發表在《自然·通訊》(Nature Communications)上。
圖 1:相關工作於發表於 Nature Communications
挑戰與背景:從專家經驗到「AI經驗」
如果想要構建真正的「AI科學家」,必須實現對實驗資料的自動化分析與顯式公式的推導,從而有效推動對科學問題的認知與探索。然而,要達成這一目標尚面臨諸多科學挑戰:
- 其一、如何對多變數、多尺度的實驗資料進行通用化建模,以準確刻畫潛在的高維對映關係;
- 其二、不同實驗來源的資料在取樣方式、環境條件等方面存在差異,如何實現跨實驗資料的精準對齊與融合;
- 其三,如何提高可解釋性(Interpretability),為研究者提供透明可信的推理過程,以幫助他們深入理解背後的科學機制,而不僅僅是停留在「黑箱」式預測上。
在此背景下,該研究選取化學分離領域中常見的薄層色譜(TLC)和柱色譜(CC)作為研究物件,為上述問題提供一個具體的落腳點。
TLC 和 CC 同樣基於色譜原理(Chromatography)開展分析與分離,廣泛應用於合成化學實驗室。以柱色譜為例,實驗時通常先透過 TLC 測定混合物的保留因子(RF 值),依據該值評估組分與流動相的相對極性,並據此實時調整流動相的組成與比例,確保目標化合物的 RF 值大致在 0.2 到 0.3 之間。
儘管這一經驗性做法在實踐中行之有效,卻難以透過傳統分析方法對其背後的多尺度耦合機理進行系統闡釋,存在「知其然而不知其所以然」的現象,阻礙了研究者對色譜分離化學本質的深入理解。
因此,若能引入人工智慧手段,從大量實驗資料中自動挖掘並總結出可解釋的經驗方程,就有望將這類依賴「經驗+試錯」的方法體系化、公式化,進而提高實驗效率和可靠性。
圖 2:色譜分離的專家經驗與資料驅動的方程挖掘
AI 驅動的知識發現
為了解決上述問題,研究團隊設計了一套完整的資料驅動框架,藉助自動化實驗平臺和人工智慧技術,從實驗資料中系統性地挖掘化學分離的規律性方程。
首先,他們開發了高通量自動化 TLC 和 CC 實驗平臺,透過精準控制實驗條件生成大規模資料集。該平臺包括樣品載入、溶劑配製、色譜分離、吸光度檢測和結果分析的全流程自動化,大幅減少了人工干預可能帶來的誤差。
在資料獲取方面,研究團隊在自動化平臺上測量了 192 種化合物的RF值,並在不同實驗條件下記錄了 5984 條柱色譜資料點。這些資料涵蓋了化合物的分子結構、物理化學性質以及實驗設定引數,從而為機器學習模型的構建提供了充分支援。
圖 3:高通量自動化 TLC 和 CC 實驗平臺
為了從這些資料中提取規律,還需要消除不同實驗來源的資料在取樣方式、環境條件等方面存在的差異。研究團隊引入了代理模型(surrogate model),利用神經網路將 TLC 和 CC 資料點關聯起來,實現跨實驗資料的精準對齊與融合。這些代理模型透過複雜的高維特徵建模,預測了未觀察到的實驗資料。
圖 4:構建代理模型實現跨實驗資料的精準對齊與融合
此外,研究團隊使用符號迴歸(symbolic regression)技術,從模型預測中提取了顯式數學公式,並採用樹結構以表徵化合物性質的影響,提高可解釋性。這些公式揭示了RF值與柱層析保留體積之間的反比例關係,並透過統計驗證了其高擬合精度(R² 值超過 0.88)。
圖 5:柱色譜的保留時間與薄層色譜的 RF 值之間關係的公式識別與預測效果
與傳統機器學習模型不同的是,這些公式具備高度的可解釋性,能夠直觀地展示實驗變數之間的關係。例如,研究發現,RF 值與保留體積的關係不僅受溶劑比例的影響,還與化合物的分子結構緊密相關。這種定量化的規律性公式為化學家最佳化實驗條件提供了科學依據。
圖 6:表徵化合物影響的柱層析因子的迴歸樹模型的視覺化
此外,研究團隊進一步分析了這些公式的推廣性與泛化性,成功地將它們應用於不同規格的色譜柱。例如,透過遷移學習校正公式係數,可以將適用於 4 克色譜柱的公式推廣至 25 克柱和串聯柱。這種推廣不僅驗證了公式的通用性,還表明AI驅動的知識發現可以適應不同實驗條件。
應用價值與未來展望
這項研究的直接應用價值在於顯著提升了化學分離實驗的效率和可靠性,以化學中常用的 TLC 和 CC 實驗為例,驗證了利用人工智慧方法從實驗資料中提取顯式方程的可行性。
傳統上,研究人員需要透過多次試錯來確定最佳分離條件,而這種資料驅動的知識發現方法則可以透過簡單的薄層色譜實驗預測柱層析的分離效果,從而減少實驗次數和溶劑消耗。特別是在處理複雜混合物時,AI 發現的顯式公式為快速判斷分離可能性提供了強有力的工具。
更廣泛地看,這項研究展示了人工智慧在科學發現中的巨大潛力。與傳統理論推導不同,知識發現框架透過大資料分析和機器學習,從實驗資料中自動提取規律性公式。這種方法不僅可以揭示化學中的多尺度耦合機制,還可以推廣到其他科學領域。
例如,在生物學中,它可以用於分析基因調控網路的動態關係;在物理學中,它可以幫助構建複雜流體力學的數學模型。透過將人工智慧技術融入科學研究,我們有望加速科學知識的生成過程,推動各領域的跨學科創新。
論文連結:https://www.nature.com/articles/s41467-025-56136-x