準確率達95%,混合深度學習搜尋奈米生物材料,登Nature子刊

ScienceAI發表於2024-12-12

圖片

編輯 | 蘿蔔皮

超分子肽基材料具有革新奈米技術和醫學等領域的巨大潛力。然而,破譯其實際應用所必需的複雜序列到組裝途徑仍然是一項艱鉅的任務。

它們的發現主要依賴於需要大量資金的經驗方法,這阻礙了它們的顛覆性潛力。因此,儘管自組裝肽種類繁多,且具有明顯的優勢,但只有少數肽材料進入了市場。

基於實驗驗證資料進行訓練的機器學習可以快速識別具有高自組裝傾向的序列,從而將資源支出集中在最有前途的候選序列上。

克羅埃西亞裡耶卡大學 (University of Rijeka)的研究人員介紹了一個框架,該框架在基於元啟發式的生成模型中實現了精確的分類器,以在具有挑戰性的肽序列空間中進行搜尋。

為此,該團隊訓練了五個迴圈神經網路,其中使用聚集傾向和特定物理化學性質的序列資訊的混合模型取得了優異的效能,準確率為 81.9%,F1 得分為 0.865。

分子動力學模擬和實驗驗證已證實,生成模型在自組裝肽的發現中準確率為 80-95%,優於目前最先進的模型。

該研究以「Reshaping the discovery of self-assembling peptides with generative AI guided by hybrid deep learning」為題,於 2024 年 11 月 19 日釋出在《Nature Machine Intelligence》。

圖片

分子自組裝(SA)是由非共價弱相互作用驅動的基本化學過程,肽作為結構多樣的分子構件,能夠組裝成複雜的超分子材料。然而,實驗發現新型自組裝肽效率低、成本高,並因搜尋空間龐大而受限。

分子動力學(MD)模擬和機器學習(ML)為肽設計提供了新思路,尤其是ML模型透過更快的運算和更高效的資料處理,展現了在肽自組裝預測中的潛力。

圖片

圖示:擬議研究流程的概述。(來源:論文)

在最新的研究中,裡耶卡大學的研究團隊開發了一種基於 RNN 的方法,使用不規則取樣的不等長特徵來評估未分類肽的 SA 潛力,該方法基於氨基酸、二肽和三肽的 AP 分數作為任何給定目標肽的預測變數。

圖片

圖示:從資料集到滑動視窗機制和超引數最佳化的神經網路設定。(來源:論文)

此外,RNN 分類器用作基於搜尋的遺傳演算法中的適應度函式,以形成生成模型,用於發現具有高 SA 傾向的序列。該模型補充了人類的直覺,試圖基於 ML 輔助的無偏序列空間探索來識別具有高 SA 傾向的新肽。

具體來說,研究人員透過改變架構、輸入資料和訓練引數,開發了五種基於序列到組裝 RNN 的預測模型。使用透過長度為 1、2 或 3 個殘基的滑動視窗獲得的預先計算的 AP 分數以及特定的物理化學特性,然後用從文獻中整理的實驗資料對模型進行訓練。這使得模型能夠分析任意長度的序列,而無需使用 MD 進行大量的 AP 分數計算。

圖片

圖示:RNN 架構和各種效能評估。(來源:論文)

混合 AP–SP 模型可區分 SA 和 NSA 肽,F1 得分高達 0.865,並且其將知識推廣到現有資料集未探索的化學空間區域的能力已在生成模型中進行測試。使用 MD 模擬對生成的肽(十個 SA 和十個 NSA)進行驗證,證實了模型精度為 90–100%。

圖片

圖示:對選定的生成肽進行實驗驗證。(來源:論文)

研究人員對三種六肽和兩種十肽進行了真實實驗驗證。OD、衰減全反射 (ATR)-FTIR、ThT 測定和 TEM 測量證實,五種肽中有四種發生自組裝,這與 ML 引導生成模型中使用的 AP-SP 分類器 (81.9%) 的準確率一致。

因此,生成模型的表現優於人類和人工智慧專家,準確率高出 25% 至 35%。鑑於現有 SA 推理方法的資源密集型特性,ML 模型可以精確定位具有 SA 高度傾向的序列,同時所需的時間和資源更少。

研究人員相信,生成模型的準確性表明,他們開發的 ML 模型成功捕獲了儲存在實驗驗證資料中的底層規則。這在發現具有高自組裝機率的肽方面,提供了一種補充人類直覺的方法,併為未來智慧和自動駕駛實驗室的發展提供了機會,從而可以更快、更可持續地發現新材料。

論文連結:https://www.nature.com/articles/s42256-024-00928-1


相關文章