編輯 | 蘿蔔皮
酶在許多生物過程中起著至關重要的作用,Enzyme Commission(EC)編號是編碼酶功能的常用方法。然而,目前的 EC 編號預測技術尚未充分認識到酶活性位點和結構特徵的重要性。
中山大學的研究團隊提出了 GraphEC,這是一個基於幾何圖學習的 EC 數量預測器,使用 ESMFold 預測結構和預訓練的蛋白質語言模型。同時,GraphEC 能夠從蛋白質結構中提取功能資訊。
該技術可用於識別未註釋的酶功能,以及預測其活性位點和最佳 pH 值,有可能促進合成生物學、基因組學和其他領域的進步。
該研究以「Accurately predicting enzyme functions through geometric graph learning on ESMFold-predicted structures」為題,於 2024 年 9 月 18 日釋出在《Nature Communications》。
酶透過催化多種反應在各種生物過程中發揮著重要作用。識別酶的功能對於研究代謝和疾病至關重要。通常採用酶委員會(EC)編號來將酶的功能表述為四位數字的結構,這提供了統一的方案並加快了酶工程領域的進步。然而,透過實驗確定 EC 編號既費時又費錢,開發用於識別 EC 編號的計算方法已勢在必行。
在最新的研究中,中山大學的研究團隊提出了 GraphEC(geometric Graph learning-based EC number annotation),這是一種基於預測的蛋白質結構和酶活性位點的酶功能預測精確網路。
GraphEC 是一種基於幾何圖學習的精確 EC 數量預測器,它將酶活性位點和預測的蛋白質結構納入酶功能預測中。給定一個蛋白質序列,用 ESMFold 預測其結構並用於構建蛋白質圖。
透過預測結構提取幾何特徵,並透過預訓練語言模型 (PtrotTrans) 計算序列嵌入來增強這些特徵。這些特徵被輸入到幾何圖形學習網路中,用於學習幾何嵌入,用於預測活性位點、EC 值和最佳 pH 值。
圖示:酶 EC 數預測。(來源:論文)
在這裡,首先透過 GraphEC-AS 預測酶活性位點,併為每個殘基分配權重分數。在權重分數的指導下,使用注意層和池化層計算 EC 數量的初始預測,並透過提取同源資訊透過標籤擴散演算法進一步改進。最後,透過注意力池將模型擴充套件至最佳pH值預測,以更好地表示反應條件(GraphEC-pH)。
透過對多個獨立測試的全面比較,該模型在預測活性位點、EC 值和最適 pH 方面優於所有最先進的方法。進一步分析表明,GraphEC 能夠從酶結構中學習功能資訊,進一步強調了幾何圖學習的有效性。
圖示:GraphEC 可以從蛋白質結構中提取功能資訊。(來源:論文)
雖然 GraphEC 表現出色,但在多個方面仍有改進空間。考慮到預測結構質量的影響,未來可以探索透過改善結構質量或合併其他序列特徵來增強模型的穩定性。此外,隨著大型語言模型的不斷髮展,研究人員可以利用它們從文字描述中提取重要資訊並增強模型的預測能力。
總而言之,該團隊開發了一種準確、快速的 EC 數量預測器 GraphEC。研究人員可以利用它僅從酶序列中準確預測酶的功能。對於特定的酶,研究人員可以進一步分析它們的功能區域(活性位點)並確定它們的反應條件(pH值),這將有助於實驗研究。
論文連結:https://www.nature.com/articles/s41467-024-52533-w