提速1400倍,準確標註酶活性位點,浙大、澳門理工多模態深度學習方法,登Nature子刊

ScienceAI發表於2024-08-30

圖片

編輯 | 蘿蔔皮

註釋酶中的活性位點對於藥物發現、疾病研究、酶工程和合成生物學等多個領域的發展至關重要。儘管已經開發出許多自動註釋演算法,但速度和準確性之間的重大權衡限制了它們的大規模實際應用。

浙江大學、澳門理工大學等機構的聯合研究團隊引入了 EasIFA,一種酶活性位點註釋演算法,它融合了來自蛋白質語言模型和 3D 結構編碼器的潛在酶表示,然後使用多模態交叉注意框架將蛋白質水平資訊與酶促反應知識對齊。

EasIFA 比 BLASTp 速度提升 10 倍,召回率、準確率、f1 分數和 MCC 分別提升 7.57%、13.08%、9.68% 和 0.1012。

它還超越了基於經驗規則的演算法和其他基於 PSSM 特徵的最先進的深度學習註釋方法,在提高註釋質量的同時實現了 650 到 1400 倍的速度提升。這使得 EasIFA 成為工業和學術環境中傳統工具的合適替代品。

EasIFA 還可以有效地將從粗略註釋的酶資料庫獲得的知識轉移到較小的高精度資料集,突出了其對稀疏和高質量資料庫進行建模的能力。

此外,EasIFA 還顯示出作為催化位點監測工具的潛力,可用於設計具有超出其自然分佈所需功能的酶。

該研究以「Multi-modal deep learning enables efficient and accurate annotation of enzymatic active sites」為題,於 2024 年 8 月 27 日釋出在《Nature Communications》。

圖片

註釋酶活性位點具有挑戰性

酶作為生化反應的催化劑,在加速生物系統內外的化學反應中起著至關重要的作用。它們對於促進生長、新陳代謝和預防疾病等維持生命的過程至關重要。酶活性主要由活性位點的三維結構決定,這使得酶能夠特異性地結合某些底物並催化化學轉化。

儘管 DNA 測序技術的進步使得研究人員能夠每天從不同物種和來源獲得大量的酶序列,但準確註釋活性位點仍然是一項艱鉅的挑戰。

UniProt 資料庫顯示,儘管已鑑定出超過四千萬個酶序列,但其中只有不到 0.7% 的序列對其活性位點進行了高質量的註釋。鑑於測序酶的年增長率驚人,透過實驗技術對所有酶進行註釋是不現實的。

儘管已經開發出可靠的方法來註釋酶的功能(例如,預測酶的佣金數量),並且已經投入了大量研究來開發用於預測蛋白質活性位點的演算法,但仍然缺乏可靠、快速且強大的工具來註釋酶活性位點。

這主要是因為預測酶活性位點本身就很複雜,因為工具需要精確瞭解酶與其特定底物之間的關係以及反應型別,並區分各種型別的活性位點,例如直接參與反應的結合位點和催化位點。

此外,高質量的酶活性位點註釋資料稀缺。這些因素對傳統的蛋白質活性位點預測工具提出了重大挑戰。

因此,準確預測酶活性位點的方法對於生物學、藥理學和生物工程領域的各種科學研究至關重要。正確理解酶促反應對於推進藥物設計和發現、闡明疾病機制和促進酶工程的進展有著重要意義。

新的多模態 DL 方法應對挑戰

為了解決現有酶活性位點註釋演算法所面臨的挑戰,浙江大學、澳門理工大學等機構的聯合研究團隊提出了一種基於深度學習的酶活性位點註釋演算法 EasIFA。

圖片

圖示:EasIFA 模型架構。(來源:論文)

EasIFA 的創新之處在於:

(1)使用 PLMs-Structure 融合方法來表示酶,從而生成更全面的酶結構資訊描述;

(2)透過基於圖注意網路的反應表示分支引入特定的酶反應作為附加特徵,並在大型有機化學資料集上進行預訓練,可以表示相對有限的酶反應資訊;

(3)使用基於注意機制的可解釋跨模態互動網路將酶反應資訊整合到酶表示中,即將酶和其催化的生化反應的表徵結合起來,完成活性位點註釋的任務。

透過多次計算驗證,EasIFA 演算法不僅在 (1) 定位活性位點和 (2) 註釋其型別的預測準確度方面優於所有基準演算法,而且還表現出卓越的預測速度。

圖片

圖示:SwissProt E-RXN ASA 測試集中的效能指標。(來源:論文)

在 SwissProt E-RXN ASA 資料集上的實驗結果表明,EasIFA 在註釋酶活性位點方面明顯優於目前主流演算法(即 BLASTp、AEGAN 和 SiteMap)。

此外,與在催化位點預測任務中表現出類似效能的基於 PSSM 特徵的圖網絡演算法相比,EasIFA 演算法的推理速度提高了約 1400 倍。

具體來說,EasIFA 比最先進的模型 AEGAN 快 1300 倍,比使用整個 SwissProt 作為知識庫的 BLASTp 快 10 倍,召回率額外提升了 7.85%。

得益於 EasIFA 在註釋酶活性位點方面的高質量和極快的速度,研究人員還基於該演算法開發了一個使用者友好的網路伺服器計算工具。

圖片

相關工具:http://easifa.iddd.group

為了克服不同資料庫中相同酶活性位點的註釋趨勢和標準的顯著差異,研究人員採用了遷移學習的方法,嘗試在具有不同註釋特徵和趨勢的酶活性位點庫之間進行知識轉移。

這使得在大型、粗略註釋的資料庫上訓練的模型可以轉移到較小的、精細註釋的資料集上。在 MCSA 等高質量資料庫上訓練的 EasIFA 模型有望與 EzMechanism 等自動酶機制註釋方法產生協同作用,擴大酶反應催化機制資料庫的知識領域。

EasIFA 能夠從大規模、相對粗略的註釋資料訓練過渡到高質量、手動註釋的酶催化位點機制資料集,並保持高水平的預測準確性。經過轉移訓練的 EasIFA 模型有望與 EzMechanism 等自動酶催化機制預測方法協同工作,增強酶反應催化機制資料庫的覆蓋範圍。

圖片

圖示:用於支架活性位點酶設計的活性監測器和可解釋的案例研究。(來源:論文)

另外,研究人員探索了 EasIFA 作為催化位點監測器在具有挑戰性的酶設計任務中的潛力,並開發了一種工作流程,將從天然酶中學到的活性位點知識擴充套件到更廣泛的人工酶領域,這些人工酶可能來自完全不同的分佈。

EasIFA 演算法的酶反應資訊相互作用網路可以透過注意力機制提取酶與其特定反應之間的機制資訊。視覺化突出顯示與催化殘基最相關的反應底物原子,具有很高的可解釋性。

結語

總體而言,EasIFA 可以輕鬆取代業界和學術界常用的標準註釋工具。在大多數情況下,它可以穩健地處理大規模酶活性位點註釋任務,減輕研究人員的負擔和成本,並促進藥物設計、疾病機制闡明和酶工程的發展。

論文連結:https://www.nature.com/articles/s41467-024-51511-6

相關文章