實現5Å全原子RMSD,普渡大學深度學習方法準確預測RNA三級結構,登Nature子刊

ScienceAI發表於2025-01-28

圖片

編輯 | 蘿蔔皮

非編碼 RNA 在各種生物功能中發揮著調控作用,並且與人類健康、藥物設計等領域息息相關。

瞭解功能的機械機制需要三級結構資訊,然而,透過實驗確定 RNA 三維結構成本高昂且耗時,導致 RNA 序列和結構資料之間存在巨大差距。

為了應對這一挑戰,普渡大學(Purdue University West Lafayette)的研究人員開發了 NuFold 來準確預測 RNA 三級結構。

NuFold 是一個深度神經網路,針對輸入序列的輸出結構進行端到端訓練;它採用了鹼基中心表示法,可實現核糖環的靈活構象。

NuFold 在構建正確的 RNA 區域性幾何結構方面表現出特殊優勢。此外,NuFold 還能夠透過連結輸入序列來預測 RNA 的多聚體複合結構。

該研究以「NuFold: end-to-end approach for RNA tertiary structure prediction with flexible nucleobase center representation」為題,於 2025 年 1 月 21 日釋出在《Nature Communications》。

圖片

核糖核酸 (RNA) 是生物體的基本分子。除了作為轉錄中使用的信使 RNA 發揮核心作用外,RNA 分子還以非編碼 RNA (ncRNA) 的形式發揮各種生物學功能,它們參與基因調控和修飾等功能。

RNACentral 資料庫目前包含超過三千萬個 ncRNA 序列。ncRNA 在藥物設計中也備受關注,因為新藥可能被設計成抑制或模仿功能性 RNA 的活性。

在最新的研究中,普渡大學的研究團隊開發了一種使用端到端深度網路架構的從頭 RNA 結構預測方法 NuFold。該方法採用目標 RNA 序列,並透過經過全面訓練的單個網路生成三級結構模型。

圖片

圖示:NuFold 概述。(來源:論文)

該網路架構基於 AlphaFold2(AF2),這是一種蛋白質結構預測方法,在 2020 年的 CASP14(結構預測關鍵評估)中取得了出色的表現。

在 AF2 架構的基礎上,研究人員進行了重大修改。這些修改包括調整核酸序列,以二級結構作為輸入,修改預測 RNA 特定鹼基間角度、距離和原子位置的方法,以及允許 RNA 結構表示具有完全的靈活性。

該團隊的實現方法稱為核鹼基中心表示,可以最佳化核鹼基所有可旋轉鍵的角度。這種表示使他們能夠重現鹼基骨架中存在的任何靈活性,為精確的鹼基構象建模奠定了基礎。

與基於深度學習的方法相比,NuFold 是一種獨特的端到端模型,它直接從 MSA 輸出完整的原子模型並預測二級結構,這與許多其他深度學習模型不同,這些模型需要預測原子間距離和角度約束以用於後續的結構建模過程。

圖片

圖示:基準結果用於比較預測方法。(來源:論文)

目前來講,RhoFold 是唯一一個具有與 NuFold 類似架構的其他端到端模型。

這兩個架構的明顯差異在於,RhoFold 使用語言模型來處理輸入的 MSA,而 NuFold 以類似於 AF2 的更直接的方式獲取 MSA,並且 NuFold 將預測的二級結構資訊作為另一個輸入。

RNA 結構預測可能比蛋白質預測更困難,因為 RNA 分子更靈活,而且與蛋白質相比,可用的結構資料非常有限。該團隊研究了幾種克服這一困難的方法:為了增加訓練資料的數量,研究人員採用了一種自提煉技術,將被認為足夠準確的預測結構納入訓練集。

圖片

圖示:目標長度、MSA 深度、回收和宏基因組 MSA 對建模準確性的影響。(來源:論文)

為了增加輸入 MSA 的深度,科學家加入了宏基因組序列;事實證明,利用宏基因組序列作為輸入 MSA 並最佳化迴圈次數可提高 NuFold 的預測效能。在訓練過程中,他們採用了動態取樣策略,在易目標和難目標之間保持平衡。

此外,團隊還測試了幾個較小的網路,因為他們擁有的訓練資料比原始 AF2 中使用的蛋白質資料集要小。NuFold 對大多數測試目標實現了 5 Å 或更低的全原子 RMSD,幾乎完美地構建了構象,柔性末端和環狀區域除外。

未來

雖然 NuFold的表現明顯優於基於能量最小化的方法,但表現略差於近期釋出的一些基於深度學習的方法。

一個原因是,訓練資料量不足以支援這種完全原子級詳細模型。訓練資料不足對於任何 RNA 結構預測方法來說都是一個挑戰,但對於 NuFold 來說,這可能更為關鍵,因為它直接從深度神經網路建模完整的原子結構。

為了解決這個問題,結合不同的資料模式非常重要,例如提供 RNA 二級結構洞察的實驗資料,如 DMS-MaPseq 和 SHAPE-MaP。

關於未來的工作,由於 RNA 的構象會受到與其他分子相互作用的影響,因此多鏈、RNA 和蛋白質的結合是 NuFold 的一個擴充套件。除了 RNA 和蛋白質之外,使用小化合物建模也是一個重要的擴充套件,因為 RNA 是藥物發現的新興目標。

原始碼:https://github.com/kiharalab/nufold/

論文連結:https://www.nature.com/articles/s41467-025-56261-7

相關文章