編輯 | KX
RNA 分子在分子生物學中心法則中起關鍵作用,RNA 結構如何影響基因調控和功能一直是研究的熱門話題。準確預測 RNA 三維 (3D) 結構仍是一個難題。RNA 的結構靈活性導致實驗確定的資料稀缺,從而使計算預測工作變得複雜。
在此,香港中文大學、復旦大學、哈佛大學、智峪生科(Zelixir)等多機構團隊合作,提出一種基於 RNA 語言模型的深度學習方法 RhoFold+,用於準確、快速地進行從頭預測 RNA 三維結構。
透過整合在約 2370 萬個 RNA 序列上預訓練的 RNA 語言模型,並利用技術解決資料稀缺問題,RhoFold+ 為 RNA 3D 結構預測提供了完全自動化的端到端流程。
RhoFold+ 在單鏈 RNA 建模方面表現出很高的準確性,在 RNA 家族和型別之間具有出色的泛化能力,同時還能夠捕捉螺旋間夾角(IHA)和二級結構等區域性特徵。
對 RNA-Puzzles 和 CASP15 天然 RNA 靶標的回顧性評估表明,RhoFold+ 優於包括人類專家組在內的現有方法。
相關研究以「Accurate RNA 3D structure prediction using a language model-based deep learning approach」為題,於 11 月 21 日釋出在《Nature Methods》上。
確定 RNA 3D 結構對於理解其功能,以及為 RNA 靶向藥物開發和合成生物學設計提供資訊至關重要。
RNA 分子的構象靈活性使得實驗確定其 3D 結構具有挑戰性。截至 2023 年 12 月,在蛋白質資料庫(PDB)中約 214,000 個結構中,僅 RNA 結構佔不到 1.0%,而含 RNA 複合物僅佔 2.1%。
計算方法已經成為利用 RNA 序列資料進行 RNA 3D 結構預測的補充方法。主要分為兩類:基於模板的建模,例如 ModeRNA 和 RNAbuilder,受模板庫有限的限制;以及從頭預測方法,包括 FARFAR2、3dRNA 和 SimRNA,這些方法更具預測性,但由於需要大規模取樣,計算量很大。
用於 RNA 3D 結構預測的自動化端到端平臺
RhoFold+ 用於準確、快速地從頭預測 RNA 3D 結構。RhoFold+ 是其前身 RhoFold 的完全自動化和可區分的改進,利用改進的多序列比對(MSA)整合和其他功能來提高效能。研究的主要重點是確定與其他分子相互作用有限的單鏈 RNA 的結構。
RhoFold+ 的開發是由 RNA 特異性知識和現有 RNA 3D 結構資料的侷限性指導的。
為了構建訓練資料集,研究人員使用 BGSU 代表性 RNA 結構集(版本 2022-04-13)從 PDB 中整理了所有可用的 RNA 3D 結構。研究專注於單鏈 RNA,並透過在 80% 序列相似性閾值下使用 Cd-hit 對序列進行聚類來減少冗餘,從而從 5,583 條 RNA 鏈中產生 782 個獨特的序列簇。
然後透過管道 RhoFold+ 處理這些 RNA 序列。首先,使用大型 RNA 語言模型 RNA-FM 對序列進行轉換,以提取進化和結構上知情的嵌入。同時,透過搜尋廣泛的序列資料庫生成 MSA。然後將嵌入和 MSA 特徵輸入到其 transformer 網路 Rhoformer 中,並迭代最佳化十個週期。
在此之後,結構模組採用了幾何感知注意機制和不變點注意力 (IPA) 模組來最佳化 RNA 主鏈中關鍵原子的區域性框架座標和扭轉角。在重建全原子座標後,應用了結構約束,例如二級結構和鹼基配對。
準確、快速地從頭預測 RNA 三維結構
在開發 RhoFold+ 之後,研究人員透過廣泛的測試嚴格地對其效能進行了基準測試和評估。包括 RNA-Puzzles 靶標和 CASP15 天然 RNA 靶標,以及所有可用的實驗確定的 RNA 3D 結構。
圖示:對 RhoFold+ 進行基準測試。(來源:論文)
RhoFold+ 在 CASP15 天然 RNA 靶標上顯示出最佳結果,並在 RNA-Puzzles 結構中實現了低於 4 Å 的平均均方根位移。RhoFold+ 效率高,只需 0.14 秒即可生成準確的預測,無需耗時的取樣或依賴專家知識。它可以很好地推廣到不同的資料集,包括新確定的 RNA 3D 結構,並在交叉摺疊、跨家族和跨型別驗證實驗中表現出色,突出了其穩健性和多功能性。
RhoFold+ 的成功並非源於模仿訓練資料;對序列相似性和 MSA profiles 的嚴格測試證實了它學習底層結構原理的能力。此外,RhoFold+ 超越了訓練資料中最好的單個模板,進一步凸顯了它的能力。RhoFold+ 還可以預測 RNA 二級結構和螺旋間角(IHA),使其成為輔助實驗設計的潛在有用工具。
未來方向
這些發現對更廣泛的 RNA 研究領域具有重要意義,特別是在加速對 RNA 結構的識別和功能理解方面。RhoFold+ 作為一種快速準確的 RNA 3D 結構預測方法,可能會增強基於 RNA 的藥物設計、合成生物學應用以及科學家對 RNA 在細胞過程中的作用的理解。此外,為 RhoFold+ 開發的 RNA 語言模型可以獨立應用,從而協助其他下游 RNA 應用 。
RhoFold+ 與深度學習方法有幾個共同的侷限性。它依賴於 MSA,而 MSA 通常不適用於人工設計或 orphan RNA,從而限制了它的準確性。此外,由於相關資料稀缺,RhoFold+ 難以預測大型複雜的 RNA 結構,尤其是具有多個螺旋或假結的 RNA 結構。由於許多 RNA 採用多種構象,該模型在準確捕捉 RNA 分子的動態特性方面也面臨挑戰。
此外,RhoFold+ 難以模擬涉及配體或蛋白質的複合物中的 RNA 相互作用,而這對於理解 RNA 在生物系統中的功能作用至關重要。
下一步,將整合探測資料、分子動力學和能量函式方法等,以提高 RhoFold+ 的準確性。此外,增強 MSA 提取過程並探索預測 RNA-蛋白質和 RNA-配體相互作用的方法將進一步增強其能力。
參考內容:https://www.nature.com/articles/s41592-024-02488-z