多功能RNA分析,百度團隊基於Transformer的RNA語言模型登Nature子刊

ScienceAI發表於2024-05-15

圖片

編輯 | 蘿蔔芯

預訓練語言模型在分析核苷酸序列方面顯示出了良好的前景,但使用單個預訓練權重集在不同任務中表現出色的多功能模型仍然存在挑戰。

百度大資料實驗室(Big Data Lab,BDL)和上海交通大學團隊開發了 RNAErnie,一種基於 Transformer 架構,以 RNA 為中心的預訓練模型。

研究人員用七個資料集和五個任務評估了模型,證明了 RNAErnie 在監督和無監督學習方面的優越性。

RNAErnie 超越了基線,分類準確率提高了 1.8%,互動預測準確率提高了 2.2%,結構預測 F1 得分提高了 3.3%,展現了它的穩健性和適應性。

該研究以「Multi-purpose RNA language modelling with motif-aware pretraining and type-guided fine-tuning」為題,於 2024 年 5 月 13 日釋出在《Nature Machine Intelligence》。

圖片

RNA 在分子生物學的中心法則中扮演著關鍵角色,它負責將 DNA 中的遺傳資訊傳遞給蛋白質。

RNA 分子在基因表達、調控和催化等多種細胞過程中起著至關重要的作用。鑑於 RNA 在生物體系中的重要性,對 RNA 序列進行高效、準確的分析方法需求日益增長。

傳統的 RNA 序列分析依賴於如 RNA 測序和微陣列等實驗技術,但這些方法通常成本高昂、耗時且需要大量的 RNA 輸入。

為了應對這些挑戰,百度 BDL 和上海交通大學團隊開發了一種預訓練的 RNA 語言模型:RNAErnie。

RNAErnie

該模型建立在知識整合增強表示(ERNIE)框架之上,幷包含多層和多頭 Transformer 塊,每個 Transformer 塊的隱藏狀態維度為 768。預訓練是使用一個廣泛的語料庫進行的,該語料庫由從 RNAcentral 精心挑選的約 2300 萬條 RNA 序列組成。

所提出的基序感知預訓練策略涉及基礎級掩蔽、子序列級掩蔽和基序級隨機掩蔽,它有效地捕獲了子序列和基序級知識,豐富了RNA序列的表示。

此外,RNAErnie 將粗粒度 RNA 型別標記為特殊詞彙表,並在預訓練期間將粗粒度 RNA 型別的標記附加在每個 RNA 序列的末尾。透過這樣做,該模型有可能辨別各種 RNA 型別的獨特特徵,從而促進域適應各種下游任務。

圖片

圖示:模型概述。(來源:論文)

具體來說,RNAErnie 模型由 12 個 Transformer 層組成。在主題感知預訓練階段,RNAErnie 在從 RNAcentral 資料庫中提取的大約 2300 萬個序列的資料集上進行訓練,使用自我監督學習和主題感知多級隨機掩碼。

圖片

圖示:主題感知預訓練和型別引導微調策略。(來源:論文)

在型別引導的微調階段,RNAErnie 首先使用輸出嵌入預測可能的粗粒度 RNA 型別,然後利用預測的型別作為輔助資訊,透過特定於任務的頭來微調模型。

這種方法使模型能夠適應各種 RNA 型別,並增強其在廣泛的 RNA 分析任務中的實用性。

更具體地說,為了適應預訓練資料集和目標域之間的分佈變化,RNAErnie 利用域適應將預訓練主幹與三種神經架構中的下游模組組合在一起:具有可訓練頭的凍結骨幹網(FBTH)、具有可訓練頭的可訓練骨幹網(TBTH)和用於型別引導微調的堆疊(STACK)。

透過這種方式,所提出的方法可以端到端最佳化主幹和特定於任務的頭,或者使用從凍結主幹中提取的嵌入來微調特定於任務的頭,具體取決於下游應用。

效能評估

圖片

圖示:RNAErnie 捕獲多級本體模式。(來源:論文)

研究人員評估了該方法,結果顯示 RNAErnie 在七個 RNA 序列資料集(涵蓋超過 17,000 個主要 RNA 基序、20 個 RNA 型別和 50,000 個 RNA 序列)中優於現有先進技術。

圖片

圖示:RNAErnie 使用 ArchiveII600 和 TS0 資料集在 RNA 二級結構預測任務上的效能。(來源:論文)

使用 30 種主流 RNA 測序技術進行評估,證明了 RNAErnie 的泛化性和穩健性。該團隊採用準確度、精確度、召回率、F1 分數、MCC 和 AUC 作為評估指標,從而確保 RNA 序列分析方法的公平比較。

目前,將具有增強外部知識的 Transformer 架構應用於 RNA 序列資料分析的研究很少。從頭開始的 RNAErnie 框架整合了 RNA 序列嵌入和自我監督學習策略,從而為下游 RNA 任務帶來卓越的效能、可解釋性和泛化潛力。

此外,RNAErnie 還可以透過修改輸出和監控訊號來適應其他任務。RNAErnie 是公開可用的,是理解型別引導 RNA 分析和高階應用的有效工具。

侷限性

雖然 RNAErnie 模型在 RNA 序列分析方面有所創新,但仍面臨一些挑戰。

首先,該模型受到它可以分析的 RNA 序列大小的限制,因為長度超過 512 個核苷酸的序列會被丟棄,可能會忽略重要的結構和功能資訊。為處理較長序列而開發的分塊方法可能會導致有關遠端相互作用的資訊進一步丟失。

其次,這項研究的重點很窄,僅集中在 RNA 結構域上,沒有擴充套件到 RNA 蛋白質預測或結合位點識別等任務。此外,該模型在考慮 RNA 的三維結構基序(例如環和連線點)時遇到了困難,而這對於理解 RNA 功能至關重要。

更重要的是,現有的事後架構設計也有潛在的侷限性。

結語

儘管如此,RNAErnie 在推進 RNA 分析方面擁有巨大潛力。該模型在不同的下游任務中展示了其作為通用解決方案的多功能性和有效性。

此外,RNAErnie 採用的創新策略有望增強其他預訓練模型在 RNA 分析中的效能。這些發現使 RNAErnie 成為一項寶貴的資產,為研究人員提供了一個強大的工具來解開 RNA 相關研究的複雜性。

論文連結:https://www.nature.com/articles/s42256-024-00836-4

相關文章