效能遠超當前SOTA,首個可解釋RNA的AI植物基礎模型來了,整合1124種植物RNA資訊

ScienceAI發表於2024-12-16

圖片

編輯丨&

植物 RNA 的複雜序列編碼了大量的生物調節元件,這些元件在協調植物生長、發育和適應環境壓力的關鍵方面起到重要作用。基礎模型 (FM) 的最新進展證明了它們在破譯生物學中複雜“語言”方面前所未有的潛力。

於最近的研究中,東北師範大學、英國約翰·英尼斯中心( John Innes Centre)和埃克塞特大學(University of Exeter)等組成的團隊提出了 PlantRNA-FM,一種專為植物設計的高效能且可解釋的 RNA 基礎模型。

模型整合了來自 1,124 種不同植物物種的 RNA 序列和 RNA 結構資訊,PlantRNA-FM 在植物特異性下游任務中表現出卓越的效能。

PlantRNA-FM 的基因區域註釋 F1 評分為 0.974,而目前表現最好的模型達到 0.639。

PlantRNA-FM 由團隊的可解釋框架提供支援,有助於識別具有生物學功能的 RNA 序列和結構基序,包括跨轉錄組的 RNA 二級和三級結構基序,使植物科學家能夠對植物中的 RNA 密碼進行程式設計。

本成果以「An interpretable RNA foundation model for exploring functional RNA motifs in plants」為題,於 2024 年 12 月 9 日刊登於《Nature Machine Intelligence》。

圖片

透過實驗驗證,該團隊揭示了植物中翻譯相關的 RNA 基序。PlantRNA-FM 還強調了這些功能 RNA 基序在基因區域的位置資訊的重要性。

PlantRNA-FM

隨著 AI 領域的基礎模型 FM 激增,生命科學的推進腳步也在加快。FM 的特點是規模龐大,通常包含數百萬乃至數十億個引數。這些引數以自我監督的方式對各種形式的未標記資料進行預訓練。

這種龐大的標記獲取量對於貪婪而需求苛刻的生物科學來說是最理想的選擇。更重要的是,FM 透過微調就會具有高度適應性,有望幫助科學家透過定製專用 FM 來求解複雜生物過程。

為了理解 RNA,研究人員需要使用序列資訊對 PlantRNA-FM 進行預訓練。但是光有序列資訊是不夠的,因為 RNA 可以形成對其功能很重要的二級或三級結構基序。

團隊創造性地開發了 PlantRNA-FM,旨在全域性識別植物中的功能性 RNA 基序,包括 RNA 序列和結構基序。透過整合來自 1,124 種不同植物物種的 RNA 序列、註釋和結構資訊,PlantRNA-FM 捕獲了植物轉錄組的廣泛多樣性。

圖片

圖 1:PlantRNA-FM預訓練階段示意圖。

值得注意的是,PlantRNA-FM 在轉錄組範圍的尺度上鑑定了對翻譯功能很重要的 RNA 基序,包括 RNA 序列以及二級和三級結構基序。

PlantRNA-FM 的開發代表了團隊在轉錄組中核苷酸的廣泛複雜性中破譯隱藏的調控密碼的能力方面取得了顯著的飛躍,為基於 RNA 的基因調控開闢了新的途徑。

卓越效能與實際成果

開發團隊利用1,124個物種的轉錄測序資源,為 PlantRNA-FM 生成了預訓練資料集。針對 RNA 理解而不是生成進行最佳化。

他們的標記化方法確保在整個預訓練過程中將 RNA 結構基序儲存為連貫單元。此外,他們還整合了RNA 註釋資訊(CDS 和 UTR)並使用了先進的預訓練技術,如序列截斷、過濾和掩蔽核苷酸建模。

F1 分數是精確率和召回率的調和平均值,用於衡量模型在這些資料集上的預測效能。在這項數值上面,PlantRNA-FM 的三個得分為 0.750、0.924 和 0.981,而單獨的 RNAfold 僅獲得 0.278、0.759 和 0.748 。

得益於對 RNA 結構資訊的獨特整合,PlantRNA-FM 可以更準確地預測 RNA 結構。而為了更好的評估 PlantRNA-FM 的效能,團隊策劃了一個基準集,由其他四個最先進的 FM 組成。

圖片

圖 2:在植物特異性資料集上微調 PlantRNA-FM。

團隊採用了兩種未包含在預訓練集中的植物的轉錄組,並分別對其 RNA 基因註釋區預測。最終結果是 PlantRNA-FM 以高於第二名近50%的分數穩居第一。

團隊意識到,AI 模型應用在生物學的關鍵應該是在於揭示 AI 在其中學習到的生物學原理。

為此,他們建立了一個可解釋框架,並開發了兩個並行模型。前者是真實模型,後者是背景模型,採用相同的資料集進行修改,但標籤分配更隨機。

實驗結果顯示,背景模型更接近於隨機機會,約為 50%,真實模型則高得多。這表明真實模型已成功學習相關 RNA 特徵。

圖片

圖 3:模型可解釋框架揭示了翻譯相關的 RNA 特徵。

團隊利用模型的注意力對比矩陣與無監督的分層聚類策略進一步確定了對翻譯很重要的 RNA 二級結構基序。

特別的是,透過 PlantRNA-FM,他們還測得具有高鳥嘌呤-胞嘧啶 (GC) 鹼基對的低翻譯相關 RNA 二級結構基序與具有 GC 和腺嘌呤-尿嘧啶 (AU) 鹼基對平衡比例的高翻譯相關 RNA 結構基序。

除此之外,團隊還利用 PlantRNA-FM 在轉錄組範圍的規模上鑑定了翻譯相關的 rG4s。結果表明,PlantRNA-FM也能夠識別整個轉錄組中的功能性 RNA 三級結構基序。

開創性的模型

與傳統的基因分析相比,PlantRNA-FM 能夠全面瞭解功能性 RNA 基序,例如 RNA 基序的型別、基因位置以及對其功能的確切貢獻,包括正負面的影響。

建立者表示,該模型是一項智慧技術突破,可以推動植物科學的發現和創新,並有可能在整個無脊椎動物和細菌的研究中。

這一突破為理解和可能對植物進行程式設計創造了新的可能性,很大機率會對作物改良和下一代基於 AI 的基因設計產生深遠影響。

這是第一個具有 RNA 序列和結構資訊的可解釋 RNA FM,能夠闡明植物中新的翻譯相關 RNA 基序。PlantRNA-FM 有望改變人類確定調節基因表達的 RNA 基序方式,為 RNA 密碼程式設計開闢了全新的視野。

原文連結:https://www.nature.com/articles/s42256-024-00946-z

相關報導:https://phys.org/news/2024-12-ai-rna-language-life.html

原始碼:https://huggingface.co/yangheng/PlantRNA-FM

相關文章