Nat. Mach. Intell.|設計超高效疫苗,普林斯頓團隊開發首個解碼mRNA序列大模型

ScienceAI發表於2024-04-09

圖片

圖來自網路

編輯 | ScienceAI

普林斯頓王夢迪團隊迎來了一項具有劃時代意義的突破,該團隊開發了世界首個解碼mRNA非翻譯區域序列的大模型,用於準確預測從mRNA到蛋白質的轉錄功能,及設計新序列用於mRNA疫苗。

該研究論文的題目是「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」,已被《Nature Machine Intelligence》接收。

這篇論文意味著大語言模型可以用於預測和設計mRNA疫苗,其中新設計的序列經過實驗證實遠高於傳統疫苗的轉錄效率。AI和語言模型正在顛覆生物學和製藥研究中的傳統方法。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00823-9

mRNA和mRNA疫苗

2023年諾貝爾生理學醫學獎授予了mRNA技術的兩位奠基人——Katalin Karikó和Drew Weissman,表彰他們對於mRNA機理研究和疫苗研發的奠基性,以及mRNA疫苗對人類健康的重大貢獻。他們的研究不僅深化了我們對mRNA與免疫系統互動方式的理解,而且還推動了mRNA疫苗開發的歷史性突破。

mRNA,全名信使核糖核酸,是生物體內至關重要的遺傳物質。mRNA是單鏈的鹼基序列,從DNA轉錄而來,其作用是將DNA中的遺傳資訊轉化為蛋白質的合成指令,透過翻譯(translation)產生特定的蛋白質。mRNA如何轉錄?如何調控蛋白質的合成?這些是生物學領域中最重要的問題之一,透過研究mRNA,科學家們希望能解碼生命的奧秘。

mRNA分為中間的編碼區(coding region) 和兩端的非編碼區(untranslated region, or UTR)。編碼區的鹼基序列對應著目標蛋白質的氨基酸序列, 科學家們已經掌握了編碼區域和蛋白質的序列對應關係。mRNA最神秘的部分是非編碼區,尤其是前端的非編碼區(5’ UTR)。原因在於mRNA的非編碼區的鹼基序列深度參與並調控了編碼區序列的轉錄過程,非編碼區鹼基序列和細胞裡其他分子互動,調控了蛋白質的表達, 合成效率, 以及本身的穩定性等。

因此,在mRNA疫苗設計中,精確設計其非編碼區序列,將直接決定mRNA序列在細胞裡的翻譯效率,最終決定了疫苗的有效性。深入研究mRNA的非編碼區是重要的生物學問題,不僅有助於揭示基因表達的複雜機制,而且在疫苗設計和疾病治療策略的開發中起到了關鍵作用。

圖片

圖 1:DNA-mRNA-蛋白質的轉錄翻譯過程,及其mRNA的不同區域。(左圖來自網路)

UTR-LM: 多模態mRNA非轉錄區域語言模型

RNA序列由四種鹼基組成,即核苷酸腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和尿嘧啶(U)組成,就像人類語言由一系列字母構成一樣。這些核苷酸按照特定的規則排列,可以傳達複雜生物功能的資訊。

UTR-LM模型是一個針對mRNA非翻譯區域研究而開發的語言模型。它基於transformer架構,透過類似學習自然語言的方式在核苷酸序列上進行自監督學習,並結合了二級結構(SS)和最小自由能(MFE)等多模態資料進行預訓練。

為訓練該模型,研究團隊收集了多個資料庫和不同物種的天然mRNA序列:包括Ensembl資料庫,涵蓋五個物種(人類、大鼠、小鼠、雞和斑馬魚);Sample等提出的八個合成序列庫;以及Cao等早期工作整理的三個內源性人類資料集 (分別來自人類胚胎腎293T細胞、前列腺癌細胞和肌肉組織)。

圖片

圖 2:mRNA非翻譯區域語言模型

在預訓練後,研究團隊針對多種mRNA翻譯功能的預測任務進行了微調。平均核糖體負載量(MRL)、mRNA翻譯效率(TE)和表達水平(EL)的預測對生物醫學研究極為重要,因為這些指標直接決定了mRNA如何高效地被翻譯成蛋白質,影響蛋白質產量和治療蛋白質的開發。

在這些關鍵任務上,該mRNA非翻譯區語言模型的表現(Spearman R)超過了六種最先進的基準方法,包括RNA-FM和RNABERT兩種領先的RNA大語言模型。在平均核糖體負載量的預測上,該模型比Optimus高出高達9%,比FramePool高出高達6%,並且比RNAFM高達42%。對於mRNA翻譯效率和表達水平的預測,該模型分別比Cao-RF高出高達5%和8%,而與Optimus相比則高出高達25%和47%。

此外,識別未註釋的內部核糖體進入位點(IRES)對於理解和利用mRNA在細胞內非典型翻譯啟動機制至關重要,這對於開發新型治療策略和疫苗具有重大意義。在這一挑戰性領域,該模型也取得了顯著進步,將AUPR從0.37提高到了0.52。這些結果清楚地表明,該模型在這些關鍵任務上的效能遠超現有的先進方法,顯示了其在mRNA非翻譯區域序列預測領域的先進性。

這些成果突顯了mRNA語言模型在生物學研究中的強大潛力。它不僅提升了對mRNA的非轉錄區域功能的預測精度,而且加深了我們對於mRNA的非轉錄區域在基因表達和翻譯調控中作用的理解。憑藉其先進的模型架構和全面的資料訓練,mRNA非翻譯區語言模型為生物學和醫學研究領域提供了一個重要的科研工具,有助於推動這一領域的發展和創新。

圖片

圖 3:內源性資料集中mRNA翻譯效率和表達水平的預測效能(Spearman R)。資料集包括人類肌肉組織(Muscle)、前列腺癌細胞(PC3)和胚胎腎293T細胞(HEK)。(a) 在翻譯效率預測方面,mRNA非翻譯區域語言模型的效能最高比Cao-RF高出5%,比Optimus高達27%。(b)在表達水平預測方面,mRNA非翻譯區域語言模型的效能最高比Cao-RF高出8%,比Optimus高達47%。配對t檢測證明mRNA非翻譯區域語言模型在這些任務上顯著優於其他基準方法(p < 0.05)。

mRNA語言模型助力設計高效疫苗

在該研究中,研究團隊設計了211條自然界中不存在的新mRNA非翻譯區域序列,並測試這些新序列用於疫苗的潛力,目的是提高mRNA疫苗的翻譯效率、並最大化蛋白質的合成量。

為了驗證這些新序列的有效性,團隊的合作伙伴RVAC公司採用了mRNA轉染和熒光素酶實驗。實驗中,團隊測量了疫苗的相對光單位(RLU)用於評估mRNA的蛋白質產量,從而直觀地反映出新的mRNA序列設計對蛋白質合成過程的影響。實驗結果十分優異。相較於已經廣泛應用的傳統mRNA疫苗序列,團隊設計的新序列實現了高達32.5%的顯著效率提升。

同時,研究團隊還測試了該語言模型在新生物實驗上的可遷移性。透過zero-shot learning (零樣本適應性預測),mRNA UTR語言模型在全新的任務上達到遠高於其他方法的預測準確性。展現出了模型的優勢和可遷移性。

這些實驗結果不僅證實了新型RNA非轉錄區域序列設計的有效性,而且還彰顯了機器學習技術在生物醫藥領域應用的巨大潛力。該研究給出了提高疫苗和治療性蛋白質生產效率的新策略,為定製化藥物設計和個性化治療提供了新的途徑。

圖片

圖 4:211個新設計的mRNA非翻譯區域的測試結果。(a)與28,246個內源性mRNA非翻譯區域相比,新設計的mRNA非翻譯區域具有更高的mRNA翻譯效率預測值。(b)在溼實驗中,該研究對比了前20個設計的mRNA非翻譯區域與兩種常用基準的翻譯效率。(c)mRNA非翻譯區域語言模型在預測準確性方面顯著超越了現有的基準方法。

前景和結論

這項研究在Twitter上引起了生物學專家的廣泛關注和討論。他們高度評價了這個「mRNA的非轉錄區域的多物種語言模型」,並特別強調將機器學習應用於生物學資料分析的重要性。

專家們認為,目前生物學領域在這方面的研究還不夠充分,而這項工作正好填補了這個空白,為未來的研究提供了新的方向和實驗資料。北美和歐洲多個實驗室也非常感興趣向該研究團隊發出了合作邀請。

圖片

圖 5:生物學專家在Twitter上對「mRNA的非轉錄區域的多物種語言模型」給予積極評價,強調其在生物學研究中的創新應用。

同時,這個研究也吸引了業內公司的注意,biotech知名VC如FlagShip已和研究團隊多次深入交流,努力復現這個方法。這項研究突顯了AI for science的潛力。

mRNA技術已經在醫學界引起了革命,這項針對名RNA的語言模型研究不僅提高了mRNA疫苗設計的效率和準確性,還標誌著AI技術對於創新性科學和醫學研究的推動、以及保障全球健康安全的巨大潛力。這一技術的廣泛應用和更多突破,以推動科學的前進並改善人類健康。

作者簡介

王夢迪就職於普林斯頓大學,任統計與機器學習中心、電氣與計算機工程系副教授,其研究方向包括強化學習、生成人工智慧、AI for Science和機器學習理論。

她於2013年在麻省理工學院獲得電腦科學博士學位,曾任DeepMind、高等研究院和Simons理論電腦科學研究所的訪問研究科學家。

王夢迪在2016年獲得數學最佳化學會的青年研究者獎、2016年普林斯頓SEAS創新獎、2017年的NSF Career Award職業獎、2017年的谷歌研究獎、2018年的MIT科技評論35歲以下創新獎、2022年的WAIC雲帆獎。

因其在在控制系統、機器學習和資訊理論等交叉學科的傑出貢獻,她於2024年獲得北美自動控制學會頒發的ACC Donald Eckman獎。她擔任ICLR 2023的程式主席(PC)和Neurips、ICML、COLT等國際機器學習的高階區域主席(Senior AC),任Harvard Data Science Review, Operations Research等期刊的Associate Editor。

Jason Zhang曾在wave Life science, 諾華和賽諾菲有十五年工作經驗,曾任RVAC首席科學家。

Jason持有化學和免疫學雙博士學位,分別在協和醫科大學的梁曉天院士和紐約大學的Dan Littman院士的指導下完成,並在耶魯大學和哈佛大學完全了生物化學博士後研究。

他曾推動了近十個藥物開發專案進入臨床開發的不同階段,並曾經成功籌集了超過1億美元的資金。

在2023年11月,他攜手諾貝爾醫學獎獲獎者Drew Weissman共同成立了Zipcode Bio。

Zipcode Bio定位於RNA技術的前沿,致力於推進下一代的RNA疫苗和療法的研發。Zipcode Bio重視精準的體內靶向給藥、成本效益以及消除對冷鏈物流的依賴,產品線覆蓋了肺纖維化、自身免疫疾病以及癌症等重要領域。

相關文章