1.8B引數,阿里雲首個聯合DNA、RNA、蛋白質的生物大模型,涵蓋16.9W物種

ScienceAI發表於2024-06-04

圖片

編輯 | 蘿蔔皮
不久之前,Google DeepMind 釋出了 AlphaFold3,再次引發了人們對「AI + 生命科學」的討論。
在學界,科學家的目標往往是先認識世界,然後在認識的基礎上改造世界。但是在生命科學領域,人類對整個生命的理解與認識還如九牛一毛、冰山一角;建立對生命系統的多維度深刻認識是當前人類研究的重要一步,AI 是達成這一步的重要工具。
近期,阿里雲飛天實驗室釋出並開源了業界首個聯合 DNA、RNA、蛋白質的生物大模型「LucaOne」。這是一種新型預訓練基礎模型,旨在綜合學習遺傳和蛋白質組語言,涵蓋 169,861 個物種的資料。
該模型不僅可以對核酸、蛋白質的內部特徵進行挖掘,還可識別核酸與蛋白質之間的聯絡,可以幫助研究人員探索更多生物系統的內在邏輯與規則。
該研究的預印版本「LucaOne: Generalized Biological Foundation Model with Unified Nucleic Acid and Protein Language」,已於 2024 年 5 月 14 日釋出在 bioRxiv 預印平臺。
圖片
圖片

開源地址:https://github.com/LucaOne

論文連結:https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1

LucaOne 為何能快速跨模態處理資料
LucaOne 的核心亮點在於其獨特的自監督加半監督學習架構,該架構基於生物語言的本質屬性設計,使得模型能夠在 10 億量級的序列與註釋資訊上進行學習,引數規模約 1.8 B。
這一設計不僅允許模型處理核酸和蛋白質資料,而且能夠識別兩者之間的內在聯絡,即生物學中心法則中「DNA 到 RNA 再到蛋白質」的轉化過程。

圖片

圖示:LucaOne 的架構圖,從資料到模型構建再到下游任務應用。

透過學習「中心法則」,LucaOne 能夠很好得識別 DNA 序列與對應蛋白質之間的內在聯絡,這對於理解生命活動的基本規律十分重要。模型提供的基礎能力,可以幫助研究人員破譯更多中心法則相關的細節,讓人們更加深入地理解生物世界的底層邏輯。
「這個模型目標是希望學習生物系統的底層編碼,目前這個版本以基因組、轉錄組、蛋白質組為核心。其中的核苷酸及氨基酸序列是生物系統裡的兩種模態,放在一起統一學習能幫助模型更快學習到生物系統的編碼體系。」該專案的負責人、阿里雲飛天實驗室生物計算研究總監李兆融解釋道。

圖片

圖示:LucaOne的訓練資料、訓練任務與在基因與蛋白質上的表徵能力。
為了使預訓練大模型模型學習更徹底、更好地與下游任務模式的契合、更廣泛的應用,LucaOne 除了利用核酸與蛋白質本身的序列資料進行自監督學習之外,也加入了核酸與蛋白質的一些基礎的重要的註釋資訊來進行半監督學習。
這種設計了加速模型的訓練效率,使模型在學習的資料維度、量級、及引數量上達到一個很好的平衡——既覆蓋足夠多的物種,又保證模型的規模在一個可以被大規模高效使用的範圍內。

圖片

圖示:LucaOne對不同型別輸入的下游任務的適用能力。
「這裡我們考慮的是生物序列的資訊密度,雖然不能這樣武斷的說,但是大致上基因組的資訊密度是低於文字資訊的,並且可能分佈不均。比如,生物序列裡可能會存在一些無意義片段,且片段非常長;應對這類問題,我們需要一些取巧的方式。」李兆融解釋道,「因此,在我們設定了 8 個有監督的任務,這使得模型更有效的進行學習。」
「模型的引數有 1.8 B,什麼概念呢?我們希望模型即足夠「大」,能理解複雜生物系統,又不至於太大影響下游的使用效率。在整理高質量資料後,我們將模型引數設定在這個級別。」
LucaOne 在下游任務中的穩健效能
為了驗證 LucaOne 對各類生物計算任務的價值,研究人員設定了一系列測試驗證:首先是一個「異想天開」的任務,假設一群火星人來到地球,僅基於測序和建模能力,能否學習到分子生物學的一個核心規則:中心法則。
他們選取 13 個物種的核酸序列和其對應蛋白的正負樣本資料集,關係對總數量為 24000,其中正負樣本比例 1:2。其中基因序列資料是其在基因組的原始資料,包括了大量的非編碼區(內含子,調控元件,及可能的「垃圾片段」等)。
為了驗證模型的學習能力,研究人員採用訓練:驗證:測試比例為:4:3:25;即僅 3200 組資料作為訓練,18750 組資料作為測試集來預測其核酸序列是否可以翻譯成資料組裡的蛋白序列。

圖片

圖示:LucaOne對中心法則的學習能力。
實驗結果顯示,LucaOne 在中心法則學習任務上取得了顯著成效,預測準確率達到 0.85,遠優於其他計算方法。
當分析細分表現時發現,LucaOne 在處理具有特殊進化適應性的生物如海鞘時,預測表現特別差。海鞘利用中心法則的具體規則-密碼子偏好性,與其他生物明顯不同。研究人員表示,這種情況可以認為海鞘用的是一種中心法則語法「方言」。而這種「方言」在訓練資料集裡僅有 100 條,因此模型沒有很好的學習到這種規則。這表明了生物世界的多樣性與複雜性,也為模型未來的資料擴充和最佳化指明方向。
在另外廣泛選取的 7 個任務裡,LucaOne 也都表現優異,尤其是在流感 H3N2 病毒的免疫逃逸風險預測任務中,LucaOne 結合簡單感知機模型實現了 100% 的準確率,可以為這一類公共衛生的重要問題提供了有力的支援。

圖片

圖示:流感 H3N2 病毒的免疫逃逸風險預測。
這也是一個跨多個專業團隊的長達1年的持續工作成果。
中山大學醫學院施莽教授及其團隊深度參與了 LucaOne 模型的資料設計與驗證,提供了豐富的生物學視角和經驗。
「LucaOne 是一項極為重要的嘗試。我們首次嘗試將整個生物界的基因組和蛋白質組的資料壓縮到一個模型中進行學習,這為我們提供了一個前所未有的研究視角。」施莽教授表示。
「在這一研究過程中,我們已經發現了許多有趣的現象。最讓我驚訝的是,在沒有任何先驗知識的前提下,LucaOne 確實能夠更有效地學習中心法則中核酸與蛋白質之間的對應關係。這是一種全新的研究方法,我期待利用這個模型探索更多的生物學問題。」施教授說。
中國醫學科學院北京協和醫學院病原生物學研究所所長、美國微生物科學院會士舒躍龍教授及其團隊參與了 LucaOne 在流感病毒方面的分析與驗證工作,並與阿里雲生物計算團隊持續開展「AI + 病原學」的前沿探索。
舒躍龍教授表示:「將前沿的 AI 技術與病原生物學相結合具有重大的科學意義和社會價值。LucaOne 模型為這一交叉領域的研究提供了強大的工具。我們與阿里雲團隊正在進行更深入的合作研究。」
「我堅信,透過這種緊密的跨學科協作,我們能探索更多病原生物起源進化、跨種傳播以及感染致病等方面的規律,為傳染病防控和生物安全做出更大的貢獻。」舒教授說。
李兆融表示:「有兩件事情我們會繼續往下做。第一是不斷去突破生物系統基礎模型的邊界,我們行業正在積累更多的基礎資料,也有非常豐富的其他資訊可以補充學習,我們看到的,聽到的,感受到的豐富多彩的生物世界都是模型學習的材料。這也會隨著更多 AI 技術的創新一起推動這一類基礎模型的進步。」
「同時我們在和多個頂尖的科研團隊就幾個特定領域進行持續的應用研究,主要圍繞在微生物及病原學領域。這幾個方向有明確的社會價值,以及也能和基礎模型研發互相借鑑, 共同探索前進。」李兆融說。
該團隊相信,隨著更多資料、更豐富模態的加入,以及模型的持續升級,LucaOne 將更深入揭示生物系統的智慧,推動 AI 在生物科學、疾病診斷、藥物開發等領域的廣泛應用。隨著 LucaOne 模型的開源,全球科研人員將共享這一生物計算的強大工具,共同加速生命科學的探索與創新。

相關文章