最近 AI 在生物學領域可謂是大放異彩。史丹佛大學聯合美國 Arc 研究所 (Arc Institute) 的研究團隊提出了一種基因組基礎模型 Evo ,其能夠在 DNA、RNA 和蛋白質的多模態任務中實現零樣本預測和高精度生成。
相關研究以「Sequence modeling and design from molecular to genome scale with Evo」為題,以封面文章的形式發表在 Science 上。
論文地址:
https://www.science.org/doi/10.1126/science.ado9336
作為論文的第一作者,Eric Nguyen 連發多條動態介紹 Evo 這一成果 ,並多次感謝團隊研究成員,更是直言「 能與這樣一個了不起的團隊合作,真是榮幸!」
據論文介紹, Evo 使用 StripedHyena 架構,在大型基因組資料集上進行訓練,該資料集包含了 8 萬多個細菌和古細菌基因組,以及數百萬個預測的噬菌體和質粒序列,涵蓋了 3 千億個核苷酸 token,能夠生成長度超過 1 兆鹼基的具有合理基因組架構的 DNA 序列。
此外,Evo 引數規模達 70 億,最大上下文長度可達 131,072 個 token,可以揭示編碼序列和非編碼序列之間錯綜複雜的共同進化,並設計出複雜的生物系統,如 CRISPR-Cas 複合物和 IS200 和 IS605 轉座子。
總而言之,Evo 預測、生成和設計整個基因組序列的能力,不僅為生命科學提供新的理論支撐,還有望被應用於基因編輯、藥物發現、疾病診斷、農業等領域,助力多領域的突破性成果研發。
不少網友對 Evo 的釋出表示震撼,更是對該模型的具體應用充滿了期待。
為了讓大家第一時間體驗 Evo 模型的強大功能,HyperAI超神經教程版塊現已上線「Evo:從分子到基因組規模的預測和生成」,無需輸入任何命令,一鍵克隆即可快速體驗!
教程連結:
https://go.hyper.ai/JpdUS
Demo 執行
- 登入 hyper.ai,在「教程」頁面,選擇「Evo:從分子到基因組規模的預測和生成」,點選「線上執行此教程」。
- 頁面跳轉後,點選右上角「克隆」,將該教程克隆至自己的容器中。
- 點選右下角「下一步:選擇算力」。
- 頁面跳轉後,選擇「NVIDIA RTX A6000,並根據自身需求選擇「按量付費」或者「包日/周/月」,選擇「PyTorch」映象後,點選「下一步:稽核」。新使用者使用下方邀請連結註冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!
HyperAI超神經專屬邀請連結(直接複製到瀏覽器開啟):
https://openbayes.com/console/signup?r=Ada0322_QZy7
- 確認無誤後,點選「繼續執行」,等待分配資源,首次克隆需等待 2 分鐘左右的時間。
- 當狀態變為「執行中」後,點選「開啟工作空間」選項。
- 進入 Jupyter 工作空間後,雙擊點開「README」檔案,即可正式進入 Evo 模型執行頁面。
效果演示
- 進入 Evo 模型執行頁面後,所有引數為預設模式。下滑滑鼠到 「2.啟動模型並輸入相關引數」,即可按照自己的需求調整 prompt 引數值。需要注意的是,prompt 的預設值為 「ACGT」,這代表了一段由 DNA 鹼基對 (A、C、G、T) 組成的初始序列。你可以根據需要修改這個值來生成不同的 DNA 序列。
- 例如,將 prompt 預設值改為 AGCT,當調整完預設引數值後,點選「重啟並執行所有單元格」選項,選擇「Restart」進行執行。
- 稍等片刻,當 [*] 號變為數字時,即表示執行完成。在「2.啟動模型並輸入相關引數」最底部,即可看到生成的序列。
- 此外, Evo 模型還可以對生成的 DNA 序列進行分析,學習編碼序列和非編碼序列的共同進化聯絡。它還能從 DNA 序列中預測蛋白編碼基因 (protein-coding genes),對 RNA 系統進行編碼設計,從而預測生成的蛋白質摺疊結構,並最終以影像的形式呈現。
我們建立了「Stable Diffusion 教程交流群」,歡迎小夥伴們入群探討各類技術問題、分享應用效果~
新增神經星星微信(微訊號:Hyperai01),備註「SD 教程交流群」,即可加入群聊。