編輯丨toileter
目前期望的防範病毒的措施是透過檢視病毒的基因序列來預測病毒將如何進化。距離那種方法還有很長的路要走,但越來越多的研究小組正在使用人工智慧 (AI) 來預測 SARS-CoV-2、流感和其他病毒的進化。
病毒(尤其是 SARS-CoV-2 等 RNA 病毒)透過積累新的突變不斷進化。其中一些變化對病毒有利,使變體能夠逃避宿主免疫並迅速傳播。透過預測病毒將如何進化,研究人員理論上可以提前設計疫苗和抗病毒治療。
到目前為止,AI 工具可以預測病毒中的哪些單一突變將最成功,哪些變體將在短期內「獲勝」。但他們仍然無法預測未來很長一段時間內將發生的突變或變異的組合。
加利福尼亞州史丹佛大學(Stanford University)的計算生物學家布萊恩·希(Brian Hie)說,這是「一個非常令人興奮且非常有用的研究領域」。他是最早將大型語言模型應用於病毒突變研究的研究人員之一。不過,預測病毒進化仍然極具挑戰性,他隨後強調道。
AI工具
過去,研究人員進行了實驗以識別具有增強特性的變體,但這些實驗既費力又耗時。一些小組,例如北京大學免疫學家曹雲龍領導的實驗室,已經開發了全新的方法,研究單個突變如何影響病毒逃避一組抗體檢測的能力。這些實驗可以解釋大量的病毒進化,但不是全部。
英國格拉斯哥大學(University of Glasgow)的病毒學家大衛·羅伯遜(David Robertson)說,基於人工智慧的蛋白質結構預測工具的到來——例如由倫敦人工智慧公司 DeepMind 釋出的 AlphaFold,以及由 Meta(前身為 Facebook)建立的 ESM-2 和 ESMFold——為該領域帶來了新的活力。
AI 模型需要大量資料才能預測病毒進化。東京大學生物資訊學家 Jumpei Ito 說,對導致 COVID-19 的病毒 SARS-CoV-2 進行大規模測序,使得預測成為可能。研究人員現在有近 1700 萬個序列可用於訓練他們的模型。
一種名為 EVEscape 的模型由馬薩諸塞州波士頓哈佛醫學院的 Debora Marks 和她的團隊開發,已被用於設計 SARS-CoV-2 刺突蛋白的 83 種可能版本,病毒用它來感染細胞。這些刺突化身可以逃避接種疫苗或感染當前流行的變體 4 的人產生的抗體,並可用於測試未來 COVID-19 疫苗的有效性。
Ito 的小組正在關注病毒適應性的一個更廣泛的特徵——變體在人群中迅速傳播並最終爆發的能力。
研究人員使用 ESM-2 建立了一個名為 CoVFit 的模型,該模型可以預測 SARS-CoV-2 變體的相對適應性。
CoVFit 在 13,643 個 SARS-CoV-2 刺突蛋白變體上進行了訓練,還使用了 Cao 小組關於個體突變如何影響病毒逃避抗體能力的實驗資料。
Ito 的團隊建立了一個使用截至 2022 年 8 月的變體資料進行訓練的受限模型,發現它成功地預測了該截止點之後某些變體的適應性改善,包括 XBB,一種在當年晚些時候流行的新變體。
到 2024 年 3 月,全球主要的 SARS-CoV-2 變體是一種名為 JN.1 的變體。使用 CoVFit,Ito 的小組確定了三種有助於 JN.1 恢復健康的單氨基酸變化。此後,這些突變已在全球迅速擴充套件的變體中被發現。
呼籲更多的資料集
Cao 說,為了提高 AI 模型的準確性,研究人員需要五年多的病毒進化資料。他說,將監測測序資料與實驗資料相結合有助於克服一些資料挑戰。
其他幾個小組也在使用組合資料開發模型。其中一項研究由 Ito 在東京大學的同事、進化病毒學家 Shusuke Kawakubo 領導。
在尚未發表的工作中,Kawakubo 正在研究流感病毒在其宿主中誘導免疫反應的能力。如果流感的血凝素蛋白(其刺突蛋白當量)變化足夠大,它可能無法被人體的免疫反應識別,此時,世界疫苗製造商需要相應地調整下一季的流感疫苗。
向前邁出一大步
Ito 說,這些模型中的大多數僅限於理解微小變化的影響,但理論上病毒幾乎有無限的進化空間。例如,Omicron 變體以 50 多個突變出現,這種突變數量是研究人員前所未見的。
這些突如其來的突變進化很難預測。Robertson 和他的同事們正在努力尋找使用 AI 模型的方法,以更好地瞭解這些巨大的進化軌跡並確定它們的極限。
他們發現,如果他們給 ESM-2 一個刺突序列,它可以識別可能發生變化的區域,以及這些變化如何影響蛋白質的其他區域。「這感覺有點像黑魔法」,羅伯遜說。他宣稱,目標是能夠計算出病毒在人體中檢測到後,還有多大空間可以在很早的時候進化。
報導連結:https://www.nature.com/articles/d41586-024-04195-3