編輯 |ScienceAI
在自然界,物種多樣性與生物體內承載功能的蛋白質相互約束,這是因為蛋白質作為功能的載體決定了生物的性狀,而這些性狀經過選擇壓力篩選後形成了當下的物種多樣性分佈。從達爾文進化論角度來看,所有的進化都是基因適應環境的效應。
受此啟發,北京大學資訊工程學院田永鴻教授、陳杰副教授指導博士生聶志偉、碩士生劉旭東基於進化論視角重新審視病毒進化預測難題,提出瞭解決病毒進化兩大本質問題的跨病毒型別、跨毒株型別的通用進化預測模型,為疫苗、藥物的快速主動更新以及提高人類對於新發病毒感染的響應速度提供了強大工具,支撐和加速對於物種複雜進化機制的探索。
該研究以「A unified evolution-driven deep learning framework for virus variation driver prediction」為題於2025年1月17日正式發表在《Nature Machine Intelligence》上。
論文連結:https://www.nature.com/articles/s42256-024-00966-9
研究亮點
(1)探討了如何定製化蛋白質語言模型以適配進化預測任務,提出了定製化預訓練策略和資料集,為蛋白質語言模型預訓練與下游任務之間的權衡提供了研究新視角;
(2)從進化論角度凝練了病毒進化的兩大本質問題,從而透過「微弱突變放大」和「稀少有益突變挖掘」兩個創新設計實現了跨病毒型別和跨毒株型別的通用預測,實現了 Science 和 AI 架構的高度融合;
(3)突變所處相互作用網路的全面重建模組(包含動態粒度注意力機制以挖掘 motif 模式)以及提出的多工焦點損失函式適用於蛋白質通用體系,可進一步擴充用於各類蛋白質性質預測及蛋白質定向進化;
(4)實現了不同尺度的病毒進化預測,未來可與疫苗和蛋白類藥物設計流程相結合,有望顯著提升設計效率和設計可控度。
進化啟發的通用預測框架
突變是病毒進化的基石,不同病毒的具體進化歷程各有其獨特性,但是其共性在於最終的進化結果中幾乎都是有害突變佔據大多數。
從整個進展尺度來看,即使有害突變與有益突變的比例會隨物種和環境不同而有所區別,但是有害突變被認為總是遠多於有益突變,即有益突變是病毒蛋白進化適應度空間中的極小子集。
很自然地,有害突變的高發性使得同一個變異株內難以共存較多的突變,即一個變異株所具有的突變數量與原始型相比往往較少,僅有少數位點會發生突變。
因此,研究團隊將上述病毒進化軌跡凝練為病毒進化的兩大本質特點:「少數位點突變」(Few-site mutations)和「稀少有益突變」(Rare beneficial mutations)。
這兩大進化特點導致了明顯的建模難題,「少數位點突變」引起的分子內相互作用網路的變化相對比較微弱,這使得神經網路直接捕獲是極其困難的,而「稀少有益突變」在資料層面造成了極其嚴重的正負樣本不平衡問題,這對於精準預測對於病毒生存至關重要的稀少有益突變造成了巨大挑戰。
圖 1:E2VD 模型架構。(來源:論文)
為此,研究團隊提出了進化驅動的病毒變異驅動力預測框架 E2VD(圖 1),透過「微弱突變放大」和「稀少有益突變挖掘」兩個創新設計實現了跨病毒型別和跨毒株型別的統一預測。
核心元件包括面向病毒進化的定製化蛋白質大語言模型(國產 AI 超算「鵬城雲腦 II」256 張 NPU 支撐訓練)、突變所處相互作用網路的全面重建模組(包含動態粒度注意力機制以挖掘 motif 模式)以及提出的多工焦點損失函式。
進化模式的精準捕獲
以SARS-CoV-2 的三類關鍵病毒進化驅動力預測任務為例,團隊首先比較了面向進化場景的定製化蛋白質語言與主流蛋白質語言模型的預測表現。
結果表明,團隊定製化的蛋白質語言模型以最少的 340M 模型引數量實現了最佳的預測表現,甚至超越了引數量為其 44 倍的 ESM2-15B 的效果,這進一步證明了定製化的預訓練資料集和訓練策略的有效性。
隨後,團隊在各類關鍵病毒進化驅動力預測任務下比較了 E2VD 與主流方法,結果表明 E2VD 顯著且全面超越其他方法,效能提升在 7%-21% 不等。
E2VD 被大量消融實驗證明了對於病毒進化模式的精準捕獲,包括對於不同型別突變的精準區分以及對稀少有益突變的精準挖掘。
團隊提出的多工焦點損失函式被證明顯著改善了預測表現,將 Accurate從57.41% 提升至 91.11%,將 Recall從15.56% 提升至 96.30%。
在與真實世界變異毒株對應的稀少有益突變預測實驗設定下,E2VD 將稀少有益突變的預測精度從 13% 提升至 80%,實現了跨越式精度提升。
圖 2:E2VD 對於突變型別的區分和稀少有益突變的精準挖掘。(來源:論文)
跨病毒型別和跨毒株的泛化效能
E2VD 在跨越病毒型別和毒株型別時展現出強大的泛化能力。研究團隊提出魯棒且避免實驗批次效應影響的突變所致病毒適應度變化評估指標,並以此評估了模型在同病毒型別的不同毒株之間以及不同病毒型別之間的泛化表現,在新冠病毒、寨卡病毒、流感病毒以及愛滋病病毒上展現出理想的泛化能力,始終超越其他方法,未來可進一步擴充至更多傳染性病毒。
圖 3:E2VD 跨病毒型別和跨毒株的泛化效能。(來源:論文)
多尺度進化趨勢預測
E2VD 可用於靈活定製化組合以實現不同尺度的進化趨勢預測。首先,E2VD 可用於解釋大流行內部進化軌跡,揭示毒株流行度背後隱藏的分子機制;其次,搭配虛擬深度突變掃描流程,E2VD 可實現潛在高風險突變的精準預測,達到 80% 的命中率。
除此之外,E2VD 實現了對於大流行尺度的宏觀進化軌跡預測,重現了病毒在真實世界中的進化路線,對病毒進化機制的解讀提供理論性支撐。
圖 4:E2VD 解釋大流行內部進化軌跡以及預測潛在高風險突變。(來源:論文)
總結與展望
該研究以進化論的視角重新審視病毒進化預測問題,發展了跨病毒型別和跨毒株的通用進化預測框架,有助於破解物種複雜的進化機制,提高人類對於新發病毒感染的響應速度。憑藉優越的預測表現和強大的泛化性,研究團隊下一步計劃將 E2VD 與疫苗和蛋白類藥物設計流程相結合,以期提升設計效率和設計可控度。
自 2022 年起,北京大學田永鴻教授領銜的團隊即著眼於 AI for Life Science 的研究,發展系列生命科學基礎模型並開展廣泛的下游任務探索。
前期工作提名 2022 年度戈登貝爾特別獎,與美國阿貢國家實驗室、橡樹嶺國家實驗室團隊在世界舞臺上角逐這一超級計算機領域的國際最高獎項,展現了中國人工智慧在計算叢集(國產 AI 超算鵬城雲腦 II)和科研創新領域的國際頂尖水平。
除此之外,團隊先後獲得 2023 年度廣東省科學技術獎科技進步獎特等獎、首屆「祖沖之獎——人工智慧前沿創新獎年度重大成果獎」以及國家資料局 2024 年「資料要素×」大賽廣東省一等獎、全國二等獎等榮譽。
論文連結:https://www.nature.com/articles/s42256-024-00966-9
入圍戈登貝爾特別獎新聞連結:https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm