鼠年春節期間,新型冠狀病毒(2019-nCoV,後正式命名為 SARS-CoV-2)肆虐,疫情牽動人心。面對不斷變化的疫情發展,微軟亞洲研究院機器學習組的研究員們基於自己在計算生物學和機器學習等領域的專業知識和研究經驗,在第一時間梳理分析了疫情爆發以來科研界針對新冠病毒的研究成果,並嘗試利用 AI 技術對新冠病毒進行了初步性的研究探索。
在本文中,研究員們對冠狀病毒的基因組與蛋白質結構、免疫應答與分子機理、疫苗與藥物研發等進行了介紹,希望能逐步揭開新冠病毒的“神祕面紗”,幫助讀者全面瞭解新冠病毒的致病機理、研發特效藥物和疫苗背後的科學問題。同時,研究員們也希望 AI 等計算方法可以與新冠病毒的研究有更深入的結合,為後續的病毒研究帶來更多幫助。
一、病毒篇
1、初識新冠病毒
不同於絕大多數由細胞組成的生物,病毒是一類無細胞結構的簡單生物。病毒由負責繁殖後代的遺傳物質(核酸)和保護遺傳物質的蛋白質外殼組成。不同的病毒通常具有不同形狀的蛋白質外殼,而冠狀病毒正是因為其外殼像一頂皇冠而得名。2003年爆發的 SARS(嚴重急性呼吸道綜合徵)和2012年爆發的 MERS(中東呼吸綜合徵)都是由冠狀病毒引起的。在冠狀病毒的結構中,像皇冠一樣的刺突稱為刺突糖蛋白(Spike Glycoprotein,以下簡稱 S 蛋白),是結合人體細胞上相應受體的罪魁禍首;E 蛋白是包膜蛋白,將病毒內部的遺傳物質包裹起來;還有膜蛋白(M 蛋白)和核衣殼蛋白(N 蛋白)等結構。
基於序列比對的基因組分析
與我們人類的遺傳物質雙鏈 DNA 不同,冠狀病毒是一類單鏈 RNA 病毒。比起穩定的雙鏈 DNA 結構,單鏈的遺傳物質使得冠狀病毒具有更強的變異性。冠狀病毒家族已知的至少有幾十個成員,其中的大多數與我們人類相安無事,而經過多次變異產生的 SARS-CoV,MERS-CoV 等7種冠狀病毒可以感染人類。近期的研究表明,與 SARS-CoV 和 MERS-CoV 病毒類似,SARS-CoV-2(2019-nCoV)的基因組也分為非結構基因和結構基因兩個部分。其中約佔 SARS-CoV-2 全基因組總長度三分之二的非結構基因含有兩段編碼蛋白質的序列,稱為 ORF1a 和 ORF1b。而緊隨其後的結構基因區域則編碼 S 蛋白、E 蛋白等結構蛋白。
序列比對技術是生物資訊學對人類社會最為重要的貢獻之一。無論是親緣鑑定、新物種識別還是潛在遺傳病分析,都離不開序列比對。序列比對分為區域性序列比對和全域性序列比對,具有不同的匹配演算法。從最簡單的動態規劃演算法基礎上,區域性序列比對開發出“水人演算法”(Smith–Waterman algorithm),全域性序列比對則採用“針人演算法”(Needleman–Wunsch algorithm)。從全基因組結構上分析,SARS-CoV-2 (2019-nCoV) 的基因組結構與其它冠狀病毒比較相似。它與發現自蝙蝠的兩種冠狀病毒(Bat-SL-CoVZC45 和 Bat-SL-CoVZXC21)的相似度分別為87.5%和87.6%;與 SARS 病毒的序列相似度約為79%;而與 MERS 病毒的序列相似度僅有50%。值得注意的是,SARS-CoV-2 與 SARS-CoV 在基因組的不同區域的序列相似性不盡相同:在編碼病毒與宿主受體結合的 S 蛋白區域,SARS-CoV-2 與 SARS-CoV 的序列相似性顯著降低。
2、冠狀病毒的進化
基於層次聚類的進化關係分析
基於序列比對的結果,我們還可以進行層次化聚類,從而得到不同病毒之間的親疏關係和進化路徑。依照下圖所示的冠狀病毒序列進化樹,我們可以看出 SARS-CoV-2 與另外兩種冠狀病毒 Bat-SL-CoVZC45 以及 Bat-SL-CoVZXC21 在全基因組的進化關係分析中最為親近。進一步分析,在7種已知可致病的冠狀病毒中,SARS-CoV 與 SARS-CoV-2 的進化關係最近,而與造成較高致死率的中東呼吸綜合徵病毒 MERS-CoV 的進化關係較遠[4]。這一研究表明 SARS-CoV-2 與 SARS-CoV 具有較為保守的進化關係,從而暗示新型冠狀病毒在受體結合以及致病機理等方面可能與 SARS-CoV 有諸多共通之處。
基於深度學習的蛋白質結構預測
如果把基因組序列比喻為標識一個人的身份資訊,蛋白質的三維結構就是一個人的身形容貌。三維結構的解析對於新冠病毒致病機理和藥物設計具有非常重要的先決意義。令人欣喜的是我國科學家已經解析出 SARS-CoV-2 非結構區域基因對應的高解析度三維蛋白結構,而對於編碼結構蛋白的基因區域,我們在拿到新冠病毒的基因序列後,第一時間利用我們基於深度學習技術自主開發的結構預測軟體進行了三維結構的預測。對於 SARS-CoV-2,S 蛋白區域無疑是我們最為關注的一個部分。針對於 S 蛋白和某個已知結構的模板蛋白,我們首先使用深度學習技術預測單個氨基酸殘基和成對氨基酸殘基的基本特徵,然後根據預測的特徵計算兩個蛋白比對打分,最後通過交替方向乘子法求解出兩者之間最優比對。我們通過搜尋結構庫中所有蛋白,選擇出最佳結構模板以及計算出兩者最優比對,進而以此為基礎利用常用的結構建模軟體預測出 S 蛋白的三維結構。
我們將預測的 S 蛋白結構(下圖左邊藍色結構)與 SARS-CoV 的 S 蛋白(下圖左邊紅色結構)進行了結構聯配,結果表明預測的 S 蛋白與 SARS-CoV 對應區域的結構高度相似。根據以上結果,我們推測雖然 SARS-CoV-2 與 SARS-CoV 在 S 蛋白區域的基因序列相似性不高,但二者在蛋白質的真實結構上可能比較類似。此外,我們預測的 S 蛋白結構(下圖右邊藍色結構)與密歇根大學 Yang Zhang 組利用 C-I-TASSER 軟體預測的三維結構[5](下圖右邊紅色結構)做了比較,除了左側幾個螺旋結構有所不同,兩個研究組預測的整體結構非常相似。
基於分子動力學模擬的受體結合分析
冠狀病毒與宿主細胞受體結合的位點通常位於 S 蛋白上的部分割槽域(稱為亞結構域)。不同種類的病毒其對應結合的受體也不盡相同。例如,SARS-CoV 的結合受體為 ACE2 (血管緊張素轉化酶2)。如前文所述,根據我們的三維結構預測結果,新型冠狀病毒的 S 蛋白結構可能與 SARS-CoV 的較為類似。對 S 蛋白預測的三維結構進一步分析表明雖然部分氨基酸殘基與 SARS 病毒中對應的氨基酸殘基有所不同,但是 SARS-CoV-2 的 S 蛋白中潛在的負責與受體結合的亞結構域與 SARS-CoV 蛋白中對應的亞結構域非常類似。最新研究發現,SARS-CoV-2 的 S 蛋白和 ACE2 具有較高的結合強度,表明 ACE2 非常可能是 SARS-CoV-2 的宿主細胞受體[3][6]。在後續的研究中,我們期待有更多的利用分子動力學模擬、分子對接等計算生物學技術手段對 SARS-CoV-2 與其對應的宿主受體的結合過程、構象變化、親和力和自由能等方面展開更為深入的研究,以及對 SARS-CoV、MERS-CoV 等重要冠狀病毒的致病機制在分子層面更為細緻的闡述與比較。這些研究將加深我們對冠狀病毒的認識,對設計藥物和疫苗具有重要的價值和意義。
二、免疫篇
人體免疫系統是由多個器官、多種免疫細胞以及各種免疫分子構成的一個複雜系統。它們通力合作,構建起防禦各種病原體(病毒、細菌、寄生蟲等)的層層防線。人體免疫系統分為固有免疫和適應性免疫系統。其中,固有免疫也被稱為非特異性免疫,可以對入侵的病原體快速作出反應。比如固有免疫系統中的巨噬細胞、中性粒細胞通常可以在第一時間達到人體發生炎症的地方,吞噬病原體或清理死亡的人體細胞。此外,固有免疫系統還會通過抗原呈遞等方式啟用人體的特異性免疫應答。
1、適應性免疫系統
固有免疫是非特異性免疫系統,要想更加高效地對付某種特定病原體則需要通過適應性免疫系統產生特異性免疫應答來發揮作用。大家平時所關心的抗體或者疫苗,都與其有著密切的聯絡。B 細胞和 T 細胞是適應性免疫中的主要“兵種”。與固有免疫中不同的是,這些兵種的戰士可以識別並消滅某一種特定的病原體。同時,有些士兵還能記住目標敵人的樣子,一旦相同的敵人再次入侵,它們就可以快速拉響警報,發起對入侵者的剿滅戰。
成熟的 B 細胞會攜帶一種被稱作 B 細胞受體的探測器,一旦偵測到相應的抗原,並在輔助 T 細胞的幫助下,它們就會進行增殖分化。一部分分化成能夠產生抗體的漿細胞,另一部分變成記憶 B 細胞。抗體具有和產生它的 B 細胞一樣的探測器,在體液中巡邏,並標記那些特定的病原體或直接阻礙它們感染人體細胞。疫苗正是利用了這一機制,通過來自病原體的抗原資訊激發 B 細胞產生抗體防禦外敵。
T 細胞是另一類重要的特異性免疫細胞。輔助 T 細胞的主要功能是在識別抗原之後,通過釋放細胞因子來調控或輔助其他免疫細胞發揮作用,比如協助啟用 B 細胞、活化殺手 T 細胞等。殺手 T 細胞則會瞄準那些帶有特定抗原資訊的受感染細胞,通過釋放細胞毒素來殺死他們。T 細胞和 B 細胞一樣,也是利用一種被稱作 T 細胞受體的探測器來識別特定抗原。
抗原是指那些能夠激起機體免疫應答並能被特異性免疫產物識別的物質。當 B 細胞受體或 T 細胞受體能夠和抗原上的某些部分結合時,就完成了對這個抗原的識別。這些能夠被結合的部分被稱為抗原決定簇或抗原表位。
對於一個抗原而言,並不是它身上的任何部位都能夠成為探測器的靶子。並且,由於個體之間的基因差異,能夠成為靶子的抗原表位在不同個體之間也可以是不同的。正是因為這一點,研發疫苗過程中一個很重要的步驟就是去確定抗原上能夠成為靶子的部位,同時儘可能尋找對不同人群都起作用的那些靶子。
那麼新冠病毒上的靶子有哪些呢?這些靶子能夠覆蓋多少人群呢?香港科技大學的 Syed Faraz Ahmed 等研究人員利用已有的關於 SARS 病毒的抗原表位資料,篩選出了268個 T 細胞抗原表位候選,這些抗原表位在當前已經公佈的新冠病毒蛋白質序列中均可以找到,並估計可以覆蓋約96.29%的全球人口和88.11%的中國人[9]。這些候選抗原表位可以為新冠病毒疫苗的研發提供有用的資訊。
隨著高通量測序和免疫實驗技術的發展,越來越多的基因和免疫實驗資料可以被生物學家和電腦科學家利用,通過計算方法來理解免疫系統、研發疫苗、以及輔助疾病的診斷和治療。微軟亞洲研究院機器學習組的研究員一直在利用深度學習技術積極開展有關抗原識別的一系列工作。例如,在抗原的多個靶子中,預測哪些能夠激發強免疫反應;給定一個抗原靶子的時候,預測哪些 T 細胞能夠識別它。生物學家通過高通量的免疫實驗篩選出與某種抗原產生免疫反應的 T 細胞,並通過高通量測序技術測定出這些 T 細胞受體的 DNA 序列,這樣就產生出了一組抗原-T 細胞受體的繫結資料。隨著這些實驗資料的不斷產生和積累,我們就有機會利用機器學習技術對其進行建模從而幫助解釋 T 細胞受體和抗原繫結的規律。這方面的研究工作目前還處於起步階段,由於資料規模相對有限,模型的泛化能力還有待進一步的提高。
基於免疫實驗方法的抗體分析
當一個病毒感染者被治癒後,只要其免疫系統中的 B 細胞被啟用,體內通常會存在抗體。對於新冠病毒而言,它會在人體中產生什麼樣的抗體呢?全面回答這個問題還有待進一步的研究。復旦大學醫學院的應天雷教授團隊在這方面有了初步的成果[10]。新型冠狀病毒和 SARS 冠狀病毒在 RNA 序列和蛋白結構上有比較高的相似度,並且都可以通過刺突蛋白與 ACE2 受體結合來感染人體細胞。因此,他們分析了已知的幾個針對 SARS 冠狀病毒刺突蛋白的抗體,通過免疫實驗發現其中的 CR3022 很可能也是針對新型冠狀病毒刺突蛋白的抗體之一。
三、藥物和疫苗篇
1、藥物研發
乾溼實驗結合的藥物篩選
特效藥物研發是“永遠在路上”的科研攻關。目前還沒有完全解析 SARS-CoV-2 的全部蛋白結構,對其與受體結合分子機理的研究方興未艾,但我們欣喜地看到很多研究表明多種治療其它病毒的藥物對 SARS-CoV-2 具有潛在的治療作用。由蔣華良院士、饒子和院士領銜的科研團隊,在解析 SARS-CoV-2 的 ORF1ab 區域後,通過計算機模擬和生化實驗驗證相結合的手段篩選出30種可能對 SARS-CoV-2 有治療作用的藥物分子。這些潛在的藥物多為蛋白酶抑制劑,對病毒繁殖的抑制、阻斷病毒與受體細胞結合方面具有潛在的功效。另據報導,用於抵抗埃博拉病毒的試驗藥物 Remdesivir(RDV)可能具有抗 SARS-CoV-2 的功效。作為一款新型核苷類似物抗病毒藥,多個研究組的報導顯示有病人在服用 RDV 後發熱、咳嗽等臨床症狀有所減輕,病情出現好轉。
基於互作網路分析和分子動力學模擬的高通量藥物篩選
除了以上通過生物實驗和臨床測試等手段篩選藥物,結合機器學習和人工智慧等技術,利用高通量的計算機輔助藥物設計和預測也在“老藥新用”的策略中大展拳腳。通過生物醫學的實驗手段研發藥物,主要是對已經批准上市的廣譜抗病毒藥物進行測試和篩選。這類藥物以抗病毒的干擾素和阻礙病毒侵入宿主細胞的訊號通路類藥物為主,其作用主要是通過抑制病毒的逆轉錄、複製等過程和增強人體自身的免疫應答實現。與臨床實驗篩選不同,通過計算手段進行的藥物篩選可以在更廣的範圍上進行高通量篩選。
Docking 模擬是分子模擬的重要方法之一。其本質是兩個或多個分子之間的識別過程,是預測蛋白質結構與有機小分子結合的常用計算模擬手段。從經典的牛頓力場,到通過機器學習演算法設計高效、簡化的量子力場,Docking 模擬的準確性和效率都得到顯著的提升。Docking 模擬可以快速分析不同小分子與蛋白質結合的作用位點和結合作用方式,解釋藥物作用靶點發揮藥效的原因,為計算機輔助藥物篩選提供指導。通過 SARS-CoV-2 蛋白結構與已知的有機小分子藥物庫中的海量候選分子進行 Docking 模擬,分析不同分子與病毒蛋白結合的自由能和親和力,高通量地篩選出抵禦病毒的潛在藥物分子。目前國內外已經有多個研究組採用這種技術篩選出洛匹那韋(Lopinavir)等抗 HIV 藥物可能具有抵禦新冠病毒的潛力。此外,利用生物資訊學的分析手段,從 DrugBank、Therapeutic Target、PharmGKB 等多個資料庫中提取已知的藥物-靶點互作資訊,構建藥物-靶點互作網路,通過已知的作用於冠狀病毒靶點的藥物預測對 SARS-CoV-2 具有潛在作用的藥物分子。有研究表明,通過構建基於系統藥理學的網路,量化冠狀病毒與藥物靶點之間的相互作用,已經找出西羅莫司加放線菌素、巰基嘌呤加褪黑素、託瑞米芬加大黃素等多種潛在的藥物組合[11]。雖然計算機輔助的“老藥新用”可以高通量地篩選潛在藥物,但真實的藥效、副作用等關鍵因素仍然需要嚴格的臨床試驗才能得到驗證。
“老藥新用”是快速篩選藥物的手段,而針對 SARS-CoV-2 的特效新藥的研發則是對新冠病毒的精準打擊。然而,新藥的研發通常需要極為漫長的流程。而隨著深度學習技術在蛋白質結構預測和蛋白質小肽藥物設計等領域的深入應用,新藥研發的效率將得到有效提升。我們相信隨著“老藥新用”在臨床上的不斷嘗試,以及針對 SARS-CoV-2 特效新藥的快速研發,緩解和治療 SARS-CoV-2 的藥物會陸續被研發上市。
目前還沒有針對新冠病毒的疫苗問世。疫苗按照不同的分類方法和製備工藝,可以分為很多類別。但是疫苗的基本原理和作用是一致的,即利用抗原本身來製備生物製劑,通過接種到人體來啟用免疫反應,比如生成抗體,從而使得人們在將來遇到真正的相同病原體時,可以及時地發現和消滅它們。
疫苗需要具有幾個基本特性。第一是安全。疫苗既然來源於抗原,比如新冠病毒,它必須經過減毒等措施,使得被接種到人體之後不會致病或引起不良反應。第二是有效。疫苗要能夠促使 B 細胞產生抗體,並在下一次遇到相同的抗原時,抗體能夠準確識別。第三是普適。疫苗是一種公共衛生干預措施,疫苗研製的目標之一就是希望製備出的疫苗能夠儘可能多的覆蓋人群。
疫苗的研製是一個非常複雜、嚴格和漫長的過程。以傳統病毒疫苗為例,通常需要經過毒株的篩選、減毒、繁殖、過濾、提取等過程;在建立動物模型、完成動物試驗並取得申報許可後,才能進入共三期的臨床試驗階段;最後還需要通過專家評審和國家批准方可投入生產並最終上市[12]。此外,疫苗是具有特異性的,而病毒是不斷進化的。這意味著一種疫苗在病毒發生變異之後可能就會失效。這也是為什麼世界衛生組織會積極跟蹤各類病毒,尤其是流感病毒的進化,並積極推動降低疫苗研製和生產週期與成本的相關研究。
針對新冠病毒的疫苗研發正在如火如荼地進行著。雖然最新的 mRNA 疫苗技術可以大大縮短疫苗的研發週期,但是為了嚴格保證安全和有效性,動物試驗、臨床試驗等步驟仍然不可或缺。
展望
當下,對病毒的抗擊仍未結束。病毒藏其形於微小,人類必治之以群智。面對這場病毒對人類的“突襲”,各行業傾力合作,共同抗擊。醫療和生物研究中產生的海量資料蘊藏了非常有價值的資訊和知識,而 AI 技術在知識提取和建模分析中表現出了巨大潛力。我們在本文中展示了 AI 技術在序列分析、結構預測、免疫學研究和藥物研發等方面的諸多應用。展望未來,醫學、生物、計算機等研究機構在資料和技術上的共享與合作將更加深入,繼續為人類健康保駕護航。風雨同舟,愛相隨,AI 相伴!
參考文獻
[1]https://commons.wikimedia.org/wiki/File:3D_medical_animation_corona_virus.jpg
[2] Zhou Y, Hou Y, Shen J, et al. Network-based Drug Repurposing for Human Coronavirus[J]. medRxiv, 2020.
[3] Xu X, Chen P, Wang J, et al. Evolution of the novel coronavirus from the ongoing Wuhan outbreak and modeling of its spike protein for risk of human transmission[J]. Science China Life Sciences, 2020: 1-4.
[4] Lu R, Zhao X, Li J, et al. Genomic characterisation and epidemiology of 2019 novel coronavirus: implications for virus origins and receptor binding[J]. The Lancet, 2020.
[5] https://zhanglab.ccmb.med.umich.edu/C-I-TASSER/2019-nCov/
[6] Wrap D, Wang N, Corbett K, et al. Cryo-EM Structure of the 2019-nCoV Spike in the Prefusion Conformation[J]. bioRxiv, 2020.
[7] https://www.youtube.com/watch?v=IDvUBz_zQsc. YouTube.
[8] https://en.wikipedia.org/wiki/T-cell_receptor. Wikipedia.
[9] Ahmed S F, Quadeer A A, McKay M R. Preliminary identification of potential vaccine targets for 2019-nCoV based on SARS-CoV immunological studies[J]. bioRxiv, 2020.
[10] Tian X, Li C, Huang A, et al. Potent binding of 2019 novel coronavirus spike protein by a SARS coronavirus-specific human monoclonal antibody[J]. bioRxiv, 2020.
[11] Zhou Y, Hou Y, Shen J, et al. Network-based Drug Repurposing for Human Coronavirus[J]. medRxiv, 2020.
[12] http://www.nmpa.gov.cn/WS04/CL2098/359914.html. 國家藥品監督管理局.