人工智慧為蛋白質摺疊預測提供動力

ScienceAI發表於2021-11-29

編譯 | 蘿蔔皮

<mark data-type=concepts data-id=2d28aa9c-942d-471d-bd96-8bfefb7144e0>人工智慧</mark>為蛋白質摺疊預測提供動力

科學軟體很少能引起如此轟動的頭條新聞。BBC 宣稱:「人工智慧『在很大程度上解決了』生物學上最大的謎團之一」。福布斯稱其為「人工智慧領域最重要的成就——有史以來」。Google DeepMind 用於預測蛋白質 3D 結構的人工智慧(AI)系統 AlphaFold2 於 2020 年 11 月首次亮相,而該工具於 2021 年 7 月免費開源以後,引起了巨大轟動。

這種興奮與該軟體解決最棘手生物學問題的潛力有關——從線性氨基酸序列預測蛋白質分子的功能性摺疊結構,一直到 3D 空間中每個原子的位置。蛋白質如何形成 3D 結構的潛在物理化學規則對於人類來說仍然過於複雜,無法解析,因此這個「蛋白質摺疊問題」幾十年來一直沒有解決。

研究人員已經解析出來自生命王國的大約 160,000 種蛋白質的結構。他們一直在使用實驗技術,例如 X 射線晶體學和冷凍電子顯微鏡(cryo-EM),然後將他們的 3D 資訊儲存在蛋白質資料庫中。計算生物學家在開發補充這些方法的軟體方面取得了穩步進展,並正確預測了一些來自經過充分研究的蛋白質家族的分子的 3D 形狀。

儘管取得了這些進展,但生命王國的蛋白質浩瀚如海,尤其研究人員仍然缺乏大約 4,800 種人類蛋白質的結構資訊。但是 AlphaFold2 已經將結構預測策略提升到了一個新的水平。例如,西班牙研究人員的一項獨立分析表明,該演算法的預測將沒有結構資料的人類蛋白質數量減少到只有 29 個。

AlphaFold2 於去年 11 月在 CASP14 上公佈,這是第 14 屆蛋白質結構預測關鍵評估(CASP),這是一項兩年一度的競賽,挑戰計算生物學家針對已透過實驗解決結構的蛋白質測試他們的演算法,但未公開發布。DeepMind 的軟體——它使用被稱為深度學習的複雜機器學習技術——在競爭中脫穎而出。

「基於 CASP14 [結果],他們可以獲得大約三分之二的蛋白質,總體上具有實驗準確性,即使對於硬目標,他們也可以以實驗準確性摺疊大約三分之一的蛋白質。」生物學家Zhang Yang(密歇根大學安娜堡分校的化學家,他的演算法是 CASP14 的亞軍之一)說,「這是一個非常驚人的結果。」 隨後的兩篇 Nature 論文和數十篇預印本進一步證明了 AlphaFold2 的預測能力。

Zhang 認為 AlphaFold2 是對深度學習力量的驚人展示,但只是蛋白質摺疊問題的部分解決方案。即使在沒有結構資訊的情況下,該演算法也可以為許多蛋白質和一些多蛋白質複合物提供高度準確的結果。這可以大大加速實驗結構生物學,並有助於指導蛋白質工程和藥物發現的研究。

但是對於某些蛋白質來說,許多基本細節仍然遙不可及。馬薩諸塞州波士頓 Dana-Farber 癌症研究所的計算生物學家 Chris Sander 指出,演算法仍然在與具有多個功能域或高度動態結構的複雜蛋白質目標作鬥爭。「他們所做的一切都很棒!」Sander 說,「但是蛋白質的靈活性以及它們如何變化並沒有受到影響,僅僅擁有一個快照並不能解決生物功能的問題。」

深度學習的進步——以及 AlphaFold2 使用者群體的不斷壯大——可能會帶來一些挑戰,但全面理解蛋白質生物學需要更廣泛的計算和實驗工具箱。

Higher education

深度學習結合了機器學習策略,其中訓練計算神經網路來識別和解釋資料中的模式。「這些模型並沒有試圖一次性預測結構。」西雅圖華盛頓大學的計算生物學家 David Baker 說,「它們更像是一種物理模擬,模型正在學習如何做出良好的動作來改進結構。」透過使用大量帶註釋的實驗資料訓練這些演算法,他們可以開始識別序列和結構之間的聯絡,從而為新蛋白質的預測提供資訊。

在過去的五年中,多個團隊在將深度學習應用於結構預測方面取得了進展。AlphaFold 的第一次迭代在 2018 年贏得了 CASP13,但它的表現遠不及去年的出色表現。隨後,幾家學術實驗室開發了基於深度學習的演算法,其效能優於第一代 AlphaFold,包括 Zhang 實驗室的 DI-TASSER、Baker 實驗室的 trRosetta 和由芝加哥豐田技術研究所的 Jinbo Xu 團隊開發的 RaptorX。

但這些演算法通常作為更大軟體管道的一部分應用,從而有產生錯誤和低效的可能性。紐約市哥倫比亞大學的系統生物學家 Mohammed AlQuraishi 說:「由於它們是零碎構建的,因此您經常會遇到不同的元件通訊錯誤或無法以最佳方式相互通訊。」這些限制激發了人們對管理從序列到結構的整個過程的端到端演算法的興趣。常駐倫敦的 DeepMind 高階研究科學家 John Jumper 表示,在 CASP13 之後,他的團隊基本上放棄了第一代 AlphaFold,並開始開發這樣的解決方案——AlphaFold2。

AlphaFold2 的幾個方面建立在既定技術之上。例如,該演算法首先生成多序列比對(MSA),其中將具有未知結構的新蛋白質與來自其他物種的相關序列進行比較。透過識別並行變化的共同進化氨基酸,演算法可以定位那些最有可能在摺疊蛋白質中相互關聯的氨基酸——序列中的一個變化需要補償性突變以保持整體結構的地方。

Sander 和他的合作者、馬薩諸塞州劍橋市哈佛大學的計算生物學家 Debora Marks 以及他們的團隊在 2011 年開發了這種基於共同進化的技術。正確的摺疊和基本形狀,」Sander 說,「現在機器學習讓它變得更好。」

AlphaFold2 的開發人員利用了前所未有的大量資訊來構建MSA,他們使用了來自韓國首爾國立大學計算生物學家 Martin Steinegger 和德國哥廷根馬克斯·普朗克生物物理化學研究所(Max Planck Institute for Biophysical Chemistry)Johannes söding 彙編的資料集中的數十億蛋白質序列。「他們想讓我把它變成一個可搜尋的資料庫。」Steinegger說。

<mark data-type=concepts data-id=2d28aa9c-942d-471d-bd96-8bfefb7144e0>人工智慧</mark>為蛋白質摺疊預測提供動力

DeepMind 團隊還為蛋白質摺疊問題設計了創新的解決方案。一種是使用稱為轉換器的模式識別工具,它通常用於影像分析和自然語言處理。Transformer 旨在識別可能指導數據解釋的區域性模式——例如,單詞串或相鄰的視覺元素。DeepMind 使它們適應了更具挑戰性的蛋白質結構領域,構建了識別並專注於可能在最終摺疊形式中很重要的長程蛋白質相互作用的轉換器。「在最終的蛋白質結構中,你會在很遠的事物之間建立聯絡——比如殘基 10 可能會與殘基 350 對話。」Jumper 說。

AlphaFold2 過程同時從多個角度處理蛋白質摺疊,並並行生成預測結構的多個表示。然後將它們進行比較,由此產生的見解有助於在後續迭代中改進建模過程。Jumper 和他的同事透過設計一種神經網路架構來實現這一點,該架構允許軟體元件之間進行流暢和高效的資訊交換。AlQuraishi 說:「我認為讓這一切成為現實的最重要的因素是精心設計的通訊系統。」

為人預測

由於 AlphaFold2 的首次亮相和論文發表之間存在滯後,而且學術界對是否可以提供完整細節的不確定性,Baker 和他的博士後 Minkyung Baek 使用有關軟體架構的稀疏資訊開發了他們自己的版本 RoseTTAFold。這使用了許多與 AlphaFold2 相同的策略,但有一些獨特的曲折。

「在我們推出它的時候,它無疑是你可以使用的最好的結構預測方法——但不如 AlphaFold2,」貝克說。他指出,與大多數學術實驗室相比,DeepMind 是一個私人實體,擁有龐大的資源和一支由多學科專家組成的長期團隊。哥本哈根大學的計算生物學家 Amelie Stein 說,AlphaFold2 成功的最廣泛解釋「就是這是谷歌的錢」。「但它也彙集了軟體工程師和了解蛋白質和蛋白質結構的人的專業知識。」

AlphaFold2 釋出以來,實驗室一直呼籲使用該軟體及其結構預測,這些預測可透過歐洲生物資訊學研究所託管的資料庫獲得。

使用者通常發現該軟體易於使用,儘管他們需要數 TB 的磁碟空間來下載資料庫和多個圖形處理單元 (GPU) 來處理分析。「單結構計算並沒有那麼糟糕——我們執行了幾個小時。」斯德哥爾摩大學的生物資訊學家 Arne Elofsson 說。但由於它們的規模和所需的資源,目前大多數學術實驗室可能無法對生物體的蛋白質或蛋白質組的完整補充進行分析。

對於希望試用該軟體的研究人員,Steinegger 和他的同事開發了 ColabFold,這是一個基於雲的系統,使用遠端資料庫和 Google 提供的計算能力執行 AlphaFold2 和 RoseTTAFold。基於網路的介面相對簡單:「你可以插入你的序列,然後只需按下一個按鈕,它就會為你預測結構。」 Steinegger 說。但它也允許使用者修改設定並最佳化他們的實驗——例如透過改變結構預測的迭代次數。

尋找摺疊

就連 DeepMind 團隊也對 AlphaFold2 在 CASP14 上的表現感到吃驚。「我們顯然有內部基準測試表明我們會做得很好,」Jumper 說。「但在一天結束的時候,我的腦海裡仍然有一種感覺:這真的、真的嗎?」

CASP14 緩解了這些擔憂,在過去的幾個月裡,AlphaFold2 的能力和侷限性已經得到了無數次展示。在與描述該演算法的論文一起發表的一項研究中,DeepMind 團隊將 AlphaFold2 應用於包含 98.5% 人類蛋白質組的資料集。該演算法使用稱為預測區域性距離差異測試(pLDDT)的度量來表明其對特定氨基酸的位置和方向準確反映其真實世界結構的置信度。這樣,蛋白質組中所有殘基的 36% 可以以非常高的置信度得到解決。

今年 8 月,西班牙巴塞羅那超級計算中心的生物資訊學家 Alfonso Valencia 領導的研究人員獨立得出結論,AlphaFold2 將人類蛋白質中可準確定位的氨基酸比例從 31% 提高到 50%。

Zhang 預計該軟體將縮短蛋白質組懸而未決的成果。「它們可能可以摺疊所有單域蛋白質。」他說。但是許多蛋白質仍然是一個挑戰,例如那些由多個獨立的功能單元組成的蛋白質,這些單元由相對靈活的接頭元件連線起來。在這些情況下,單個域可能會一致,但它們相對於彼此的方向可能不同。

更具挑戰性的是在自然狀態下本質上是無序的蛋白質片段,這可能代表人類蛋白質組中所有氨基酸的三分之一以上。目前沒有演算法可以預測這些片段如何摺疊,但 Jumper 指出極低的 pLDDT 分數至少可以在結構中劃分這些片段。「一個完全不自信的預測是一個非常強烈的障礙指標。」他說。

AlphaFold2 和 RoseTTAFold 的一個意想不到的特點是,它們能夠從成對的蛋白質鏈預測準確的結構,這些蛋白質鍊形成稱為同二聚體(如果由兩種相同的蛋白質組成)或異二聚體(由兩種不同的蛋白質組成)的複合物,而這是它們最初沒有受過訓練的。

Elofsson 和他的團隊報告說,他們使用 AlphaFold2 成功模擬了多達 59% 的兩種蛋白質複合物。當試圖從頭開始識別可能的複合物時,與建模已知的相互作用對相比,這個過程在計算上變得更具挑戰性。但是 Baker 和他的團隊表明,透過串聯應用多種深度學習演算法,他們能夠從酵母釀酒酵母蛋白質組中數百萬個可能的相互作用對中識別和建模數百個多蛋白質複合物。「RoseTTAFold [比 AlphaFold2] 快大約 100 倍,因此我們可以在所有對上執行它,然後用它過濾掉最有可能相互作用的那些。」Baker 說,「然後我們在那個小得多的子集上執行了 AlphaFold2。」

10 月,DeepMind 感受到了對該應用的熱情,釋出了 AlphaFold-Multimer,它經過專門訓練,可以處理由多條鏈組裝形成的蛋白質複合物。AlphaFold-Multimer 為 34% 的測試同源二聚體複合物和 23% 的異源二聚體複合物生成了相互作用的高精度預測。

功能邊界

儘管如此,馬克斯指出,仍有許多問題無法解決。「如果你的技術致力於真正學習很好地複製晶體學,那就太好了。」她說。但她指出,這種靜態結構快照,不適合探索與特定蛋白質的操縱或固有動態行為相關的問題。

例如,AlphaFold2 通常為每個序列生成一個「正確」的答案。但是許多蛋白質具有多種與功能相關的構象狀態——例如,確定酶是活躍的還是被抑制的。「你可以嘗試調整 AlphaFold 以獲得其中一個,但通常你無論做什麼都只會生成一個 [構象]。」Elofsson 說。該演算法根本不是為了模擬複雜的分子物理學而設計的,即使它在生成預測時捕獲了這些力的影響。解決這些問題可能需要實驗技術來顯示多種狀態下實際蛋白質的結構,例如冷凍電鏡。

AlphaFold2 通常也不適合預測單個氨基酸的變化如何改變蛋白質結構——這是瞭解突變如何導致疾病的關鍵因素。這部分是因為該演算法使用進化觀點從許多略有不同的序列中收斂到正確的解決方案,Stein 說,他的工作重點是表徵這些變體。「如果你在某處翻轉一個殘留物,你不能指望它突然說,『這是一場災難』。」她說。然而,她和她的團隊發現,他們可以將深度學習生成的野生型蛋白質結構與其他突變分析演算法結合起來,以實現更準確的預測。

好訊息是結構生物學家不會很快失業。事實上,他們現在可能能夠把更多的時間花在該領域的其他緊迫問題上。例如,英國劍橋大學的結構生物學家 Randy Read 指出,AlphaFold2 的結構預測已經幫助晶體學家透過克服繁瑣的「相位問題」大大加快了資料解釋速度——這是一個與解釋 X 射線衍射實驗中產生的不完整資料相關的挑戰。

蛋白質設計者也可以看到好處。從頭開始——稱為從頭蛋白質設計——涉及透過計算生成但在實驗室中測試的模型。「現在你可以立即使用 AlphaFold2 摺疊它,」Zhang說。這些結果甚至可用於重新訓練設計演算法,以在未來的實驗中產生更準確的結果。

對於 AlQuraishi 來說,這些可能性預示著結構生物學的新時代,強調蛋白質功能而不是形式。「在很長一段時間內,結構生物學都如此專注於單個部分,以至於將這些美麗的絲帶圖提升到幾乎就像它們自身的終點。」他說,「現在我認為結構生物學將贏得其名稱中的『生物學』成分。」

相關報導:https://www.nature.com/articles/d41586-021-03499-y

相關文章