編輯 | 蘿蔔皮
近日,Nature發表文章討論Alphafold,這個能夠預測蛋白質三維形狀的工具已經改變了生物學。去年7月,DeepMind釋出了Alphafold,它可以從蛋白質的序列中預測其三維形狀,而且大部分情況下是精確的。它在CASP獲得了優勝並且在今年DeepMind計劃釋出總數超過1億的結構預測。生物學家們已經對AlphaFold解決結構的能力留下了深刻印象。在輔助實驗方面,Alphafold提供了一個初步的近似值,可以透過實驗來驗證或完善,而它本身也有助於理解實驗資料。另一方面製藥公司和生物技術公司的研究人員對AlphaFold在幫助藥物發現方面的潛力感到興奮,目前已有基於Alphafold進行虛擬篩選、候選藥物的化合物設計和蛋白質幻想設計。本文最後也討論了Alphafold的一些侷限性。
資訊連結:
https://www.nature.com/articles/d41586-022-00997-5
HUB地址:
https://hub.baai.ac.cn/view/16431
十多年來,分子生物學家 Martin Beck 團隊一直在努力拼湊世界上最難的拼圖遊戲之一:人類細胞中最大分子機器的詳細模型。
這種被稱為核孔複合體的龐然大物控制著分子進出細胞核的流動,也就是基因組所在的地方。每個細胞中都存在數百個這樣的複合物。每個都由超過 1,000 種蛋白質組成,這些蛋白質在穿過核膜的孔周圍形成環。
這 1,000 塊拼圖由 30 多種蛋白質構建塊組成,這些蛋白質構建塊以多種方式交織在一起。使難題變得更加困難的是,這些構建塊的實驗確定的 3D 形狀是從許多物種中收集的結構的雜燴,所以不要總是很好地融合在一起。拼圖盒子上的圖片——核孔複合體的低解析度 3D 檢視——缺乏足夠的細節來知道有多少部分精確地組合在一起。
2016 年,由位於德國法蘭克福馬克斯普朗克生物物理研究所(MPIB)的 Beck 領導的一個團隊報告了一個模型,該模型涵蓋了大約 30% 的核孔複合體和大約 30 個構建單元中的一半,稱為核蛋白。
然後,2021 年 7 月,總部位於倫敦的 DeepMind 公司(谷歌母公司 Alphabet 的一部分)公開了一款名為 AlphaFold 的人工智慧(AI)工具。該軟體可以從蛋白質的基因序列中預測蛋白質的 3D 形狀,並且在很大程度上具有精確性。這改變了 Beck 的任務,以及成千上萬其他生物學家的研究。
「AlphaFold 改變了遊戲規則。」Beck 說,「這就像一場地震。你可以在任何地方看到它。」以色列耶路撒冷希伯來大學的計算結構生物學家 Ora Schueler-Furman 說,他正在使用 AlphaFold 來模擬蛋白質相互作用,「七月之前和之後都有。」
使用 AlphaFold、Beck 和 MPIB 的其他人——分子生物學家 Agnieszka Obarska-Kosinska 和由生物化學家 Gerhard Hummer 領導的小組——以及由結構建模師 Jan Kosinski 領導的團隊,在德國漢堡的歐洲分子生物學實驗室(EMBL),可以更準確地預測人類版本的 Nup 蛋白的形狀。
透過利用幫助 AlphaFold 模擬蛋白質相互作用的調整,他們在去年 10 月成功釋出了一個模型,涵蓋了 60% 的複合體。它揭示了複合體如何穩定原子核中的孔,並暗示複合體如何控制進出的東西。
在過去的半年裡,AlphaFold 狂熱席捲了生命科學領域。「我參加的每次會議,人們都在說『為什麼不使用 AlphaFold?』」倫敦大學學院的計算生物學家 Christine Orengo 說。
在某些情況下,人工智慧為科學家節省了時間;在其他情況下,它使以前難以想象或非常不切實際的研究成為可能。它有侷限性,一些科學家發現它的預測對於他們的工作來說太不可靠了。但實驗的步伐是狂熱的。
即使是開發該軟體的人也在努力跟上它在從藥物發現和蛋白質設計到複雜生命起源等領域的使用。「我醒來並在 Twitter 上輸入 AlphaFold。」領導 DeepMind AlphaFold 團隊的 John Jumper 說,「看到一切都是一種體驗。」
驚人的成功
AlphaFold 在 2020 年 12 月引起了轟動,當時它主導了一場名為「蛋白質結構預測關鍵評估」(CASP)的比賽。該競賽每兩年舉行一次,旨在衡量生物學最大挑戰之一的進展:僅從氨基酸序列中確定蛋白質的 3D 形狀。
計算機軟體條目是根據使用X射線結晶學或低溫電子顯微鏡(cryo EM)等實驗方法確定的相同蛋白質的結構來判斷的,這些方法向蛋白質發射X射線或電子束,以建立其形狀的影像。
AlphaFold 的 2020 版是該軟體的第二版。Jumper 說,它還贏得了 2018 年的 CASP,但其早期的努力大多不足以代替實驗確定的結構。然而,AlphaFold2 的預測平均而言與經驗結構相當。
目前尚不清楚 DeepMind 何時會廣泛使用該軟體或其預測,因此研究人員利用 Jumper 公開演講中的資訊以及他們自己的見解,開發了自己的人工智慧工具,稱為 RoseTTAFold。
然後在 2021 年 7 月 15 日,出現了描述 RoseTTAFold 和 AlphaFold2 的論文,以及免費提供的開原始碼和專家執行他們自己的工具版本所需的其他資訊。
一週後,DeepMind 宣佈它已經使用 AlphaFold 預測了人類製造的幾乎每一種蛋白質的結構,以及其他 20 種被廣泛研究的生物體的整個「蛋白質組」,例如老鼠和大腸桿菌——超過 365,000 種共結構。
DeepMind 還將這些資訊公開發布到由位於英國欣克斯頓的 EMBL 歐洲生物資訊學研究所(EMBL-EBI)維護的資料庫中。此後,該資料庫已膨脹到近一百萬個結構。
今年,DeepMind 計劃釋出總計超過 1 億個結構預測。這幾乎是所有已知蛋白質的一半,是蛋白質資料庫(PDB)結構庫中實驗確定的蛋白質數量的數百倍。
AlphaFold 部署了深度學習神經網路:受大腦神經線路啟發的計算架構,可識別資料中的模式。它已經接受了 PDB 和其他資料庫中數十萬個實驗確定的蛋白質結構和序列的訓練。
面對一個新序列,它首先在資料庫中尋找相關序列,這些序列可以識別出傾向於一起進化的氨基酸,表明它們在 3D 空間中很接近。現有相關蛋白質的結構提供了另一種估計新序列中氨基酸對之間距離的方法。
AlphaFold 在嘗試對氨基酸的 3D 位置進行建模時來回迭代來自這些平行軌跡的線索,並不斷更新其估計值。
專家表示,該軟體在機器學習研究中的新思想應用似乎是 AlphaFold 如此出色的原因——特別是,它使用一種稱為「注意力」的人工智慧機制來確定哪些氨基酸連線在任何時候對其任務最重要 .
該網路對相關蛋白質序列資訊的依賴意味著 AlphaFold 存在一些侷限性。它並非旨在預測突變(例如導致疾病的突變)對蛋白質形狀的影響。它也沒有被訓練來確定在其他相互作用的蛋白質或藥物等分子存在的情況下蛋白質如何改變形狀。
但它的模型附帶的分數可以衡量網路對其預測蛋白質每個氨基酸單元的信心——研究人員正在調整 AlphaFold 的程式碼以擴充套件其功能。
據 DeepMind 稱,到目前為止,已有超過 40 萬人使用了 EMBL-EBI 的 AlphaFold 資料庫。還有 AlphaFold 的「超級使用者」:研究人員在自己的伺服器上安裝了軟體,或者轉向基於雲的 AlphaFold 版本來預測不在 EMBL-EBI 資料庫中的結構,或者為該工具設想新用途。
求解結構
AlphaFold 解析結構的能力已經給生物學家留下了深刻的印象。「根據我目前所見,我非常信任 AlphaFold。」丹麥奧胡斯大學的結構生物學家 Thomas Boesen 說。
該軟體已成功預測了 Boesen 中心已確定但尚未發表的蛋白質形狀。「這對我來說是一個很大的驗證。」他說。
他和奧胡斯微生物生態學家 TinaŠantl-Temkiv 正在使用 AlphaFold 來模擬促進冰形成的細菌蛋白質的結構——這可能有助於雲中冰的冷卻效果——因為生物學家還無法透過實驗完全確定這些結構。
斯德哥爾摩大學的蛋白質生物資訊學家 Arne Elofsson 表示,只要一種蛋白質捲曲成一個明確定義的 3D 形狀——而且並非全部如此——AlphaFold 的預測就很難被擊敗。「這是一種一鍵式解決方案,可能是您將獲得的最佳模型。」
Elofsson 說,在 AlphaFold 不太自信的地方,「它非常擅長告訴你什麼時候它不起作用」。在這種情況下,預測的結構可能類似於浮動的義大利麵條。
這通常對應於缺乏確定形狀的蛋白質區域,至少在隔離時是這樣。這種本質上無序的區域——約佔人類蛋白質組的三分之一——可能只有在存在另一種分子(如訊號夥伴)時才能得到明確定義。
倫敦癌症研究所的計算生物學家 Norman Davey 表示,AlphaFold 識別疾病的能力已經改變了他研究這些區域特性的工作。他說:「我們的預測質量立即有了巨大的提高,而我們沒有付出任何努力。」
AlphaFold 將蛋白質結構轉儲到 EMBL-EBI 資料庫中的資料也立即投入使用。Orengo 的團隊正在搜尋它以識別新的蛋白質種類(沒有透過實驗驗證它們),並且已經發現了數百甚至數千個潛在的新蛋白質家族,擴大了科學家對蛋白質外觀和功能的瞭解。
在另一項研究中,該團隊正在搜尋從海洋和廢水中採集的 DNA 序列資料庫,以嘗試識別新的食用塑膠酶。使用 AlphaFold 快速近似數千種蛋白質的結構,研究人員希望更好地瞭解酶如何進化以分解塑膠,並有可能改進它們。
馬薩諸塞州劍橋市哈佛大學的進化生物學家 Sergey Ovchinnikov 說,將任何蛋白質編碼基因序列轉化為可靠結構的能力對於進化研究來說應該是特別強大的。
研究人員比較基因序列以確定生物及其基因在物種間的相關性。對於遠緣相關的基因,比較可能無法找到進化親屬,因為序列發生了很大變化。但透過比較蛋白質結構——其變化往往不如基因序列快——研究人員或許能夠發現被忽視的古老關係。
蘇黎世瑞士聯邦理工學院的計算生物學家 Pedro Beltrao 說:「這為研究蛋白質進化和生命起源提供了一個絕佳的機會。」
為了驗證這一觀點,首爾國立大學計算生物學家 Martin Steinegger 團隊使用他們開發的名為 Foldseek 的工具,在 EMBL-EBI 的 AlphaFold 資料庫中尋找 SARS-CoV-2 RNA 複製酶的親屬。
這項研究發現了以前未知的可能的遠古親屬:真核生物中的蛋白質——包括粘液黴菌——在其 3D 結構中類似於被稱為逆轉錄酶的酶,愛滋病毒等病毒利用逆轉錄酶將 RNA 複製到 DNA 中,儘管在基因序列水平上幾乎沒有相似性。
實驗助理
對於想要確定特定蛋白質的詳細結構的科學家來說,AlphaFold 預測不一定是立竿見影的解決方案。相反,它提供了一個可以透過實驗驗證或改進的初始近似值——它本身有助於理解實驗資料。例如,來自 X 射線晶體學的原始資料顯示為衍射 X 射線的圖案。通常,科學家需要對蛋白質結構進行初步猜測才能解釋這些模式。
英國劍橋大學的結構生物學家 Randy Read 說,以前,他們經常將來自 PDB 中相關蛋白質的資訊拼湊起來,或者使用實驗方法,他的實驗室專門研究其中一些方法。
現在,AlphaFold 的預測使得大多數 X 射線模式不需要這種方法,Read 說,他的實驗室正在努力在實驗模型中更好地利用 AlphaFold。「我們完全重新調整了研究重點。」
他和其他研究人員已經使用 AlphaFold 從 X 射線資料中確定晶體結構,這些資料在沒有足夠的起始模型的情況下是無法解釋的。「人們正在解決多年來一直沒有解決的結構。」Claudia Millán Nebot 說,他是 Read 實驗室的前博士後,現在在劍橋的分析公司 SciBite 工作。她預計會看到大量新的蛋白質結構提交給 PDB,這在很大程度上是 AlphaFold 的結果。
專門從事冷凍電鏡研究的實驗室也是如此,它可以捕捉快速冷凍蛋白質的照片。在某些情況下,AlpHouple的模型已經準確地預測了稱為G-蛋白偶聯受體(GPCRs)的蛋白質的獨特特徵,這些蛋白是重要的藥物靶標-其他的計算工具出錯了,北卡羅來納大學教堂山分校的結構生物學家和藥理學家Bryan Roth說:「它似乎非常適合生成第一個模型,然後我們用一些實驗資料對其進行改進。這為我們節省了一些時間。」
但 Roth 補充說,AlphaFold 並不總是那麼準確。他說,在他的實驗室已經解決但尚未發表的幾十個 GPCR 結構中,「大約有一半的時間,AlphaFold 結構相當好,而有一半的時間它們或多或少對我們的目的毫無用處」。
他說,在某些情況下,AlphaFold 以高置信度標記預測,但實驗結構表明它是錯誤的。即使軟體做對了,它也無法模擬蛋白質與藥物或其他小分子(配體)結合時的外觀,這會大大改變結構。這些警告讓 Roth 想知道 AlphaFold 對藥物發現有多大用處。
在藥物發現工作中,使用計算對接軟體越來越普遍,該軟體可以篩選數十億個小分子,以找到一些可能與蛋白質結合的分子——這表明它們可以製造有用的藥物。
Roth 現在正與加州大學舊金山分校的藥物化學家 Brian Shoichet 合作,以瞭解 AlphaFold 的預測如何與本練習中透過實驗確定的結構進行比較。
Shoichet 說,他們將工作限制在 AlphaFold 的預測與實驗結構相吻合的蛋白質上。但即使在這些情況下,對接軟體也會為實驗結構和 AlphaFold 提供不同的藥物命中率,這表明微小的差異可能很重要。「這並不意味著我們不會找到新的配體,我們只會找到不同的配體,」Shoichet 說。他的團隊現在正在合成使用 AlphaFold 結構識別的潛在藥物,並在實驗室中測試它們的活性。
批判性樂觀
Shoichet 說,製藥公司和生物技術公司的研究人員對 AlphaFold 幫助藥物發現的潛力感到興奮。「批判性的樂觀是我描述它的方式。」 2021 年 11 月,DeepMind 推出了自己的衍生產品 IsoMorphic Labs,旨在將 AlphaFold 和其他 AI 工具應用於藥物發現。但該公司對其計劃隻字未提。
Karen Akinsanya 領導著 Schrödinger 的治療開發,Schrödinger 是一家總部位於紐約市的藥物發現公司,也釋出了化學模擬軟體,她說她們團隊已經在虛擬螢幕、 GPCR、候選藥物的化合物設計中使用 AlphaFold 結構取得了一些成功 。
她發現,就像實驗結構一樣,需要額外的軟體來獲取氨基酸側鏈或單個氫原子可能所在位置的詳細資訊。一旦完成,AlphaFold 結構已被證明足以指導藥物發現——在某些情況下。
「很難說『這是靈丹妙藥』;因為你可以為一個結構做得很好——令人驚訝和令人興奮的——它非常適用於所有結構。顯然不是!」Akinsanya 說,她的團隊發現,AlphaFold 的準確性預測並不能顯示一個結構是否對以後的藥物篩選有用。她表示,AlphaFold 結構永遠不會完全取代藥物發現中的實驗性結構。但他們可能會透過補充實驗方法來加速這一過程。
對 AlphaFold 感到好奇的藥物開發人員在 1 月份收到了好訊息,當時 DeepMind 取消了對其用於商業應用的關鍵限制。當該公司在 2021 年 7 月釋出了 AlpHouple 的程式碼時,它規定了執行 AlphaFold 神經網路所需的引數或權值,這是對成千上萬個蛋白質結構和序列進行網路訓練的最終結果,僅用於非商業用途。Akinsanya 說,這對行業中的一些人來說是一個瓶頸,當 DeepMind 改變策略時出現了一股「興奮的浪潮」。(RoseTTAFold 也有類似的限制,其開發人員之一 Ovchinnikov 說,但下一個版本將完全開源。)
人工智慧工具不僅改變了科學家確定蛋白質外觀的方式。一些研究人員正在使用它們來製造全新的蛋白質。「深度學習正在徹底改變我小組中蛋白質設計的方式。」西雅圖華盛頓大學的生物化學家、蛋白質設計和預測其結構領域的領導者 David Baker 說。他的團隊與計算化學家 Minkyung Baek 一起領導了開發 RoseTTAFold 的工作。
Baker 的團隊讓 AlphaFold 和 RoseTTAFold 能夠「產生幻覺」新的蛋白質。研究人員已經改變了人工智慧程式碼,因此,給定氨基酸的隨機序列,軟體將對其進行最佳化,直到它們類似於神經網路識別為蛋白質的東西。
2021 年 12 月,Baker 團隊報告說,在細菌中表達了 129 種這些幻覺蛋白,並發現其中約五分之一折疊成類似於其預測形狀的東西。「這確實是第一次證明你可以使用這些網路設計蛋白質。」Baker 說。他的團隊現在正在使用這種方法來設計做有用事情的蛋白質,例如催化特定的化學反應,方法是指定負責所需功能的氨基酸,並讓 AI 幻想生成其餘部分。
破解 AlphaFold
當 DeepMind 釋出其 AlphaFold 程式碼時,Ovchinnikov 想要更好地瞭解該工具的工作原理。幾天之內,他和包括 Steinegger 在內的計算生物學同事建立了一個名為 ColabFold 的網站,允許任何人向 AlphaFold 或 RoseTTAFold 提交蛋白質序列並獲得結構預測。
Ovchinnikov 設想他和其他科學家會使用 ColabFold 來嘗試「破壞」AlphaFold,例如,透過提供有關目標蛋白質序列進化親屬的虛假資訊。透過這樣做,Ovchinnikov 希望他能夠確定網路是如何學會如此出色地預測結構的。
事實證明,大多數使用 ColabFold 的研究人員只是想獲得蛋白質結構。但其他人將其用作修改 AlphaFold 的輸入以處理新應用程式的平臺。「我沒想到會出現各種型別的駭客攻擊,」Jumper 說。
到目前為止,最流行的駭客攻擊是在蛋白質複合物上使用該工具,該複合物由多個相互作用的——通常是相互交織的——肽鏈組成。就像核孔複合物一樣,細胞中的許多蛋白質在與多個蛋白質亞基形成複合物時發揮作用。
AlphaFold 旨在預測單個肽鏈的形狀,其訓練完全由此類蛋白質組成。但該網路似乎已經瞭解了一些關於複合物如何摺疊在一起的知識。在 AlphaFold 的程式碼釋出幾天後,東京大學的蛋白質生物資訊學家 Yoshitaka Moriwaki 在推特上表示,如果將兩個蛋白質序列與一個長的接頭序列縫合在一起,它可以準確地預測它們之間的相互作用。Baek 很快分享了另一個從開發 RoseTTAFold 中收集到的預測複合物的技巧。
ColabFold 後來加入了預測複合物的能力。並且在 2021 年 10 月,DeepMind 釋出了一個名為 AlphaFold-Multimer 的更新,該更新專門針對蛋白質複合物進行訓練,與其前身不同。Jumper 的團隊將其應用於 PDB 中的數千個複合物,發現它預測了大約 70% 的已知蛋白質-蛋白質相互作用。
這些工具已經在幫助研究人員發現潛在的新蛋白質夥伴。Elofsson 的團隊使用 AlphaFold 預測了 65,000 個人類蛋白質對的結構,這些蛋白質對根據實驗資料被懷疑相互作用。Baker 領導的一個團隊使用 AlphaFold 和 RoseTTAFold 來模擬酵母編碼的幾乎每一對蛋白質之間的相互作用,識別出 100 多種以前未知的複合物。
Elofsson 說,這樣的螢幕只是起點。他們在預測某些蛋白質配對方面做得很好,尤其是那些穩定但難以識別更多瞬時相互作用的蛋白質配對。「因為它看起來不錯並不意味著它是正確的。」Elofsson 說,「你需要一些實驗資料來證明你是對的。」
Kosinski 說,核孔複合體工作是預測和實驗資料如何協同工作的一個很好的例子。「這並不是說我們將所有 30 種蛋白質都放入 AlphaFold 中並取出結構。」為了將預測的蛋白質結構組合在一起,該團隊使用了核孔複合物的 3D 影像,這些影像是使用一種稱為低溫電子斷層掃描的低溫電子顯微鏡拍攝的。在一個例子中,可以確定蛋白質接近度的實驗在複合物的兩個成分之間產生了令人驚訝的相互作用,AlphaFold 的模型隨後證實了這一點。
Kosinski 將團隊當前的核孔複合體地圖視為實驗和模擬的起點,這些實驗和模擬檢查了孔複合體的功能,以及它如何在疾病中出現故障。
AlphaFold 的限制
對於 AlphaFold 取得的所有進展,科學家們表示,重要的是要清楚它的侷限性——特別是因為不專門預測蛋白質結構的研究人員會使用它。
嘗試將 AlphaFold 應用於破壞蛋白質自然結構的各種突變,包括與早期乳腺癌相關的突變,已證實該軟體無法預測蛋白質新突變的後果,因為沒有進化相關的序列可供檢查。
AlphaFold 團隊現在正在考慮如何設計神經網路來處理新的突變。Jumper 預計這將需要網路更好地預測蛋白質如何從展開狀態變為摺疊狀態。
紐約市哥倫比亞大學的計算生物學家 Mohammed AlQuraishi 說,這可能需要僅依靠它所學到的蛋白質物理學知識來預測結構的軟體。「我們感興趣的一件事是在不使用進化資訊的情況下從單個序列進行預測。」他說,「這是一個尚未解決的關鍵問題。」
AlphaFold 也被設計用來預測一個單一的結構,儘管它已經被駭客破解了不止一個。但是許多蛋白質具有多種構象,這對其功能可能很重要。「AlphaFold 不能真正處理可以採用不同構象的不同結構的蛋白質,」Schueler-Furman 說。並且預測是針對孤立結構的,而許多蛋白質與配體(如 DNA 和 RNA)、脂肪分子和礦物質(如鐵)一起發揮作用。「我們仍然缺少配體,我們缺少關於蛋白質的其他一切。」Elofsson 說。
AlQuraishi 說,開發這些下一代神經網路將是一個巨大的挑戰。AlphaFold 依賴於數十年的研究,這些研究產生了網路可以學習的蛋白質實驗結構。目前無法獲得如此大量的資料來捕捉蛋白質動力學,或者蛋白質可以與之相互作用的數萬億個小分子的形狀。Jumper 補充說,PDB 包括蛋白質與其他分子相互作用時的結構,但這僅捕獲了一小部分化學多樣性。
研究人員認為,他們需要時間來確定如何最好地使用 AlphaFold 和相關的人工智慧工具。AlQuraishi 看到了電視早期的相似之處,當時一些節目由廣播電臺組成,只是閱讀新聞。「我認為我們將找到我們尚未想到的結構的新應用。」
AlphaFold 革命的終點在哪裡,誰也說不準。「事情變化太快了。」Baker 說,「即使在明年,我們也將看到使用這些工具取得的重大突破。」
EMBL-EBI 的計算生物學家 Janet Thornton 認為,AlphaFold 的最大影響之一可能只是說服生物學家對計算和理論方法的見解更加開放。「對我來說,革命就是思維方式的改變。」她說。
AlphaFold 革命激發了 Kosinski 的遠大夢想。他認為受 AlphaFold 啟發的工具不僅可用於對單個蛋白質和複合物進行建模,還可以對整個細胞器甚至細胞進行建模,直至單個蛋白質分子的水平。「這是我們未來幾十年的夢想。」
相關報導:https://www.nature.com/articles/d41586-022-00997-5