一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science

机器之心發表於2021-07-16

這是科學激動人心的新一步。

使用 DNA 序列預測蛋白質形狀的 AphaFold2,終於開源了。

眾所周知,蛋白質是生命活動的基本元件,它們可以單獨存在,也會協同工作。為了發揮作用,這些長鏈氨基酸扭曲、摺疊並交織成複雜的形狀,這些形狀可能很難,甚至根本不可能破譯。

科學家們一直在夢想透過基因序列簡單地預測蛋白質形狀——如果能夠成功,這將開啟一個洞察生命運作機理的新世界。然而近五十年來,人們的進展緩慢。

7 月 15 日,《自然》雜誌一篇論文被接收的訊息引發了人們的關注,谷歌旗下人工智慧公司 DeepMind 在研究《Highly accurate protein structure prediction with AlphaFold》中宣佈,人們首次發現了一種透過計算來預測蛋白質結構的方法。即使在不知道相似結構的情況下,AI 也可以在原子層面上精確預測蛋白質結構。也就是說,之前備受關注的 AlphaFold2 終於開源了。
一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science
無獨有偶,作為相當熱門的研究領域,Science 同樣在今天發表了一篇論文,介紹並開源了一個可媲美 AlphaFold2 的新工具 RoseTTAFold。

所以說,賽馬了,感興趣的同學可以自由選擇。

AlphaFold2 開源,原子精度預測蛋白質結構

2020 年 12 月的國際蛋白質結構預測競賽 CASP ,一項重磅成果引發了科技界所有人的關注:由 DeepMind 開發的 AlphaFold 2 擊敗一眾選手,在準確性方面達到比肩人類實驗結果,被認為是蛋白質摺疊問題的解決方案。

一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science

在兩年一次的 CASP 競賽中,各組爭先預測蛋白質的 3D 結構。2020,AlphaFold 擊敗了所有其他小組,並在準確性方面與實驗結果相匹配。它能以就計算機方法而言前所未有的準確度根據蛋白質的氨基酸序列預測其三維結構。

這破解了出現五十年之久的蛋白質分子摺疊問題,同時證明了 AI 對於科學發現,尤其是基礎科學研究的影響。

科學家們紛紛表示,這項突破極具意義。Alphafold 的突破性研究成果將幫助科研人員弄清引發某些疾病的機制,併為設計藥物、農作物增產,以及可降解塑膠的「超級酶」研發鋪平道路。

因此,這段時間以來,科研圈也在等待 AlphaFold 2 的技術細節。

不久之前,Demis Hassabis 就曾在 Twitter 上表示 DeepMind 將開源 AlphaFold2,如今終於兌現承諾。

7 月 15 日,Demis Hassabis、John Jumper 等人在 Nature 雜誌上發表了文章《Highly accurate protein structure prediction with AlphaFold》,描述並開源了 AlphaFold2,它預測的蛋白質結構能達到原子水平的準確度。
一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science
  • 連結:https://www.nature.com/articles/s41586-021-03819-2

  • 開源地址:https://github.com/deepmind/alphafold


在文章中,DeepMind 表示 AlphaFold 可以週期性的以原子精度預測蛋白質結構。在技術上,AlphaFold 利用多序列對齊,進行深度學習演算法的設計,還結合了關於蛋白質結構的物理和生物學知識提升效果。

作為通訊作者之一,Demis Hassabis 在一段宣告中寫到,「去年在 CASP14 大會上我們揭曉了一個可以將蛋白質 3D 結構預測精確到原子水平的全新 AlphaFold 系統,此後我們承諾會分享我們的方法,併為科學共同體提供廣泛、免費的獲取途徑。今天我們邁出了承諾的第一步,在《自然》期刊上分享 AlphaFold 的開原始碼,並發表了系統的完整方法論,詳盡細緻說明 AlphaFold 是如何做到精確預測蛋白質 3D 結構的。作為一家致力於推動科學進步的公司,我們期待看到我們的方法將為科學界啟發出什麼其他新的研究方法,也期待很快能和大家分享更多我們的新進展。」

AlphaFlod 首次參加 CASP 就在 98 名參賽者中名列榜首,準確地從 43 種蛋白質中預測出了 25 種蛋白質的結構。而同組比賽中獲得第二名的參賽者僅準確預測出了 3 種。AlphaFold 專注於從頭開始建模目標形狀,且並不使用先前已經解析的蛋白質作為模板。在大多數情況下,AlphaFold 的準確性與實驗相媲美,大大優於其他方法。

一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science

圖 1:AlphaFold 產出高準確度的架構。

AlphaFold 網路直接預測給定蛋白質的所有重原子的三維座標,使用基本氨基酸序列和同源序列的對齊序列作為輸入 (如圖 1e)。

AlphaFold 網路由兩個主要部分組成。首先,網路的主幹透過一個稱為 Evoformer 的新神經網路塊的重複層來處理輸入,產生一個 Nseq × Nres 陣列 (Nseq: 序列數,Nres: 殘差數) ,它表示一個處理過的 MSA 和一個表示剩餘對的 Nres × Nres 陣列。Evoformer 塊包含許多新穎的基於注意力和非基於注意力的成分,它的關鍵創新是與 MSA 交換資訊的新機制,並能直接推理空間和進化關係的配對錶徵。

網路的主幹之後是結構模組(Structure Module),該模組以蛋白質的每個殘基的旋轉和平移的形式引入了顯式的 3-D 結構。這些表徵在微不足道的狀態下初始化,所有旋轉設定為同一性(identity),所有位置設定為原點,但能夠快速開發和完善具有精確原子細節的高度準確的蛋白質結構。這部分網路的關鍵創新包括打破鏈原子結構,允許同時區域性細化結構的所有部分,一個新的「equivariant transformer」允許網路隱式地推理未表示的側鏈原子,以及損失項可對殘基方向的正確性賦予重要權重。

一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science

圖 3:架構細節

一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science

圖 4:解釋神經網路

更多細節大家可以檢視 Nature 原文與 DeepMind 提供的補充材料。

最後提一句,也不知是何原因,該論文未經編輯就出版了(5 月接收、7 月發表),難道是知道今天 Science 也將發表論文介紹一個可與 AlphaFold2 相匹配的研究?也就是下面這一篇。

華盛頓大學等開發媲美 AlphaFold2 的新工具 RoseTTAFold

DeepMind 在 2020 年的 CASP14 會議上展示了其在該領域的顯著成果 AlphaFold2,當時該技術在預測蛋白質方面取得了排名第一的準確率。

華盛頓大學醫學院蛋白質設計研究所(Institute for Protein Design)的研究者們很大程度上重現了 DeepMind 在蛋白質預測任務上的表現,他們聯合哈佛大學、德克薩斯大學西南醫學中心、劍橋大學、勞倫斯伯克利國家實驗室等機構研發出了一款基於深度學習的蛋白質預測新工具 RoseTTAFold,在預測蛋白質結構上取得了媲美 AlphaFold2 的超高準確率,而且速度更快、所需要的計算機處理能力也較低

這項研究已經在 Science 上發表。
一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science
論文連結:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

華盛頓大學醫學院團隊也向社群開源了該工具,來自世界各地的科學家都可以使用它來構建蛋白質模型,加速自己的研究。在上傳至 GitHub 後不久,該工具就已被 140 多個獨立研究團隊下載。
一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science
專案地址 https://github.com/RosettaCommons/RoseTTAFold


具體地,在這項研究中,華盛頓大學醫學院生物化學系教授、蛋白質設計研究所所長 David Baker 領導的計算生物學家團隊開發了一款叫做「RoseTTAFold」的軟體工具,該工具利用深度學習技術,根據有限資訊準確、快速地預測蛋白質結構,原本這一工作需要數年的實驗室研究。

從結構上來看,RoseTTAFold 是一個三軌(three-track)神經網路,意味著它可以兼顧蛋白質序列的模式、氨基酸如何相互作用以及蛋白質可能的三維結構。在這種結構中,一維、二維、三維資訊來回流動,使得網路能夠集中推理蛋白質的化學部分與它的摺疊結構。

下圖 A 為具有 1D、2D 和 3D 注意力軌跡(attention track)的 RoseTTAFold 架構;B 為 CASP14 目標上蛋白質預測方法的平均 TM-score;C 為 CAMEO 中介(medium)和硬(hard)目標的盲基準測試結果。
一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science
RoseTTAFold 方法的準確率比目前可用的方法高得多,因而研究者想要測試是否可以利用它解決以前未解決且具有挑戰性的 MR 問題,並改進臨界個案的解決方案。四個最近的晶體資料集,包括牛屬甘氨酸 N - 醯基轉移酶(GLYAT)、細菌氧化還原酶以及細菌表面層蛋白(SLP)(下圖 A)和來自真菌平革菌屬金孢子菌屬的分泌蛋白(下圖 B),基於 PDB 蛋白質資料庫中可用的模型無法利用 MR 解決,因此研究者使用 RoseTTAFold 模型進行了重新分析:
一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science
另一方面,RoseTTAFold 能夠利用一臺遊戲計算機在短短 10 分鐘內計算出蛋白質結構。研究者使用 RoseTTAFold 計算出了數百種新的蛋白質結構,其中包括許多人類基因組中認知甚少的蛋白質。此外,他們還生成了與人類健康直接相關的一些蛋白質結構,包括與有問題的脂質代謝、炎症和癌細胞生長相關的蛋白質。他們還表明,RoseTTAFold 可以用於建立複雜生物的模型,所需時間只是以前所需時間的一小部分。

下圖為使用 RoseTTAFold 的蛋白質預測流程。其中,A 和 B 是從序列資訊中預測大腸桿菌蛋白複合物的結構;C 表示由 RoseTTAFold 生成的 IL-12R/IL-12 複合結構符合以前發表的低溫電子顯微鏡(cryo-EM)密度(EMD-21645)。
一天之內,兩大AI預測蛋白結構演算法開源,分別登上Nature、Science
論文一作、華盛頓大學博士後研究員 Minkyung Baek 表示:「我們希望這個新工具將造福整個研究領域。」

參考連結:
https://newsroom.uw.edu/news/accurate-protein-structure-prediction-now-accessible-all

https://www.nature.com/articles/s41586-021-03819-2


今天兩大團隊同時釋出蛋白質預測成果,其中DeepMind如約公佈了AlphaFold2的詳細資訊,另一團隊的RoseTTaFold也基於同樣的思想,取得了接近AlphaFold2的效果。

芝加哥豐田技術研究所的許錦波教授在接受外媒採訪時表示,基於這些成果,業界可以展開更多的探索,尤其是複雜蛋白質結構的預測。機器之心知識站請到許錦波老師對這兩項工作進行詳細解讀,具體時間晚些時候在群內公佈,感興趣的讀者可新增機器之心小助手(id:syncedai6,備註:蛋白質),敬請關注。

相關文章