生命所必需的每一次基礎生物學進展幾乎都是由蛋白質帶來的。蛋白質參與建立細胞和組織並保持著它們的形狀;構成維持生命所需化學反應的催化酶;充當分子工廠、轉運工具和馬達;充當細胞通訊的訊號和接收器等等。
蛋白質由很多氨基酸長鏈組成,透過摺疊成精確的 3D 結構來完成無數的任務,這些結構控制著它們與其它分子互動的方式。蛋白質的形狀決定了其功能以及它在疾病中的功能紊亂程度。闡明蛋白質的結構是所有分子生物學的核心,更是治療患者、拯救生命、改變生活的醫學發展的核心。
近年來,根據氨基酸序列預測蛋白質摺疊結構方面的計算方法已經取得了很大進展。如果能夠充分實現,這些方法可能會改變生物醫學研究的方方面面。然而,現在的方法在可測定的蛋白質的大小和範圍上是有限的。
最近,哈佛大學醫學院 Blavatnik 研究所繫統生物學家 Mohammed AlQuraishi 釋出了一項新的研究,他根據氨基酸序列,利用深度學習實現了任意蛋白質 3D 結構的高效預測。在 4 月 17 日的 Cell Systems 期刊中,Mohammed AlQuraishi 詳細介紹了這種透過計算確定蛋白質結構的新方法,利用該方法實現的準確率可媲美當前最佳方案,但速度提高了 100 萬倍。
論文:End-to-end differentiable learning of protein structure
論文地址:https://www.biorxiv.org/content/biorxiv/early/2018/08/29/265231.full.pdf
專案地址:https://github.com/aqlaboratory/rgn
原論文表 2:蛋白質結構預測方法的訓練和預測速度對比。
如上所示,AlQuraishi 提出的迴圈幾何網路在預測速度上快了 6 到 7 個數量級。其中上表第一行是目前已經建立起來的複雜方法,這些方法嚴重依賴於模擬和取樣。第二行對應於協同演化(co-evolution)的方法,它也會有一個學習過程。最後一行就是作者提出的一種端到端的可微分方法。
「蛋白質摺疊是近半個世紀以來生物化學家研究的重要問題之一,此次提出的方法為解決這一問題提供了全新的思路,」AlQuraishi 說道。「現在我們有了一個探索蛋白質摺疊的全新方法,我覺得我們現在的研究不過是冰山一角。」
AlQuraishi 研究的特點在於,一名埋頭在哈佛醫學院和波士頓生物醫學社群豐富研究生態系統中的研究人員,居然能夠在電腦科學最熱門的領域裡抗衡谷歌等巨頭。——Peter Sorger
說起來簡單
雖然成功率高,但利用物理工具來鑑別蛋白質結構的過程既昂貴又耗時,即使是使用現代技術(如低溫電子顯微鏡)同樣如此。因此,絕大多數蛋白質結構以及致病突變對這些結構的影響目前仍是未知的。
蛋白質摺疊方式的計算方法有可能大大降低確定蛋白質結構的成本和時間。但經過近四十年的不懈努力,這個難題仍未解決。
視覺化模擬 AlQuraishi 的蛋白質摺疊深度學習方法。模型透過反覆預測某個結構(彩色)並將其預測與真實結構(灰色)對比來實現自訓練。對數千種已知蛋白質重複此步驟,模型在每次迭代中都會學習並提高自己的準確率。
蛋白質由 20 種不同的氨基酸組成。這些氨基酸就像字母表中的字母,組合成單詞、句子、段落,產生了無數種可能的文字。然而,與字母不同,氨基酸是位於 3D 空間的物理存在。通常,蛋白質的各個部分在物理上非常接近,但在序列上卻相隔很遠,因為其氨基酸鍊形成了環、螺旋、摺疊等不同形狀。
AlQuraishi 表示,「這個問題引人注目的地方在於它說起來簡單:挑一個序列,想辦法弄清楚它的形狀就可以了。蛋白質從一個非結構化的線開始,必須呈現 3D 形狀,線可能摺疊成的形狀有很多種。許多蛋白質有上千個氨基酸長,其複雜性遠遠超過人類直覺甚至強大的計算機。」
做起來難
為了應對這一挑戰,科學家利用氨基酸的特點,即它會在物理法則的約束下相互作用,從而尋找更具潛力的狀態。目前最先進的演算法透過超級計算機或眾包計算來尋找蛋白質結構,它們基本上都是在模擬極其複雜的氨基酸物理相互作用。為了降低這些方法對大規模計算的需求,它們依賴於將新序列對映到預定義的模板,且這些蛋白質結構模板都是之前透過實驗確定的。
其它如 DeepMind 的 AlphaFold 則採用了另一種方法,它利用深度學習進一步預測蛋白質結構。這類方法會分析大量的基因資料,其內在包含了蛋白質的設計藍圖,目前受到了極大的關注。
AlphaFold 是之前非常受關注的一項研究,它利用神經網路來預測氨基酸對之間的距離,以及連線它們的化學鍵之間的角度。AlphaFold 參加了 CASP 競賽,它首次參賽就在 98 名參賽者中名列榜首,準確地從 43 種蛋白質中預測出了 25 種蛋白質的結構,而同組比賽中獲得第二名的參賽者僅準確預測出了 3 種。
然而,這些 AI 方法並不能僅基於蛋白質的氨基酸序列預測結構。這一點會限制 AlphaFold 等方法的能力,因為在沒有先驗知識的情況下它們很難決定蛋白質結構,其在演化獨特的蛋白質或手工設計新蛋白質上能力有限。
針對這些問題,AlQuraishi 主要從四個核心概念出發構建新的解決方案。首先我們應該要使用迴圈神經網路編碼蛋白質序列;其次透過扭轉角度引數化區域性蛋白質的結構,從而允許模型在不破壞共價化學性質的情況下對各種結構進行推理;再者,我們還應該透過迴圈幾何單元耦合區域性蛋白質結構和它的全域性表徵;最後,使用一種可微損失函式來捕捉預測結構與實際結構之間的差別。
端到端的可微分學習
為了開發新的方法,AlQuraishi 應用了一種名為端到端的可微分深度學習方法。本質上而言,可微分學習涉及到一種單獨的強力數學函式:神經網路,透過神經元的前饋傳播與反向傳播,可微分學習能逐漸學習到各種「專業知識」。
神經網路這種函式能在極其複雜的特徵空間上調整自身,以便精確地學習蛋白質序列與其結構之間的數學關係。AlQuraishi 就構建了一種名為迴圈幾何網路(Recurrent Geometric Network)的深度學習模型,它側重建模蛋白質摺疊的關鍵特徵。
迴圈幾何網路
模型輸入一個氨基酸序列和 PSSM(具體位置的評分矩陣)並輸出一個 3D 結構。它由三個階段組成:計算、幾何建模和評估——因此將其稱為迴圈幾何網路(RGN)。
第一階段由計算單元組成,對於每個殘基位置(residue position),計算單元將關於氨基酸和 PSSM 的資訊與來自相鄰單元的資訊整合。透過將這些單元放在迴圈雙向拓撲結構中(圖 2),對每個殘基的計算整合了從殘基上游和下游一直到 N-和 C-端的資訊,覆蓋了整個蛋白質。
原論文圖 2:迴圈幾何網路主要過程。
第二階段由幾何單元組成,該幾何單元輸入給定殘基的扭轉角和由其上游的幾何單元產生的部分完成的骨幹,並輸出由一個殘基延伸的新骨幹,該骨幹被輸入至相鄰的下游單元。最後的單元輸出蛋白質的完整 3D 結構。
在模型訓練期間,第三階段使用基於距離的均方根誤差(dRMSD)度量來計算預測結構和實驗結構之間的誤差。dRMSD 首先計算預測結構中所有原子和實驗結構中所有原子的成對距離(分別計算),然後計算這些距離集合之間的均方根。
如上展示了迴圈幾何網路模型如何計算氨基酸之間鍵的角度以及這些鍵周圍的旋轉角,獲取這兩個資訊就可以採集蛋白質結構的幾何形狀。動畫:Mohammed AlQuraishi。
對於每個氨基酸,模型預測連線其與相鄰氨基酸的化學鍵最可能的角度。它還預測這些鍵周圍的旋轉角,這影響了蛋白質的任何區域性在幾何上與整個結構的關係。
這個過程會重複進行,每次計算都需要使用和提煉所有其它氨基酸的相對位置資訊。一旦整個結構完成,模型會將預測結果與蛋白質的「標註真值」結構進行比較,以檢查其預測準確率。
這整個過程在成千上萬種已知的蛋白質中重複進行,模型在每次迭代中學習並提升其準確率。
新的前景
一旦其模型訓練好,AlQuraishi 會測試它的預測能力,它們將該模型與近年來蛋白質結構預測關鍵評估(CASP)的其它方法進行了比較。CASP 是一個年度實驗,它透過已經確定但未公開的蛋白質結構測試各種預測方法的能力。
他發現在沒有預先設計的模板時,新模型在預測蛋白質結構方面遠遠優於其它方法,包括使用協同演化資料的方法。當預定義模板可用於預測時,新模型還是優於最佳方法之外的其它方法。
雖然提升並不大,但這種方法表示了一類新的蛋白質摺疊預測方法,它與現有的方法是互補的關係。值得注意的是,新模型的預測速度比現有計算方法快 6 到 7 個數量級。訓練模型可能需要數月,但一旦訓練完成,預測新蛋白質結構可以在幾毫秒內完成。這種加速在於深度網路是一種獨立的數學函式,它只需要幾千行程式碼而不是數百萬行程式碼就能完成。
這種極速使得蛋白質預測變得更加簡單,以前無法想象的應用也都會慢慢冒出來。AlQuraishi 表示:「新模型還沒有立即用於新藥開發或設計,因為它的準確度大約在 6 埃(一億分之一釐米)左右,與解決蛋白質原子結構所需的 1 到 2 埃還有一定距離。」
但是在深度學習快速發展的今天,這種方法將越來越強大,例如如何進一步整合化學和物理知識就值得我們認真探討。也許以後的新藥開發成本會越來越低,醫療費用也會越來越低。
參考連結:https://hms.harvard.edu/news/folding-revolution