在過去的幾年裡,DeepMind公司開發的人工智慧AlphaGo已經在國際象棋和圍棋比賽中取得了超越人類的表現。而如今,DeepMind又向推動和加速新科學發現上邁出了重要的一步。今日,DeepMind宣佈推出全新的AlphaFold系統,能夠預測並生成蛋白質的3D結構。這一系統在週日進行的國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手。
我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。我們身體的幾乎所有功能,例如收縮肌肉、感知光線或將食物轉化成能量等,都需要一種或多種蛋白質來完成。而蛋白質具體能做什麼就要取決於它獨特的3D結構了。
然而,純粹從其基因序列中找出蛋白質的3D結構是一項非常具有挑戰性的複雜任務。由於我們的DNA通常只包含蛋白質中氨基酸殘基的序列資訊,而這些氨基酸殘基形成的長鏈將會摺疊成錯綜複雜的3D結構。這就是所謂的“蛋白質摺疊”問題。而蛋白質越大,需要考慮的氨基酸之間相互作用就越多,對其結構的建模過程就會更加複雜和困難。
▲每一個蛋白質都擁有錯綜複雜的3D結構(圖片來源:DeepMind blog)
錯誤摺疊的蛋白質有可能引發阿茲海默病、帕金森病、亨廷頓舞蹈病和囊性纖維化等疾病的發生。因此,準確預測蛋白質的結構,對於理解其在人體內的作用,以及對上述疾病進行診斷和治療是非常重要的。
在過去的五十年中,科學家們已經能夠利用冷凍電子顯微鏡、核磁共振或 X 射線晶體學等實驗技術在實驗室中確定蛋白質的形狀,但每種方法都依賴於大量的試錯,這可能需要花上好幾年時間,而預測每個結構也要花費數萬美元。幸運的是,得益於基因測序成本的快速降低,基因組學領域的資料變得豐富。因此,科學家們開始利用AI技術開發深度學習演算法,在基因組學資料的基礎上對蛋白質結構進行預測。在此基礎上,AlphaFold誕生了。和以往方法不一樣的是,AlphaFold並未使用已經明確結構的蛋白質3D模型作為模板,而是從頭開始探索預測方法。
DeepMind團隊使用的方法都以深度神經網路為基礎,來從基因序列中預測蛋白質的兩種物理性質:氨基酸對之間的距離及連線這些氨基酸的化學鍵之間的角度。首先,研究小組訓練了一個深度神經網路,來預測蛋白質中每對氨基酸殘基之間距離的分佈情況。然後,研究人員將這些數值轉化為評分,來對蛋白質結構的精確程度進行評估。同時,研究人員還另外訓練了一個神經網路,利用這些距離數值來評估預測結構與真實結構的接近程度。
如果你以為這就是AlphaFold能做的全部事情,那可就大錯特錯了。事實上,DeepMind的研究人員在這些評分函式的基礎上,還使用了兩種全新的方式來最佳化蛋白質結構評分:他們使用了一個生成神經網路,不斷生成新的蛋白質片段來反覆替換一段舊的蛋白質結構,這樣一來,蛋白質結構的評分就被不斷提高了。另外,研究人員還使用了一種名為梯度下降的方式來讓AlphaFold預測的結構變得高度精確。梯度下降是一種機器學習中常用的數學技術,用來實現漸進式的細微改進。研究人員將這項技術用於整個蛋白質鏈,而不是結構中組裝前必須分開摺疊的片段,降低了預測過程的複雜性。
AlphaFold的實際表現也非常強勁:在比賽中,AlphaFold 在 98 名參賽者中名列榜首,預測了 43 種蛋白質中 的25 種最準確結構,而同一類別的第二名參賽隊伍只預測出了43 種中的 3 種。
研究人員表示,AlphaFold的成功表明了機器學習系統能夠整合多種資訊來源,從而幫助科學家們快速為複雜問題提出創造性的解決方案。他們在部落格中寫道:“正如AI透過AlphaGo和AlphaZero這樣的系統,能夠幫助人們掌握複雜的遊戲一樣,我們同樣希望有一天,AI取得的突破也能幫助我們掌握基本的科學問題。”
研究人員還表示,這項研究能夠幫助科學家們更有效地設計出治療疾病的新方法,能夠在藥物發現的過程中開發出新的潛力,同時也降低了實驗相關的成本,有望改善全世界數百萬患者的生活質量。
參考資料:
[1] AlphaFold: Using AI for scientific discovery. Retrieved December 3, 2018, from https://deepmind.com/blog/alphafold/
[2] Google's DeepMind predicts 3D shapes of proteins. Retrieved December 3, 2018, from https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins