由於新的人工智慧方法的出現,破解生物學最大挑戰之一“從氨基酸序列預測蛋白質的三維結構”的“競賽”正在加劇。任何給定的蛋白質能做什麼,取決於它獨特的3D結構。所以,能精確預測蛋白質的3D結構意義非凡。
▲ 預測蛋白質3D結構模型示意
(圖片來源:參考資料[2])
去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構,結果比以前的任何模型都要精確)的演算法,它將該領域出現的兩種技術結合起來,並在蛋白質結構預測方面以驚人的優勢擊敗了當時已存在的所有演算法。今年4月,一位美國研究人員展示一種與以往完全不同的演算法,他聲稱,新AI系統在預測蛋白質3D結構方面將比DeepMind AlphaFold快100萬倍。
不管是Alphafold還是新的AI系統,對於生物學家們來說,他們更關心的是:當兩種方法都使用人工智慧技術時,深度學習如何更好應用於預測蛋白質的排列並最終決定蛋白質的功能。目前已知使用AI比現有的實驗室技術(如x射線晶體衍射)更便捷高效,具體體現如下:
首先能幫助科學家更好地理解蛋白質在人體內的作用。對於診斷和治療由蛋白質錯誤摺疊引起的疾病,比如阿爾茨海默氏症、帕金森氏症、亨廷頓氏症等,起到至關重要的作用;
還可以提高人們對身體工作原理的認識,促進新的疾病療法誕生,降低新藥研發成本;
另外,AI有助於更好地設計蛋白質,比如推動可生物降解酶的進步,幫助人們控制像類似於塑膠這樣的汙染物。
“目前該領域的研究結果值得期待,”John Moult說。他是馬里蘭大學帕克分校的生物學家也是CASP(“蛋白質結構預測奧運會”)比賽的創始人。
Mohammed AlQuraishi的創新最佳化方法
最新演算法的創造者,是來自哈佛醫學院的生物學家 Mohammed AlQuraishi,他尚未直接將他的演算法所能預測的精度與AlphaFold相比。AlQuraishi承認,AlphaFold基於結構生物學中常用的技術——用新的蛋白質片段反覆替換蛋白質結構的片段,進而訓練了一個生成神經網路來發明新的片段,用來不斷提高蛋白質結構的評分。在這一技術上AlphaFold預測精確性的確要高得多。但他表示,由於他的演算法使用相關函式來計算蛋白質結構,計算過程只需一步,而不是像AlphaFold那樣分兩步完成。所以新技術預測蛋白質結構的時間只需幾毫秒,而不是幾小時或幾天。
科學界表示:AlQuraishi的新技術具有前瞻性。該新技術的創造建立在不斷進步的深度學習理論以及他發明的一些新技術的基礎上。在未來,當他的創新之舉與其他人思想、研究結合起來時,可更進一步推動蛋白質摺疊領域的研究和發展。
AlQuraishi新系統的核心是人工神經網路。它提供了有關氨基酸序列如何對映到蛋白質結構的已知資料,然後進行自主學習從不熟悉的序列再產生新的蛋白質結構。他的系統的新穎部分在於它能夠端到端地直接建立對映; 而其他系統使用神經網路,需要先預測結構的某些特徵,然後再用另一種演算法費力地尋找包含這些特徵的看似合理的蛋白質結構。目前,AlQuraishi的AI系統還需要幾個月的時間去訓練,一旦訓練測試結束,這個新AI幾乎可以立即將任何序列轉換為蛋白質結構。
研究者把這種新的神經網路方法稱為“迴圈幾何網路”(geometry network),該方法基於某段結構之前和之後的序列資訊,來預測其中某一段的結構。這類似於人們在短文中對一個或幾個關鍵詞的理解會受到上下文語境的影響,對於整體文章的理解反過來也會受到一個或幾個關鍵詞彙的影響。
但由於技術上的難度,AlQuraishi的新系統在CASP13上的表現並不是特比好,他公開了該系統的研究細節並在Github上公開了原始碼,希望未來有更多人參與這個專案,獲得更大的進展和突破。
DeepMind方案:基於深度神經網路
AlphaFold在CASP13中變現優異,據悉,它預測蛋白質結構的目標指標比同類參賽的AI系統高出15%。
AlphaFold分兩步完成對蛋白質結構的預測。與競賽中使用其他方法的AI系統一樣,它從多序列比對開始。AlphaFold依賴深度神經網路,需要訓練深度神經網路從基因序列中預測蛋白質的兩種特性:1) 成對的氨基酸之間的距離;2) 連線這些氨基酸的化學鍵之間的角度。
接著DeepMind訓練一個神經網路來預測蛋白質中每對殘基之間的距離分佈。然後,將這些機率組合成一個分數。他們還訓練了一個單獨的神經網路,該網路使用匯總了的所有距離分佈來評估預測結構與標準結構的接近程度。使用這些評分函式,能夠找到與他們的預測相匹配的結構。
圖片來源: 參考資料[2]
DeepMind的第一種方法建立在結構生物學常用的技術上,並用新的蛋白質片段反覆替換蛋白質結構的片段。他們訓練出了一種生成神經網路來構建新片段,以此來不斷提升預測蛋白質結構的準確度。
但是預測的精確距離和角度可能在物理上是不可能的。因此,AlphaFold使用第二步:透過梯度下降法最佳化得分(這是機器學習中常用的一種數學技術)可以進行小的、增量的改進,從而得到高精度的結構。
圖片來源: 參考資料[2]
未來發展方向
DeepMind目前尚未公佈AlphaFold的所有細節,但其他團隊已開始採用DeepMind和CASP13上其他領先團隊所展示的先進策略。密蘇里大學(University of Missouri)的電腦科學家Jianlin Cheng表示,他將進一步最佳化自己的深層神經網路,使其具備某些AlphaFold的特徵,比如,在每對殘基距離預測階段向神經網路新增更多層。擁有更多層通常允許網路更深入地學習、處理資訊,深度學習也因此得名。
AlphaFold研究團隊成員還表示,不畏競爭,協同發展,AI存在的目的本是為了造福人類。所以他們對於未來類似成熟的、新的系統的應用持樂觀以及期盼的態度。
Moult表示,關於深度學習如何應用於蛋白質摺疊領域的研究是CASP13的討論熱點。未來不斷的研究,AI可在更多方面輔助科學家,比如,精確近似結構的預測、演算法在蛋白質摺疊預測方面的自信程度、蛋白質間模型的相互作用等。雖然目前所取得的成就還無法廣泛應用於藥物設計,但蛋白質結構預測精度的提高已可以用於:瞭解突變蛋白如何導致疾病或瞭解蛋白質的哪一部分可轉化並用於免疫治療。
參考資料:
[1] AIprotein-folding algorithms solve structures faster than ever, Jul 22 2019,
from https://www.nature.com/articles/d41586-019-01357-6
[2]http://www.sohu.com/a/280762498_505803