Alphabet(谷歌)旗下公司 DeepMind 的人工智慧 AlphaGo 曾在國際象棋、圍棋等專案中取得了超越人類的表現,其研究不僅震驚世界,也兩次登上 Nature。如今,該公司已將人工智慧技術應用到最具挑戰性的科學研究問題中,其剛剛推出的 AlphaFold 可以僅根據基因「程式碼」預測生成蛋白質的 3D 形狀。
DeepMind 表示,AlphaFold 是「該公司首個證明人工智慧研究可以驅動和加速科學新發現的重要里程碑」。看來,人類醫學研究要前進一步了。
2017 年 5 月,谷歌 DeepMind 人工智慧專案 AlphaGo(執棋者:黃士傑博士)對戰當時世界第一的圍棋選手柯潔。
週日,在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新 AI——AlphaFold 在一項極其困難的任務中擊敗了所有對手,成功地根據基因序列預測出蛋白質的 3D 形狀。
「蛋白質摺疊」是一種令人難以置信的分子摺疊形式,科學界以外很少有人討論,但卻是一個非常重要的問題。生物由蛋白質構成,生物體功能由蛋白質形狀決定。理解蛋白質的摺疊方式可以幫助研究人員走進科學和醫學研究的新紀元。
「對於我們來說,這真的是一個關鍵時刻,」DeepMind 聯合創始人兼 CEO Demis Hassabis 表示,「這個專案就像燈塔,這是我們關於人和資源的首次重大投資,用於解決一個根本性的、現實世界的重要問題。」
在 2016 年 AlphaGo 擊敗李世乭後,DeepMind 就開始將目光轉向蛋白質摺疊。儘管實踐證明,遊戲是 DeepMind AI 專案的優秀試驗場,但在遊戲中取得高分並非他們的終極目標。「我們的目標從來就不是贏得圍棋或雅達利比賽的勝利,而是開發能夠解決蛋白質摺疊這類問題的演算法,」Hassabis 表示。
為什麼要預測蛋白質結構
人體能夠產生數萬甚至數百萬的蛋白質。每個蛋白質都是一個氨基酸鏈,而後者的型別就有 20 種。蛋白質可以在氨基酸之間扭曲、摺疊,因此一種含有數百個氨基酸的蛋白質有可能呈現出數量驚人(10 的 300 次方)的結構型別。
蛋白質的 3D 形狀取決於其中包含的氨基酸數量和型別,而這一形狀也決定了其在人體中的功能。例如,心臟細胞蛋白質的摺疊方式可以使血流中的任何腎上腺素都粘在它們上面,以加速心率。免疫系統中的抗體是摺疊成特定形狀的蛋白質,以鎖定入侵者。幾乎身體的每一種功能——從收縮肌肉和感受光線到將食物轉化為能量——都和蛋白質的形狀及運動相關。
通常情況下,蛋白質會呈現出能量效率最高的任何形狀,但它們可能會糾纏在一起或者摺疊錯誤,導致糖尿病、帕金森和阿茨海默症等疾病。如果科學家可以根據蛋白質的化學構成來預測其形狀,他們就能知道它是做什麼的,會如何出錯並造成傷害,並設計新的蛋白質來對抗疾病或履行其它職責,比如分解環境中的塑料汙染。
AI 如何改變研究方法?
正因為蛋白質的結構如此重要,在過去的五十年中,科學家已經能使用低溫電子顯微鏡和核磁共振等實驗技術確定蛋白質的形狀,但是每一種方法都依賴大量的試驗與誤差反饋,每種結構可能需要花費數萬美元、歷時數年進行研究。因此生物學家轉攻 AI 方法,以完成這一困難且單調的過程。
幸運的是,由於基因測序成本快速降低,基因組領域的資料非常豐富。因此在過去幾年中,依賴於基因組資料的預測問題正越來越多地藉助深度學習方法。DeepMind 非常關注這一問題,並提出了 AlphaFold,這一項工作目前已經提交到了Critical Assessment of Structure Prediction (CASP)。
DeepMind 用 AlphaFold 參加了 CASP,這是一年兩次的蛋白質摺疊奧運會,吸引了來自世界各地的研究小組。比賽的目的是根據氨基酸列表來預測蛋白質的結構,這些氨基酸列表會在幾個月內每隔幾天傳送給參賽團隊。這些蛋白質的結構最近已經通過費力又費錢的傳統方法破解,但還沒有公開。提交最準確預測的團隊將獲勝。
儘管是首次參加比賽,AlphaFold 就在 98 名參賽者中名列榜首,準確地從 43 種蛋白質中預測出了 25 種蛋白質的結構。而同組比賽中獲得第二名的參賽者僅準確預測出了 3 種。值得一提的是,AlphaFold 關注從頭開始建模目標形狀,且並不使用先前已經解析的蛋白質作為模板。AlphaFold 在預測蛋白質結構的物理性質上達到了高度的準確性,然後基於這些預測可以使用兩種不同的方法預測構建完整的蛋白質結構。
使用神經網路預測物理屬性
AlphaFold 構建的模型都依賴深度神經網路,這些經過訓練的神經網路可以從基因序列中預測蛋白質的屬性。DeepMind 的研究人員表示,神經網路預測的蛋白質屬性主要有:(a)氨基酸對之間的距離;(b)連線這些氨基酸的化學鍵及它們之間的角度。這些方法的首要進步就是對常用技術的提升,它們可以估計氨基酸對是否彼此接近。
為了構建 AlphaFold,DeepMind 在數千已知的蛋白質上訓練了一個神經網路,直到它可以僅憑氨基酸預測蛋白質的 3D 結構。給定一種新的蛋白質,AlphaFold 利用神經網路來預測氨基酸對之間的距離,以及連線它們的化學鍵之間的角度。接著,AlphaFold 調整初步結構以找到能效最高的排列。該專案花了兩週時間來預測其第一個蛋白質結構,但現在幾小時內就可以完成了。
根據神經網路預測的兩種物理屬性,DeepMind 還訓練了一個神經網路以預測蛋白質成對殘基(residues)之間距離的獨立分佈,這些概率能組合成估計蛋白質結構準確率的評分。此外,DeepMind 還訓練了另一個獨立的神經網路,該網路使用叢集中的所有距離來估計預測的結構與實際結構之間的差距。
預測蛋白質結構的新方法
這些評分函式可以用來探索蛋白質內部,以找到與預測匹配的結構。DeepMind 的第一種方法建立在結構生物學的常用技術上,用新的蛋白質片段反覆替換蛋白質整體結構的某個部分。他們訓練了一個生成神經網路來創造新的片段,這些片段被用來不斷提高蛋白質結構的評分。
先通過神經網路預測氨基酸之間的距離和化學鍵角度,然後再根據兩種物理屬性對結構進行評分,最後通過梯度下降優化評分。
第二種方法是通過梯度下降來優化評分,得到的結構高度精確。梯度優化被用在整個蛋白質鏈,而不是組裝前必須單獨摺疊的片段,這種做法降低了預測過程的複雜性。
未來可期
首次涉足蛋白質摺疊領域的成功表明,機器學習系統可以整合各種資訊來源,幫助科學家快速找到各種複雜問題的創造性解決方案。人工智慧已經通過 AlphaGo 和 AlphaZero 等系統掌握了複雜的遊戲,與此類似,利用人工智慧攻克基本科學問題的未來同樣可期。
雷丁大學的研究人員 Liam McGuffin 在比賽中帶領得分最高的英國學術團體。他表示,「DeepMind 今年似乎取得了更大的進展,我想進一步瞭解他們的方法。我們的資源並不充足,但我們仍然有很強的競爭力。」
「預測蛋白質摺疊形狀非常重要,對解決很多世紀難題有重大影響。這種能力可以影響健康、生態、環境,基本上可以解決任何涉及生命系統的問題。」
「包括我們在內的很多團隊幾年來一直都在使用基於機器學習的方法,而深度學習和人工智慧的進步似乎也產生了越來越重要的影響。我對這個領域很樂觀,我覺得我們會在 21 世紀 20 年代真正解決這個問題。」McGuffin 表示。
Hassabis 也表示還有很多工作要做。「我們還沒有解決蛋白質摺疊問題,目前只是邁出了第一步。這是一個極具有挑戰性的問題,但我們有一個良好的體系,還有很多想法尚未付諸實踐。」
蛋白質摺疊的早期進展令人興奮,它證明了人工智慧對科學發現的效用。儘管在能夠對疾病治療、環境管理等方面產生量化影響之前,我們還有很多工作要做,但我們知道人工智慧的潛力是巨大的。在一個專注於研究機器學習如何推進科學發展的專業團隊的努力下,我們期待看到技術能夠有所作為。
參考內容:
https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins
https://deepmind.com/blog/alphafold/