蛋白質摺疊問題一直是一個耗費巨大的難題,但是這個難題的解決又對人類具有巨大的意義。於是各個研究機構都開始尋找蛋白質摺疊問題的不同解,希望找到一種高效、準確的方式來解決這一難題。
幸運的是,在今年的 CASP(Critical Assessment of Techniques for Protein Structure Prediction)上,DeepMind 在今年找到了這個問題的其中一個「機器學習解」——AlphaFold,AlphaFold 的提出很好的解決了這一難題(在今年的 CASP 中獲得了第一名),同時又將 AI 所涉及的領域擴充套件到了生物科學。今天這篇文章就主要介紹機器學習是如何在生物科學中大放異彩的。本文首先介紹了蛋白質以及蛋白質領域目前面對的難題,然後介紹了機器學習能在這一領域做出什麼貢獻,最後對這一領域的問題及未來進行了展望。
什麼是蛋白質
蛋白質在我們的生命活動中扮演了極其重要的角色。幾乎我們身體的各項動作——收縮肌肉,感應光線或將食物轉化為能量,都可以歸功於一種或多種蛋白質的配合。當你正在讀這篇文章的時候,你血液裡的血紅蛋白正在將氧氣運送到肌肉中,轉運蛋白正在為神經元運送鈉以產生動作電位,而你之所以能讀懂這句話,眼睛裡的感光蛋白功不可沒。
不止這些「土生土長」的蛋白質在發揮作用,人工開發的蛋白質也已經被拼接到細菌基因組中以產生胰島素,或是分解塑膠廢物來生產洗衣粉。所以,瞭解如何開發合適的人工蛋白質可以幫助我們提高生產效率,並開發具有全新功能的蛋白質。中學時期,我們其實已經對蛋白質有過不深的瞭解了。但是可能對很多人來說,高中已經很久遠了,為了方便大家更好的理解本文,本節就對本文所需的蛋白質知識進行簡要介紹。
一般來說,總共有 20 種氨基酸,而蛋白質則是一條氨基酸鏈,它透過共價鍵將氨基酸連在一起。我們可以把氨基酸看作英文中的字母,而這個「字母」使我們可以將蛋白質表示為一系列離散的標記,就像我們英語句子一樣。這種離散的順序表示形式被稱為蛋白質的一級結構(Primary structure)。
然而,在細胞中,蛋白質是以三維結構存在的。由於蛋白質的功能與這個結構息息相關,因此瞭解這種 3D 結構極其重要。蛋白質的區域性幾何結構稱為二級結構(Secondary structure),這個結構也相應的決定了這一部分的特徵。最後,蛋白質的整體幾何結構稱為三級結構(Tertiary structure),它決定了蛋白質的整體特徵。這些結構都是由 DNA 中的資訊編碼的。
圖 1: 蛋白質的三種表達形式(圖源:https://bair.berkeley.edu/blog/2019/11/04/proteins/)