編輯 | 白菜葉
Alena Khmelinskaia 希望設計定製蛋白質就像訂餐一樣簡單。她說,想象一下一臺「自動售貨機」,任何研究人員都可以使用它來指定他們想要的蛋白質的功能、大小、位置、分子伴侶或者其他特徵。「理想情況下,你會得到一個可以同時完成所有這些事情的完美設計。」德國慕尼黑大學(LMU)的生物物理化學家 Khmelinskaia 說。
目前,這只是一個夢想。但計算蛋白質設計和機器學習的進步使其比以往任何時候都更接近現實。
直到幾年前,研究人員還透過將蛋白質克隆到細菌或酵母中,誘導微生物變異,直到產生所需的產物來改變蛋白質。科學家也可以透過故意改變其氨基酸序列來手動設計蛋白質,但這是一個費力的過程,可能會導致蛋白質摺疊錯誤或阻止細胞產生蛋白質。
機器學習演算法徹底改變了遊戲規則。研究人員可以使用人工智慧(AI)驅動的工具(例如 RFdiffusion 和 Chroma)在膝上型電腦上生成新的蛋白質結構,這些工具已在蛋白質資料庫(PDB)中的數十萬種結構上進行訓練。
他們可以使用 ProteinMPNN 等演算法識別與該結構匹配的序列。RoseTTAFold 和 AlphaFold 可以根據序列計算結構,預測新蛋白質是否可能正確摺疊。只有這樣,研究人員才需要合成物理蛋白質並測試其是否按預期發揮作用。
在很多情況下,確實如此。「一旦人們看到實驗資料,他們就會明白這個東西是可行的。」Khmelinskaia 在談到人工智慧蛋白質設計時說道,「人們對可能實現的事情感到興奮。」
今年的諾貝爾化學獎委員會同意這一觀點:AlphaFold 和其他預測或設計蛋白質結構的程式為其開發者贏得了 2024 年的獎項。「我們現在可以預測蛋白質結構並設計我們自己的蛋白質,這給人類帶來了最大的利益。」公告中寫道。
然而,最大的好處可能尚未到來。《自然》雜誌採訪了相關專家,探討了蛋白質設計面臨的最大挑戰以及如何克服這些挑戰。
以下是他們的說法。
建立可靠的粘合劑
蛋白質設計師面臨的早期挑戰之一是預測蛋白質如何相互結合——這是製藥行業的一個主要目標,因為特定蛋白質的「結合劑」可以作為啟用或抑制疾病途徑的藥物。
華盛頓大學計算蛋白質設計先驅、2024 年諾貝爾化學獎獲得者 David Baker 表示,RFdiffusion 和 AlphaProteo 等生成式 AI 程式讓這項任務變得簡單,他的團隊開發了 RFdiffusion 和其他蛋白質設計工具。「例如,如果你想針對某種癌症蛋白質,並且想要一種粘合劑,我們開發的方法通常可以為你提供解決該問題的方法。」他說。
一些蛋白質,例如遍佈免疫細胞表面的跨膜分子,仍然難以破解。但對於大多數蛋白質,生成式人工智慧軟體可以生成像手一樣精確包裹目標的粘合劑。例如,2023 年,Baker 團隊使用 RFdiffusion 建立了感測器蛋白,當它們附著在特定肽激素上時會發光。
蛋白質 - 蛋白質結合演算法之所以成功,是因為它們的語言很簡單:所有天然蛋白質都由相同的 20 種氨基酸組成。馬薩諸塞州薩默維爾的 Generate Biomedicines 公司使用 AI 設計療法,其電腦科學家 John Ingraham 表示,PDB 中有數十萬種結構和蛋白質 - 蛋白質相互作用,「這就像是機器學習的理想情況」。科學家們一直在研究使用人工智慧工具設計大型簡單結合蛋白庫。
但是,人工智慧訓練的資料越少,結合劑的可靠性就越低,用於結合藥物和其他小分子的蛋白質就是這種情況。許多製藥公司都有自己的小分子結構資料庫以及它們如何與蛋白質相互作用的資料庫,但這些都是嚴格保密的。
谷歌 DeepMind 倫敦分部的計算生物學家 Jue Wang 表示,現有的公開資料並不總是註釋良好,可用的結構往往只代表少數分子類別。「使用以此為基礎訓練的模型,你不一定能學到有關化學的良好一般規則。」他說。
今年早些時候,DeepMind 釋出了該軟體的最新版本 AlphaFold3,它可以預測蛋白質與小分子的結合如何影響其形狀。該公司表示:「對於蛋白質與其他分子型別的相互作用,與現有預測方法相比,我們的預測準確率至少提高了 50%,對於一些重要的相互作用類別,我們的預測準確率提高了一倍。」
但 Baker 表示,這一難題尚未完全解決。例如,某種物質結合良好並不意味著它能按預期發揮作用。Khmelinskaia 表示,結合蛋白可以啟用或阻斷其靶標,但 AlphaFold 等程式不一定能分辨出兩者的區別。(她指出,一些演算法確實結合了功能,包括 ESM3。該軟體由紐約市一家名為 EvolutionaryScale 的公司開發,經過了 27 億個蛋白質序列、結構和功能的訓練。)
生成式人工智慧系統還有其他侷限性,包括傾向於「產生幻覺」,產生自然界中不可能存在的蛋白質結構。紐約市哥倫比亞大學的計算生物學家 Mohammed AlQuraishi 說,人工智慧「總是試圖取悅別人」,「它永遠不會說『不,這不可行』。」
Ingraham 說,更好地瞭解生物物理學可能會有所幫助,但有關蛋白質如何與分子結合的更多更好的資料也會有所幫助。他的公司正在透過強力手段攻克這一難題,儘可能多地使用有關蛋白質相互作用和功能的資料,並將其與由他們的模型生成的設計高通量資料相結合。
「我們正在嘗試尋找通用解決方案。」他說,「然後儘可能多地利用蛋白質資訊。」
新的催化劑
科學家們對計算工具將帶來具有全新功能的酶寄予厚望:例如,可以從大氣中清除二氧化碳的催化劑,或者可以有效分解環境塑膠的酶。合乎邏輯的起點是具有類似功能的天然酶。例如,一種破壞氫矽鍵的酶可能成為破壞碳矽鍵的人工酶的支架。
但相似的蛋白質形狀並不一定意味著相似的功能,而外觀完全不同的酶可以執行相同的任務。AlQuraishi 說,找出這些聯絡以及如何重建功能是蛋白質設計的一個重大挑戰。「我們不討論功能,我們討論結構。」
此外,天然酶不一定是新活動的理想起點。馬薩諸塞州波士頓哈佛醫學院的系統生物學家 Debora Marks 將重新利用酶比作在城市現有的陳舊佈局上修建現代道路系統。「如果你可以重新開始,你不一定會這樣做。」她說。
儘管如此,天然酶的生物物理學可以為從頭設計提供資訊,Marks 說:「大自然已經為你做了數十億次進化實驗。」通常,研究人員透過分析酶在不同物種之間的相似程度來確定酶的哪些部分是重要的。進化保守的序列通常具有相似的結構,而不相似的序列可能只是減慢酶速度的垃圾。
但 Ingraham 說,哪些部分是重要的並不總是立即顯而易見的。例如,酶側看似無用的氨基酸鏈可能會影響蛋白質與其他分子的結合緊密程度或其在構象狀態之間轉換的能力。
一些研究人員正在開發尋找這些有用部分的方法。在 8 月份的預印本中,Baker團隊利用 RFdiffusion 建立了一組稱為水解酶的酶,這些酶透過多步驟過程利用水來破壞化學鍵。研究人員利用機器學習分析了酶的哪些部分或基序在每個步驟中處於活躍狀態。
然後,他們複製了這些基序,並要求 RFdiffusion 圍繞它們構建全新的蛋白質。當研究人員測試了 20 種設計時,他們發現其中兩種能夠以新的方式水解底物。「這長期以來一直是一個目標,現在終於解決了。」Wang 說。
不過,首爾國立大學計算生物學家 Martin Steinegger 警告稱,將活性位點移入新的蛋白質環境可能很棘手。如果沒有其他蛋白質來穩定結構或執行研究人員尚未確定的功能,孤立的基序可能會與其目標結合,永不鬆開。Steinegger 解釋說,蛋白質不是靜態物體,而是動態的。「每當動態出現時,我們都不擅長建模。」
構象變化
蛋白質通常不只有一種形狀;它們會開啟、關閉、扭曲和彎曲。這些構象會根據溫度、pH、化學環境以及它們是否與其他分子結合等因素而發生變化。
然而,當研究人員試圖透過實驗解決蛋白質結構時,他們往往只能看到最穩定的構象,而這不一定是蛋白質活躍時的形式。「我們拍了這些快照,但它們很不穩定。」馬薩諸塞州劍橋微軟研究院的機器學習科學家 Kevin Yang 說。
Yang 表示,為了真正理解蛋白質的作用原理,研究人員需要了解其所有潛在的運動和構象——這些替代形式不一定在 PDB 中分類。
計算蛋白質可能移動的所有方式是極其困難的,即使對於超級計算機來說也是如此。
加州大學舊金山分校的生物工程師 Tanja Kortemme 表示,一個含有 100 個氨基酸的蛋白質(以蛋白質標準來說很小)至少可以呈現 3100 種可能的構象。「我們對物理學的理解相當不錯,但將其融入其中受到我們需要計算的可能性數量的限制。」
機器學習可以幫助縮小範圍,微軟和其他公司正在開發加快尋找蛋白質構象所需計算的方法。但人工智慧模型受到缺乏良好訓練資料的限制,Wang 說:「事實通常並不存在,那麼你怎麼知道你得到的答案是正確的呢?」
Kortemme 表示,該領域正在透過設計大型蛋白質庫(包括天然和合成的)並對其進行變異以揭示其動態來解決這個問題。
例如,她、Baker 以及眾多科學家正在研究可以透過新增某些分子伴侶在兩種構象之間手動切換的蛋白質。這種設計蛋白質不僅可以幫助訓練人工智慧模型,還可以作為更復雜的分子機器的構建模組,例如將化學能轉化為機械能來完成細胞工作的酶。
其他團隊已經開發出演算法(如 AF-Cluster),在預測中注入一定程度的隨機性,以探索替代構象。但 Steinegger 表示,這些方法是否適用於所有蛋白質類別仍不清楚。
複雜創作
酶並不是研究人員唯一關心的蛋白質類別。新蛋白質還可以作為構建模組使用,例如透過自組裝成將貨物運送到細胞中的結構、產生物理力或展開阿爾茨海默氏症等疾病中錯誤摺疊的蛋白質。
這些複雜結構的計算設計已經產生了影響。2022 年和 2023 年,韓國和英國分別批准緊急使用 COVID-19 疫苗,這是第一種由計算設計的蛋白質製成的醫療產品。這種疫苗名為 SKYCovione,是一種奈米顆粒,含有兩種蛋白質成分,可引發針對 SARS-CoV-2 病毒刺突蛋白的免疫反應。
在臨床試驗中,SKYCovione 產生的抗體水平是商用疫苗的三倍,Khmelinskaia 表示,它的成功表明計算蛋白質設計已準備好應用於現實世界。「現在真的可以開始瞄準許多以前不可能實現的有趣途徑了。」她說。
Khmelinskaia 的實驗室正在使用機器學習演算法開發空心奈米粒子,這種粒子可以攜帶藥物或毒素進入細胞,或者隔離不需要的分子。她說,這需要了解設計蛋白質的構象動力學,因為粒子及其有效載荷需要能夠穿過細胞膜然後開啟(或關閉)。
但這只是其中一種功能。對於細菌鞭毛等更復雜的結構,機器學習能做的有限——因為沒有足夠的易於理解的例子可供參考。「如果我們有 10 萬或 100 萬種不同的分子機器,也許我們可以訓練一種生成式人工智慧方法,從頭開始生成機器,但事實並非如此。」Baker 說。
這意味著人類研究人員需要考慮組成分子機器的元件(例如馬達或沿著另一種蛋白質「行走」的蛋白質),並使用設計工具逐個建立這些構件。這些元件可能包括分子開關、輪子和軸,或僅在特定條件下起作用的「邏輯門」系統。
Kortemme 解釋道:「每次製造複雜的機器時,你不需要重新發明輪子。」她的實驗室正在設計可以整合到合成訊號轉導級聯中的細胞訊號分子。
Wang 說,正是在這些部件的巧妙組合中,人類的創造力才會脫穎而出。「我們開始用蛋白質製造螺絲、螺栓、槓桿和滑輪。」他表示,「但你要用那個滑輪做什麼呢?這是最有趣也是最具挑戰性的方面。」
從錯誤中學習
雖然 Khmelinskaia 設想了「自動售貨機」,但即使是最好的預測演算法也離一次性生成準確蛋白質還有一段距離。
「以前演算法有 99.99% 的時間無法正常工作。」AlQuraishi 說,「現在更像是隻有 99% 的時間會失敗。」
Steinegger 說,這在一定程度上是物流問題。計算研究人員可以反覆執行他們的演算法,直到找到看起來可行的演算法,而像他這樣的演算法設計團隊「大約每三四個月就會有新的創新」。
Steinegger 估計,在生物系統中驗證設計的蛋白質可能需要兩年時間,屆時軟體已開始發揮作用。
這種不匹配意味著演算法很少有機會從錯誤中吸取教訓。研究人員往往不會發表負面結果,即使這些失敗可能帶來有用的資訊,例如蛋白質在特定條件下的細胞毒性或穩定性。
除非科研資助模式發生根本性變化以激勵此類披露,否則研究人員必須發揮創造力。「組建一支能夠同時涵蓋所有這些方面的團隊極具挑戰性。」Khmelinskaia 解釋道,她指的是蛋白質設計研究的實驗和計算方面。因此,合作是必須的。
「我們目前處於計算機資源和資料都準備就緒的階段,這也是為什麼這個領域如此受歡迎的原因。」Yang 說,「合作的人越多,進步就越快。」
相關內容:https://www.nature.com/articles/d41586-024-03595-9