編輯 | 蘿蔔皮
蛋白質參與了細胞組成、肌肉收縮、消化食物、識別病毒等眾多生物學功能。
為了設計出更好的蛋白質(包括抗體),科學家經常在不同位置反覆變異氨基酸(按一定順序排列組成蛋白質的單位),直到使蛋白質獲得所需要的功能。
但氨基酸序列的數量比世界上的沙粒還要多,因此找到最佳蛋白質,進而找到最佳潛在藥物,通常難度巨大。當面臨這一挑戰時,科學家通常會花費數百萬美元,並在微型化、簡化版的生物系統中進行測試。
「這需要大量的猜測和驗證。」史丹佛大學(Stanford University)化學工程助理教授兼 Arc 研究所創新研究員 Brian L. Hie 說,「許多智慧演算法的目標是消除其中的猜測。」
史丹佛大學的科學家開發了一種基於機器學習的新方法,可以更快、更準確地預測導致更好抗體藥物的分子變化。研究人員將蛋白質骨架的 3D 結構與基於氨基酸序列的大型語言模型相結合,能夠在幾分鐘內找到罕見且理想的突變。
該研究以「Unsupervised evolution of protein and antibody complexes with a structure-informed language model」為題,於 2024 年 7 月 4 日釋出在《Science》。
儘管蛋白質結構預測取得了巨大進步,但將序列與功能聯絡起來仍然是各種任務的蛋白質計算機工程的關鍵。
僅基於序列資訊進行訓練的大型語言模型可以學習蛋白質設計的高階原理。然而,除了序列之外,蛋白質的三維結構還決定了它們的具體功能、活性和可進化性。
針對抗體工程問題,史丹佛大學的研究人員應用結構資訊蛋白質語言模型,來預測受已知抗體或抗體-抗原複合物結構約束的高適應度序列。
研究表明,增強蛋白質結構主幹座標的通用蛋白質語言模型可以指導不同蛋白質的進化,而無需對單個功能任務進行建模。
這裡的蛋白質設計框架沒有模擬明確的蛋白質功能或蛋白質適應性的定義。相反,使用結構引導正規化,研究人員利用這種序列結構退化,透過將探索重點放在保留蛋白質主鏈摺疊的區域來間接探索潛在的適應度景觀。他們假設將進化限制在高序列似然的範圍內可以作為高適應度變體的有效先驗,從而提高進化效率。
結構引導方法可以間接研究蛋白質適應度景觀,而無需明確模擬單個功能任務或特性,使其廣泛應用於從酶催化到抗生素和化療耐藥性等不同環境中的蛋白質。
僅在單鏈結構上進行訓練的 ESM-IF1 (該模型無法獲取氨基酸側鏈原子、座標或鍵資訊)可以擴充套件到設計蛋白質複合物。這表明,儘管結構資訊語言模型只對單鏈蛋白質進行訓練,但它能夠透過隱式學習結合特徵的能力推廣到多聚蛋白質。
研究人員推斷,這種方法可能對人類抗體的進化特別有價值,人類抗體在臨床上用於治療多種疾病。抗體透過選擇性結合參與發病機制的靶抗原並改變或破壞其功能來提供保護。
「人工智慧和藥物開發的大量努力都集中在收集有關某種分子如何執行某項任務的大量資料,以便計算機能夠學習到足夠的知識來設計出更好的版本。」史丹佛大學生物化學教授兼 Sarafan ChEM-H 研究所學者 Peter S. Kim 說,「值得注意的是,我們已經證明,結構可以代替大量資料,而計算機仍然能夠學習。」
「現在,更多的抗體實際上有機會得到最佳化。」Hie 說道。
研究人員考慮改善現有蛋白質所需功能的定向進化問題。與其他 14 種有前景的機器學習引導蛋白質進化方法相比,這些方法用於實驗性地指導各種蛋白質的定向進化活動;該方法生成功能活性優於野生型蛋白質的設計的成功率具有優勢,而且不需要任何分析標記的適應度資料用於訓練或特定任務的模型監督。
圖示:利用結構資訊語言模型進化抗體可提高中和效力和彈性。(來源:論文)
透過這種方法,該團隊篩選了約 30 種用於治療嚴重急性呼吸綜合徵冠狀病毒 2 (SARS-CoV-2) 感染的兩種治療性臨床抗體的變體。同時,研究人員對 BQ.1.1 和 XBB.1.5 抗體逃逸病毒變體的中和作用分別提高了 25 倍,親和力提高了 37 倍。
總之,這一工具將有助於快速應對新出現或正在發展的疾病。它還降低了製造更有效藥物的門檻。更強的藥物意味著需要更低的劑量,這意味著給定的劑量可以使更多的患者受益。
論文連結:https://www.science.org/doi/10.1126/science.adk8946
相關報導:https://phys.org/news/2024-07-ai-approach-optimizes-antibody-drugs.html