登Science,MIT團隊推出新蛋白質語言模型ProtGPS,預測蛋白在活細胞內的功能位置

ScienceAI發表於2025-02-11
圖片

編輯 | 蘿蔔皮

蛋白質是維持細胞運轉的主要動力,細胞中有成千上萬種蛋白質,每種蛋白質都發揮著特殊的功能。研究人員早就知道,蛋白質的結構決定了它的功能。最近,科學家逐漸意識到,蛋白質的定位對其功能也至關重要。

細胞中充滿了有助於組織眾多細胞成分的隔間。除了生物教科書上常見的細胞器外,這些空間還包括各種動態的無膜隔間(稱為亞細胞區室),它們將某些分子聚集在一起,發揮共同的功能。

細胞已經進化出將約 100 億個蛋白質分子分配到亞細胞區室的機制,這些區室中必須組裝具有共同功能的各種蛋白質。

在最新的研究中,麻省理工學院(MIT)和懷特黑德生物醫學研究所(Whitehead Institute for Biomedical Research)的研究團隊,證明具有共同功能的蛋白質共享氨基酸序列程式碼,這些程式碼會引導它們到達區室目的地。

他們開發了一種蛋白質語言模型 ProtGPS,它可以高效地預測訓練集中排除的人類蛋白質的區室定位。

ProtGPS 成功指導了選擇性組裝在核仁中的新型蛋白質序列的生成,並且發現了改變該密碼並導致蛋白質亞細胞定位改變的病理突變。

這些結果表明,蛋白質序列不僅包含摺疊密碼,還包含一個以前未被識別的密碼,控制它們在不同亞細胞區室中的分佈。

該研究以「Protein codes promote selective subcellular compartmentalization」為題,於 2025 年 2 月 5 日釋出在《Science》。

圖片

參與共享功能的蛋白質組必須有效組裝才能發揮其生理功能。例如,基因轉錄的保真度取決於啟動子上一百多種不同蛋白質的組裝,其中一些蛋白質直接與 DNA 序列結合,而另一些則與 DNA 結合蛋白質相互作用。

選擇性蛋白質-蛋白質和蛋白質-核酸相互作用,被認為是導致特定蛋白質在執行不同功能的位置組裝的主要驅動力。

蛋白質結構穩定部分之間的形狀互補性一直是蛋白質組裝的主要模型,但現在有大量證據表明,具有共同功能的蛋白質的大型組裝也透過弱多價非共價相互作用發生。

幾乎所有細胞功能都涉及此類組裝的形成,這些組裝被描述為凝聚物、聚集物、斑點、樞紐和非膜結合區室。

瞭解特定蛋白質在這些區室的定位位置以及與什麼分子共定位,有助於更好地瞭解該蛋白質及其在健康或患病細胞中的作用,但研究人員缺乏系統的方法來預測這些資訊。

圖片

圖示:ProtGPS 對蛋白質區室進行高效能分類。(來源:論文)

蛋白質還含有氨基酸區域,這些區域不會摺疊成固定結構,但對於幫助蛋白質加入細胞中的動態隔間非常重要。懷特黑德研究所成員、麻省理工學院教授 Richard A. Young 的團隊想知道這些區域中的程式碼是否可以用來預測蛋白質定位,就像其他區域用於預測結構一樣。

MIT 和懷特黑德生物醫學研究所的研究人員提出了 ProtGPS,它可以預測蛋白質在細胞中選擇性組裝成特定凝聚物區室的情況,並用於指導生成新的蛋白質序列,這些序列的細胞區室化在很大程度上可以透過實驗驗證。

研究人員表明,ProtGPS 可以預測蛋白質將定位到 12 種已知型別的區室中的哪一種,以及與疾病相關的突變是否會改變這種定位。此外,研究小組還開發了一種生成演算法,可以設計新的蛋白質來定位到特定的區室。

Young 說:「我希望這是邁向強大平臺的第一步,使人們能夠研究蛋白質,並幫助我們瞭解人類如何發展成為複雜的生物體,突變如何破壞這些自然過程,以及如何產生治療假設和設計藥物來治療細胞功能障礙。」

麻省理工學院 Regina Barzilay 教授表示:「能夠從計算設計一路走到實驗室嘗試這些東西,我真的很興奮。人工智慧領域有很多令人興奮的論文,但其中 99.9% 從未在實際系統中進行測試。感謝我們與 Young 實驗室的合作,我們能夠測試並真正瞭解我們的演算法表現如何。」

圖片

圖示:生成模型可以創造出聚集在所需凝聚物中的新型蛋白質。(來源:論文)

他們透過向 ProtGPS 輸入超過 200,000 種具有疾病相關突變的蛋白質來測試這一假設,然後要求它預測這些突變蛋白質的位置,並測量其對給定蛋白質的預測從正常版本到突變版本的變化程度。預測的巨大變化表明定位可能發生了變化。

研究人員發現,許多情況下,與疾病相關的突變似乎會改變蛋白質的定位。他們在細胞中測試了 20 個例子,使用熒光來比較正常蛋白質和突變蛋白質在細胞中的位置。實驗證實了 ProtGPS 的預測。

總而言之,這些發現支援了研究人員的猜測,即錯誤定位可能是疾病的一種未被充分重視的機制,並證明了 ProtGPS 作為了解疾病和尋找新治療途徑的工具的價值。

參與者之一 Ilan Mitnikov 說:「細胞是一個複雜的系統,包含許多元件和複雜的相互作用網路。利用這種方法,我們可以擾亂系統,觀察結果,從而推動細胞機制的發現,甚至開發基於此的治療方法,這真是太有趣了。」

研究人員希望人們能夠多多使用 ProtGPS,就像使用 AlphaFold 等預測結構模型一樣,推進有關蛋白質功能、功能障礙和疾病的各種專案。

圖片

圖示:預計致病突變會改變蛋白質的區室化。(來源:論文)

研究人員對他們的預測模型的可能用途感到興奮,但他們也希望他們的模型能夠超越預測現有蛋白質的定位,並允許他們設計全新的蛋白質。目標是讓該模型組成全新的氨基酸序列,當這些序列在細胞中形成時,它們將定位到所需的位置。

想要生成一種能夠真正發揮功能(在本例中,即定位到特定細胞區室的功能)的新型蛋白質極其困難。為了提高模型的成功率,研究人員將演算法限制為僅設計自然界中發現的蛋白質。

出於合理的原因,這是藥物設計中常用的方法;大自然已經用了數十億年的時間來弄清楚哪些蛋白質序列有效,哪些無效。

研究參與者 Itamar Chinn 表示:「很多論文表明,他們可以設計出一種可以在細胞中表達的蛋白質,但並未表明這種蛋白質具有特定功能。實際上,我們設計了一種功能性蛋白質,與其他生成模型相比,成功率相對較高。這對我們來說真的非常令人興奮,我們希望在此基礎上繼續發展。」

「現在我們知道這種用於定位的蛋白質程式碼是存在的,而且機器學習模型可以理解這種程式碼,甚至利用它的邏輯創造出功能性蛋白質,這為許多潛在的研究和應用開啟了大門。」論文的第一作者 Henry Kilgore 說。

論文連結:https://www.science.org/doi/10.1126/science.adq2634

相關報導:https://phys.org/news/2025-02-ai-deciphers-code-proteins.html

相關文章