生成394,760種蛋白質表徵,哈佛團隊開發AI模型,全面理解蛋白質上下文

ScienceAI發表於2024-07-26

圖片

編輯 | 蘿蔔皮

瞭解蛋白質功能和開發分子療法,需要破譯蛋白質發揮作用的細胞型別,解析蛋白質之間的相互作用。

然而,對跨生物背景蛋白質相互作用進行建模對於現有演算法來說仍然具有挑戰性。

在最新的研究中,哈佛醫學院的研究人員開發了 PINNACLE,這是一種生成情境感知蛋白質表徵的幾何深度學習方法。

PINNACLE 利用多器官單細胞圖譜,在情境化蛋白質相互作用網路上進行學習,從 24 種組織的 156 種細胞型別情境中生成 394,760 種蛋白質表徵。

該研究以「Contextual AI models for single-cell protein biology」為題,於 2024 年 7 月 22 日釋出在《Nature Methods》。

圖片

蛋白質是細胞的功能單位,透過相互作用實現不同生物功能。高通量技術使得繪製大規模蛋白質相互作用圖成為可能,並透過計算方法改進對蛋白質結構的理解、功能註釋的預測和治療靶點的設計。表示學習方法透過整合分子細胞圖譜,能夠解析不同組織和細胞型別的蛋白質相互作用網路,擴充套件對蛋白質與功能關係的理解。

然而,蛋白質在不同生物背景中具有不同的作用,基因表達和蛋白質功能因健康與疾病狀態不同而異。現有深度學習方法生成的蛋白質表示是無背景的,無法識別在不同細胞型別中的功能變化,從而影響多效性和特異性預測。

測量單細胞解析度基因表達的測序技術為解決這一挑戰鋪平了道路。單細胞轉錄組圖譜測量許多細胞背景下的活化基因。透過基於注意力的深度學習,該方法可以關注大型輸入並學習在每個背景中最重要的元素,單細胞圖譜可以用於增強驅動疾病進展的基因調控網路的繪製,並揭示治療靶點。

然而,將蛋白質編碼基因的表達整合到蛋白質相互作用網路中仍是一個挑戰。現有演算法,包括蛋白質表示學習,無法將蛋白質表示與具體背景相聯絡。

哈佛醫學院的研究人員引入了 PINNACLE(基於蛋白質網路的上下文學習演算法),這是一種用於全面理解蛋白質的上下文特定模型。PINNACLE 是一種幾何深度學習模型,擅長透過分析各種細胞環境中的蛋白質相互作用來生成蛋白質表徵。

圖片

圖示:PINNACLE 概覽。(來源:論文)

PINNACLE 在一組整合的情境感知蛋白質相互作用網路(PPI)上進行訓練,並輔以捕捉細胞相互作用和組織層次的網路,從而生成情境化的蛋白質表徵,這些表徵針對蛋白質編碼基因被啟用的細胞型別進行定製。

與上下文無關的模型不同,PINNACLE 為每種蛋白質生成多種表示,每種表示取決於其特定的細胞型別上下文。此外,PINNACLE 還生成細胞型別上下文的表示和組織層次的表示。這種方法確保了對蛋白質相互作用網路的多方面理解,同時考慮到蛋白質作用的無數背景。

給定多尺度模型輸入,PINNACLE 透過最佳化統一的潛在表示空間來學習蛋白質、細胞型別和組織的拓撲結構。PINNACLE 將不同的上下文特定資料整合到一個上下文感知模型中,並在蛋白質、細胞型別和組織級資料之間傳遞知識,以使表示具有上下文相關性。

為了將細胞和組織組織注入這個嵌入空間,PINNACLE 採用蛋白質、細胞型別和組織水平的注意力以及各自的目標函式

從概念上講,物理上相互作用的蛋白質對(即透過輸入網路中的邊緣連線)是緊密嵌入的。類似地,蛋白質嵌入在它們各自的細胞型別環境附近,同時與不相關的細胞型別保持相當大的距離。

這確保了相同細胞型別環境中的相互作用蛋白質位於嵌入空間的近端,但與其他細胞型別環境中的蛋白質分開。這種方法產生的嵌入空間可以準確表示蛋白質、細胞型別和組織之間錯綜複雜的關係。

PINNACLE 使用一系列針對每個特定節點和邊緣型別量身定製的注意力機制在蛋白質、細胞型別和組織之間傳播圖神經網路資訊。

圖片

圖示:PINNACLE 蛋白質嵌入區域的富集。(來源:論文)

蛋白質級預訓練任務考慮對蛋白質相互作用進行自監督連結預測和對蛋白質節點進行細胞型別分類。這些任務使 PINNACLE 能夠塑造一個嵌入空間,該空間封裝了上下文感知蛋白質相互作用網路的拓撲結構和蛋白質的細胞型別身份。

PINNACLE 的細胞型別和組織特定預訓練任務完全依賴於自監督連結預測,從而促進細胞和組織組織的學習。細胞型別和組織的拓撲結構透過注意力橋接機制傳遞給蛋白質表示,有效地將組織和細胞組織強化到蛋白質表示上。

PINNACLE 的情境化蛋白質表徵可捕捉情境感知蛋白質相互作用網路的結構。這些情境化蛋白質表徵在潛在空間中的區域排列反映了元圖所代表的細胞和組織組織。這將導致在統一的細胞型別和組織特定框架內對蛋白質進行全面且特定於上下文的表示。

透過 PINNACLE 生成的 394,760 個情境化蛋白質表示,其中每個蛋白質表示都具有細胞型別特異性,研究人員證明了 PINNACLE 能夠將蛋白質相互作用與 156 種細胞型別情境的底層蛋白質編碼基因轉錄組相結合。

PINNACLE 的嵌入空間反映了細胞和組織結構,從而實現了組織層次結構的零樣本檢索。預訓練的蛋白質表徵可以適應下游任務:增強基於 3D 結構的表徵以解決免疫腫瘤學蛋白質相互作用,並研究藥物對不同細胞型別的影響。

PINNACLE 在指定類風溼性關節炎和炎症性腸病的治療靶點方面優於最先進的模型,並且比無上下文模型具有更高的預測能力,可以精確定位細胞型別上下文。PINNACLE 能夠根據其執行環境調整輸出,為生物學中大規模上下文特定預測鋪平了道路。

論文連結:https://www.nature.com/articles/s41592-024-02341-3


相關文章