精確預測相分離蛋白質,同濟&中國科學院機器學習預測器PSPire

ScienceAI發表於2024-03-22

圖片

編輯 | 蘿蔔皮

對蛋白質相分離(PS)的理解的迅速發展帶來了豐富的生物資訊學工具來預測相分離蛋白質(PSP)。這些工具通常偏向於具有大量本質無序區域 (IDR) 的 PSP,因此經常低估沒有 IDR 的潛在 PSP。並且,PS 不僅受 IDR 控制,還受結構化模組結構域以及不直接反映在氨基酸序列的其他相互作用影響。

在最新的研究中,同濟大學和中國科學院的研究團隊開發了 PSPIre,一種機器學習預測器,它結合了殘基級和結構級特徵,用於精確預測 PSP。

與當前的 PSP 預測因子相比,PSPire 在識別沒有 IDR 的 PSP 方面顯示出顯著的改進。這表明非 IDR、基於結構的特徵在整個 PS 過程中多價相互作用中的關鍵作用。生物驗證實驗表明,PSPire 預測的 11 個候選 PSP 中,有 9 個可在細胞內形成冷凝物。

該研究以「Machine learning predictor PSPire screens for phase-separating proteins lacking intrinsically disordered regions」為題,於 2024 年 3 月 8 日釋出在《Nature Communications》。

圖片

細胞內複雜生化反應的複雜調控一直是一個重要問題。膜結合的細胞器被磷脂雙層包圍,物理隔離其內部和外部環境,確保穩定的反應環境。

然而,無膜細胞器(MLO),例如核仁和應激顆粒,可以將蛋白質和核酸濃縮在特定的細胞位點,而不與膜結合。這些 MLO 的形成、組成控制和功能調節多年來一直難以捉摸。

2009 年,一項研究發現,秀麗隱杆線蟲生殖細胞中的 P 顆粒可以形成液體狀液滴,表明相分離 (PS) 可能是這些生物分子凝聚物形成的基礎。隨後的研究表明 PS 參與各種基本生物過程,如跨膜訊號傳導、DNA 修復、轉錄和 RNA 加工。生物分子凝聚體的異常形成或破壞可能導致神經退行性疾病、癌症和傳染病。

相分離蛋白 (PSP) 的一個關鍵特徵是它們能夠形成多種弱的、瞬時的、非共價相互作用。相當多的 PSP 可以透過本質無序區域(IDR)之間的相互作用形成生物分子凝聚體,這些區域具有高度靈活的構象並呈現多種弱相互作用的元素。

在這裡,研究人員將 PSP 分為兩類:包含 IDR 的 (ID-PSP) 和不包含 IDR 的 (noID-PSP)。IDR 是根據 AlphaFold 預測的蛋白質結構的 pLDDT 分數確定的。

預測 PSP 的計算方法的發展對於促進整個蛋白質組的快速計算機篩選至關重要。但是,當前的 PSP 預測器嚴重偏向於預測 ID-PSP,導致預測 noID-PSP 的效能不佳。這種偏見凸顯了在沒有 IDR 的情況下準確識別 PSP 的普遍挑戰。

由於 noID-PSP 的結構可以深入瞭解其功能背後的多價相互作用,研究人員假設整合蛋白質結構資訊可以顯著增強 noID-PSP 的預測。目前的 PSP 預測因子僅依賴於氨基酸序列,而不利用蛋白質結構資訊,這可能是由於高質量蛋白質結構的可用性有限。

在最新的工作中,利用完整人類蛋白質組中蛋白質的高精度原子座標的可用性,同濟大學和中國科學院的研究團隊訓練了 XGBoost 分類器 PSPire,透過結合殘基水平和結構水平特徵來預測 PSP。

圖片

圖示:PSPire 的工作流程。(來源:論文)

該團隊採用當前兩個最好的預測器 PSAP 和 PhaSePred 用於預測 PSP 的 PS 相關特徵,並分別計算 IDR 和非 IDR 上的這些特徵。使用各種資料集的評估表明,該模型在將 noID-PSP 與非 PSP 進行分類方面顯著優於當前的預測器

圖片

圖示:PSPire 與當前 PSP 預測器的效能基準測試。(來源:論文)

與目前主要依賴氨基酸特徵的預測器不同,PSPire 整合了 3D 結構資訊,在識別 noID-PSP 方面表現出卓越的效能。因此,PSPire 有效地識別了 PSP 候選者,並有助於研究人員瞭解這些蛋白質及其在冷凝物形成中的作用。

驅動相分離的多價相互作用不僅涉及 IDR 驅動的非特異性相互作用,還廣泛涉及模組化域介導的特異性相互作用。然而,大多數現有的 PSP 預測因子對 IDR 含量高的蛋白質表現出明顯的偏見,導致在預測 noID-PSP 時表現不佳。

為了解決這個問題,研究人員在 SSUP 的基礎上引入了非 IDR 特性來補充 IDR 相關的特性。分析表明,這些 SSUP 相關特徵有效地區分 PSP 和非 PSP,表明 SSUP 殘基與結構域驅動蛋白的 PS 過程固有的多價性之間存在很強的相關性。

此外,該團隊還計算了與貼紙相關的特徵,可以有效區分 PSP 和非 PSP。因此,SSUP 殘基,特別是那些構成貼紙的殘基,提供了突變可能影響 PS 行為的位點,這對於進一步的實驗驗證很有價值,並且有可能幫助識別與 PS 相關的藥物靶點。

圖片

圖示:PSPIre 預測的候選 PSP 在 HeLa 細胞和體外會發生相分離。(來源:論文)

除了生物實驗之外,還可以利用分子動力學進一步探索 SSUP 中的關鍵殘基,從而揭示驅動 PS 的潛在機制。利用這些重要特徵,PSPire 報告了 SSUP 的殘基位置,並將貼紙識別為輸出。

該理論框架被稱為「貼紙和間隔物模型(the stickers-and-spacers model)」,描述了各種相分離系統背後的分子語法。這些系統可以分為三種不同的型別:摺疊蛋白質、本質無序蛋白質和線性多價蛋白質。

對於摺疊蛋白質,貼紙被定義為蛋白質表面上的相互作用斑塊,而間隔物由不參與相互作用的區域組成。在本質上無序的蛋白質中,貼紙可能包括單個氨基酸、短線性基序或兩者的組合,其間散佈有間隔基,間隔基是插入的非相互作用殘基。

對於線性多價蛋白,貼紙包含多個摺疊結構域,間隔物是連線這些結構域的柔性接頭。對於明確的結合域,貼紙被表徵為域表面上的結合位點,非結合表面殘基充當額外的間隔物。從另一個角度來看,與貼紙、IDR 和 SSUP 相關的計算特徵旨在準確捕捉這三種貼紙的不同屬性。

關於貼紙相關的功能,PSPire 重點關注靜電相互作用,而不是疏水相互作用,並考慮以下因素。靜電相互作用的強度(範圍為 2 至 15 kcal/mol)通常大於疏水相互作用的強度(範圍為 0.5 至 3 kcal/mol)。

此外,ID-PSP 和 noID-PSP 中 SSUP 中疏水殘基的比例顯著低於非 PSP,而 ID-PSP 和 noID-PSP 中 SSUP 中帶電殘基的比例顯著高於非 PSP。對於結構域驅動的相分離,靜電相互作用可能比疏水相互作用更普遍。研究人員嘗試透過加入疏水殘基來修改貼紙識別方法。然而,疏水殘基的摻入並沒有提高 PSPIre 的預測能力。

論文連結:https://www.nature.com/articles/s41467-024-46445-y

相關文章