開發用於在分子和奈米尺度上分析蛋白質-蛋白質相互作用(PPI)的新方法可以深入瞭解細胞內訊號通路,並將提高對蛋白質功能以及其他生物和非生物來源的奈米級結構的理解。計算工具的最新進展,特別是涉及現代深度學習演算法的工具,已被證明可以補充描述和合理化 PPI 的實驗方法。
然而,現有的大多數 PPI 預測工作都使用蛋白質序列資訊,因此難以解釋蛋白質鏈的三維組織。
在近期的一項研究中,印度塔塔諮詢服務公司與美國密歇根大學的研究人員共同解決了這個問題,並描述了一種基於圖注意網路的 PPI 分析,稱為 Struct2Graph,用於直接從摺疊蛋白球的結構資料中識別 PPI。該方法能夠在由相等數量的正負對組成的平衡集上以 98.89% 的準確度預測 PPI。在正負對比例為 1:10 的不平衡集上,Struct2Graph 實現了 99.42% 的五倍交叉驗證平均準確率。
此外,Struct2Graph 可以潛在地識別可能有助於形成蛋白質-蛋白質複合物的殘基。針對兩種不同的相互作用型別測試重要殘基的鑑定:(a)具有多個配體競爭相同結合區域的蛋白質,(b)動態蛋白質-蛋白質粘附相互作用。Struct2Graph 以 30% 的靈敏度、89% 的特異性和 87% 的準確度識別相互作用的殘基。
該研究以「Struct2Graph: a graph attention network for structure based predictions of protein–protein interactions」為題,於 2022 年 9 月 10 日釋出於《BMC Bioinformatics》。
蛋白質-蛋白質相互作用(PPI)是許多生物過程的基礎。對人類蛋白質組的分析表明,大多數蛋白質並非單獨發揮作用,而是作為多單元複合物的一部分。事實上,PPI 是訊號轉導、代謝調節、環境感知和細胞組織的核心部分。
在這些過程中,PPI 可以改變酶動力學、促進底物通道、形成新的結合位點、使蛋白質失活或改變蛋白質相對於底物的特異性。由於 PPI 在生命系統中無處不在,能夠表徵這些相互作用有望進一步瞭解細胞過程,併為疾病治療和藥物發現提供不可或缺的工具。PPI 及其數學描述對於從其他奈米級構建塊(包括但不限於脂質、糖、聚合物、奈米級綴合物和無機奈米粒子)建立蛋白質類似物也是必不可少的。學界已採用許多策略來解碼主要針對分子尺度資料和氨基酸序列的 PPI。
高通量實驗技術如雙雜交篩選、串聯親和純化和質譜已被用於建立蛋白質相互作用網路。然而,對這些傳統方法準確性不足、實驗吞吐量低和成本高的擔憂,激發了對可補充傳統和機器人實驗協議的計算方法的研發。計算方法可以根據蛋白質的遺傳背景、氨基酸序列或結構資訊的資料來預測蛋白質是否會相互作用。在確定一對蛋白質是否相互作用時,基因組學分析會考慮基因融合、常見物種之間的保護(系統發育分析)和進化歷史等因素。
PPI 分析的典型計算技術使用兩種蛋白質的氨基酸序列來確定是否發生相互作用。已經提出了許多特徵,例如公共子序列的頻率和自協方差,以將不同長度的序列轉換為統一大小的表示。基於序列的方法最近能夠利用蛋白質資料庫和機器學習技術進行高精度預測。
來自序列的蛋白質-蛋白質複合物的三維(3D)結構可以透過 CO-threading 演算法(COTH)預測,該演算法從已解決的複雜結構資料庫中識別蛋白質複合物的模板。COTH 使用評分功能和結構資訊比對氨基酸鏈序列。DeepPPI 模型使用人工神經網路預測互動,該網路將捕獲序列的組成、分佈和順序的特徵向量作為輸入。DeepFE 對氨基酸序列使用自然語言處理演算法來建立適合作為神經網路分析輸入的序列的低維嵌入。尤其是 DeepFE,已被證明非常有效,在釀酒酵母和人類資料集上的預測準確率分別為 94.78% 和 98.77%。
事實上,大多數基於深度學習的方法已被證明可以實現高 PPI 預測精度,因為它們具有更大的表示能力。除了純粹依賴基於序列的資訊外,現代機器學習方法通常還結合網路級資訊來進行 PPI 預測。在 PPI 網路中,每個節點代表一個蛋白質,而它們之間的邊代表相互作用。因此,預測任何兩個節點之間的互動是一個變相的連結預測問題。
最近,有些方法利用網路結構以及使用氨基酸序列的向量化表示來獲得更強的預測效能。儘管取得了成功,但上述基於序列的方法並未推廣到與蛋白質相似規模的更廣泛類別的化合物,這些化合物同樣能夠與不基於氨基酸的蛋白質形成複合物,因此缺乏基於序列的等效表示 。
雖然可以準確預測蛋白質與 DNA 的相互作用,但基於機器學習的預測高分子量脂質、糖、聚合物、樹枝狀聚合物和無機奈米顆粒的蛋白質複合物的方法在奈米醫學和奈米診斷學中受到廣泛關注,但在實驗人員中並不廣為人知,儘管隨著蛋白質和奈米顆粒的統一結構描述符的發展,這一方向取得了重大進展。
因此,考慮到蛋白質結構及其可變的非蛋白質、仿生和非生物對應物的預測計算方法成為可能。一些方法使用蛋白質的 3D 結構預測相互作用,使用基於知識的方法來評估候選蛋白質與模板蛋白質複合物的結構相似性。由於這種方法需要有關更大複雜的詳細資訊,無模板對接方法分析未結合的蛋白質成分,並從大量潛在的相互作用位點中識別出最有希望的相互作用。雖然對接方法已經顯示出對某些蛋白質的成功,但它們面臨著蛋白質在相互作用過程中發生構象變化的困難。許多這些結構方法也作為機器學習模型的基礎。
2012 年,Zhang QC 團隊開發了 PrePPI,它使用氨基酸序列和系統發育特徵作為樸素貝葉斯分類器的輸入。2018 年 Northey TC 團隊開發了 IntPred,它將蛋白質分割成一組補丁,將 3D 結構資訊整合到一個特徵集中,以預測與多層感知網路的互動。這些模型在精心策劃的互動資料庫上進行訓練,描述蛋白質之間的二元相互作用以及相應的介面位點或原子。
在最近的一項工作中,印度塔塔諮詢服務公司與美國密歇根大學的研究人員邁出了評估蛋白質與其他奈米結構的超分子相互作用的通用方法的第一步。與氨基酸氨基酸序列資訊相比,所提出的方法從晶體學資料確定蛋白質奈米級表示中蛋白質-蛋白質複合物形成的機率。
該團隊開發了一個相互圖注意力網路和一個相應的計算工具 Struct2Graph,以僅從 3D 結構資訊預測 PPI。Struct2Graph 沒有使用幾個蛋白質特定的特徵,例如疏水性、溶劑可及表面積(SASA)、電荷、ngram 頻率等,而是使用僅使用原子的 3D 位置獲得的基於圖形的蛋白質球表示。這種基於圖的解釋允許神經資訊傳遞,以實現蛋白質的有效表示學習。
Struct2Graph 建立在該團隊之前關於代謝途徑預測工作的基礎上,該工作表明,小分子和肽的等效基於圖的結構表示與圖卷積網路相結合,顯著優於其他涉及計算各種生化特徵作為輸入的分類器。這種方法還利用圖論的泛化來描述類似於 PPI 的複雜奈米級元件。
該方法能夠在由相等數量的正負對組成的平衡集上以 98.89% 的準確度正確預測 PPI。在正負對比例為 1:10 的不平衡集上,Struct2Graph 實現了 99.42% 的五倍交叉驗證平均準確率。Struct2Graph 不僅優於經典的基於特徵的機器學習方法,而且優於其他現代深度學習方法,例如使用序列資訊和特徵選擇進行 PPI 預測的 Deep-PPI 和 DeepFE-PPI。
除了 PPI 預測的高精度之外,Struct2Graph 還提供了許多優勢。與利用幾何仿生學思想的 ML 演算法類似,Struct2Graph 只需要單個蛋白質的 3D 結構。
另外,雖然這裡研究人員專注於蛋白質相互作用,但透過在他們的分析中僅使用原子的位置,該框架可以推廣到其他可用 3D 資訊的分子結構。此外,Struct2Graph 還能夠深入瞭解蛋白質相互作用的性質。透過其注意機制,該模型可以潛在地識別可能有助於形成蛋白質-蛋白質複合物的殘基。與其他模型不同,Struct2Graph 能夠以無監督的方式生成這些資料,因此不需要通常無法獲得的蛋白質複合物資訊。
重要殘基的鑑定針對兩種不同的相互作用型別(訓練集的一部分)進行測試:(a)具有多個配體競爭相同結合區域的蛋白質,(b)動態蛋白質 - 蛋白質粘附相互作用。Struct2Graph 以 30% 的靈敏度、89% 的特異性和 87% 的準確度識別相互作用的殘基。
另外,在已知的 2724 個致病 SAV 和 1364 個多型性中,該團隊的注意力機制將所有致病 SAV 中的 33.55% 確定為重要的(注意力權重在前 20% 以內),而 85.30% 的多型性被提議的注意機制確定為不重要,表明該團隊先前建立的 SAV 研究與提議的注意機制確定的重要殘基之間存在顯著重疊。
圖示:蛋白質和蛋白質圖。(來源:論文)
總之,該團隊使用第一個基於 3D 結構的圖形注意網路來解決 PPI 預測問題。新穎的相互注意機制透過其無監督的知識選擇過程提供了對可能互動站點的洞察。研究表明,從單個蛋白質的圖結構中學習到的相對低維的特徵嵌入優於其他基於全域性蛋白質特徵的現代機器學習分類器。另外,透過對單個氨基酸變異的分析,注意力機制顯示出對致病殘基變異的偏好優於良性多型性,表明它不僅限於介面殘基。
開源地址:https://github.com/baranwa2/Struct2Graph
論文連結:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04910-9