編輯 | 白菜葉
生物網路透過詳細描繪基因、蛋白質及其他細胞成分之間的複雜相互作用,為建模生物系統提供了重要工具。
這些網路將實體表示為節點,將其相互作用(從物理連線到功能關聯)表示為邊,從而為解析生物系統和過程的複雜性奠定了基礎。
例如,在蛋白質-蛋白質相互作用(PPI)網路中,複雜的連線關係包含了理解細胞過程和疾病機制的關鍵資訊。然而,解讀這些網路以獲取生物學洞察仍面臨巨大挑戰。
在最新的研究中,史丹佛大學(Stanford University)的研究人員提出了一種自監督網路嵌入框架,稱為判別網路嵌入 (DNE,discriminative network embedding)。
與主要關注直接或有限階節點鄰近度的傳統方法不同,DNE 透過利用鄰近節點和遠距離節點的表示之間的對比來在本地和全域性上表徵節點。
測試顯示 DNE 在各種關鍵網路分析(包括 PPI 推理和蛋白質功能模組的識別)中均比現有技術表現優異。
該研究以「Deep representation learning of protein-protein interaction networks for enhanced pattern discovery」為題,於 2024 年 12 月 18 日釋出在《Science Advance》。
蛋白質-蛋白質相互作用 (PPI) 網路是理解生物系統動態的基礎,其中節點代表蛋白質,邊代表蛋白質之間的無數相互作用。
雖然它們在現代生物學中發揮著關鍵作用,但從這些相互交織的網路中可靠地辨別模式仍然是一項艱鉅的挑戰。
挑戰的本質在於全面描述網路中每個節點與其他節點的關係,並有效地利用這些資訊進行準確的模式發現。
新方法 DNE
最新的研究中,史丹佛大學的研究人員介紹了一個通用的圖表示學習框架,該框架使用深度學習在低維空間中保留網路的非線性和多面結構,以便對生物網路進行高效能分析。該方法稱為判別網路嵌入 (DNE),透過其直接相鄰和網路中較遠節點的表示之間的非線性對比來表徵每個節點。
DNE 方法允許從整體上看待網路中每個節點的作用:它突出顯示節點的直接連線,例如 PPI 網路中蛋白質之間的相互作用,以及網路內的社群關係,例如蛋白質功能模組。
圖示:四個 PPI 基準中不同連結預測方法的表現。(來源:論文)
與主要關注節點間有限階接近度的傳統方法不同,DNE 根據其近鄰和較遠節點的表示之間的對比來表徵每個節點。透過同時考慮區域性連線模式和與更廣泛網路的互動,DNE 可以更全面地瞭解網路內的節點關係。
研究人員在多個 PPI 資料集上對 DNE 的評估表明,它在準確預測 PPI 和識別功能模組方面的能力優於現有方法。DNE 還表現出對網路擾動的穩健性,並且在不同的擾動率下始終優於其他方法。
圖示:穩健性評估顯示,DNE 的 ROC-AUC 分數與其他九種網路嵌入方法相比,可抵抗連結擾動,其中連結以不同的比率隨機刪除。(來源:論文)
同時,DNE 透過其嵌入反映蛋白質在 PPI n 跳距離和基因本體功能相似性方面的接近度,有效地捕獲了具有生物學意義的訊號。
圖示:DNE 蛋白質嵌入的視覺化。(來源:論文)
雖然 DNE 能夠僅從網路的結構資訊中得出節點嵌入,但當這些特徵可用時,它還可以靈活地將節點特徵合併到嵌入過程中。
在像 PPI 這樣的生物網路中,每個節點代表一種蛋白質,節點(或蛋白質)特徵可以來自多種來源,例如氨基酸序列、蛋白質的三維(3D)結構和蛋白質定位,從而提供網路內蛋白質拓撲功能之外的附加資訊。
DNE 方法透過整合來自預訓練蛋白質語言模型的蛋白質序列特徵來增強網路嵌入,為預測 PPI 提供了一種卓越的方法。與僅依賴序列資料的現有方法相比,這種整合大大提高了 PPI 預測準確性。
圖示:評估預測複合物與標準 Retromer 複合物之間的重疊。(來源:論文)
DNE 的優勢
總體而言,DNE 為網路分析提供了幾個優勢。
第一,它生成更具判別性的嵌入,不僅可以捕獲每個節點的區域性連線模式,還可以將這些模式與網路其他部分的模式區分開來。這可以更準確地表示每個節點的結構角色和社群成員身份,從而降低過度擬合區域性網路噪聲的可能性。
第二,透過整合來自近鄰以及其他網路段的資料,DNE 提供了整個網路的更全面的檢視。
第三,DNE 可以利用網路結構和節點特徵來生成更豐富的嵌入。
研究中,這些嵌入用於推斷蛋白質相互作用並識別功能模組。進一步的應用可能包括疾病基因預測,其中嵌入有助於識別與疾病機制相關的蛋白質,以及蛋白質功能預測,以促進對新測序基因組中的蛋白質進行註釋。
值得注意的是,DNE 的適用範圍不僅限於 PPI 網路,還適用於各種領域。對引文網路、電網和網際網路服務提供商網路等各種網路型別的初步研究結果表明,DNE 具有更廣泛的適用性。
研究人員在論文裡表示,他們所提出的方法標誌著網路嵌入的顯著進步,併為高效能網路分析提供了迫切需要的解決方案。
改進空間
雖然所提出的方法在網路分析方面前景光明,但未來仍有改進空間。
首先,該方法目前優先考慮結構資訊而不是節點特徵。雖然 DNE 可以整合節點特徵,但它們主要用於初始化嵌入,以便最終嵌入可以反映這些節點屬性。透過在上下文節點取樣期間考慮節點特徵之間的相似性以及節點連線,可以改進此過程。
其次,所提出的方法使用多層感知器 (MLP) 作為編碼器。研究其他網路型別以用作編碼器也可能很有趣,例如圖神經網路。諸如 PPI 之類的生物網路是推進科學家對複雜生物系統理解的支柱。然而,它們固有的複雜性往往會給分析帶來挑戰,並阻礙下游應用。
結語
總而言之,該團隊提出了一種自監督網路嵌入技術,旨在為高維網路資料提供更具辨別力的低維嵌入。所提出的技術透過利用每個節點的本地環境和更廣泛的網路環境的見解,以獨特的方式捕捉每個節點的內在特徵。
針對各種生物網路的大量實驗研究表明,這種雙重視角提供了全面而穩健的網路表示,從而實現了可靠的模式發現和準確的下游網路分析。
因此,DNE 有望成為生物資訊學和系統生物學領域的寶貴工具。
論文連結:https://www.science.org/doi/10.1126/sciadv.adq4324