超越標準 GNN !DeepMind、谷歌提出圖匹配網路| ICML最新論文

dicksonjyl560101發表於2019-05-08

https://www.toutiao.com/a6688094266805191176/


DeepMind & Google最新論文提出圖匹配網路,用於相似性學習問題,在幾大圖相關任務中效能超過了標準圖網路GNN和其他模型。

一種新的圖匹配網路,在幾個圖相關任務中均勝過精心設計的神經網路模型和基於標準GNN的圖嵌入模型。

本文介紹來自DeepMind & Google的一篇ICML論文:《用於學習圖結構物件相似性的圖匹配網路》。

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文


地址:

https://arxiv.org/pdf/1904.12787.pdf

這篇論文針對 圖結構物件的檢索與匹配 這一具有挑戰性的問題,做了兩個關鍵的貢獻。

首先,作者演示瞭如何訓練圖神經網路(GNN)在向量空間中生成圖嵌入,從而實現高效的 相似性推理

其次,作者提出了一種新的 圖匹配網路(Graph Matching Network)模型 ,給出一對圖形作為輸入,通過一種新的基於注意力的跨圖匹配機制(cross-graph attention-based matching mechanism),對圖對進行聯合推理,計算出一對圖之間的相似度評分。

論文證明了該模型在不同領域的有效性,包括具有挑戰性的基於控制流圖(control-flow-graph)的函式 相似性搜尋 問題,該問題在軟體系統漏洞檢測中具有重要作用。

實驗分析表明,圖匹配模型不僅能夠在相似性學習的背景下利用結構,而且還能夠勝過針對這些問題精心手工設計的領域特定的基線系統。

圖結構物件的相似性學習問題

圖是編碼關係結構的一種自然的表示,這種關係結構在許多領域都會遇到。通過圖結構資料定義的計算被廣泛應用於各領域,從用於計算生物學和化學的分子分析,到自然語言理解的知識圖或圖結構解析的分析。

近年來,圖神經網路(GNNs)已成為一種有效的學習結構化資料表示和解決基於圖的各種監督預測問題的模型。通過迭代地聚合區域性結構資訊的傳播過程來設計和計算圖節點表示,這些模型對圖元素的排列是不變的。然後,這些節點表示被直接用於節點分類,或者合併到一個圖向量中用於圖分類。對於GNN,除了監督分類或迴歸之外的問題的研究相對較少。

本文研究了圖結構物件的 相似性學習問題 (similarity learning),該問題在現實世界中有許多重要的應用,尤其是在圖資料庫中基於相似性的檢索。

一個應用是 二進位制函式電腦保安問題的相似性搜尋 ,給定一個可能包含或不包含具有已知漏洞程式碼的二進位制,我們要檢查該二進位制中的任何控制流圖是否與資料庫中已知易受攻擊的函式非常相似。

這有助於在封閉原始碼軟體中識別易受攻擊的靜態連結庫,這是一個反覆出現的問題,目前沒有好的解決方案。

圖1顯示了該應用的一個示例,其中二進位制函式表示為帶有彙編指令註釋的控制流圖。

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文

二進位制函式相似性學習問題

這種相似性學習問題非常具有挑戰性,因為細微的差異就可以使兩個圖在語義上非常不同,而具有不同結構的圖仍然可以是相似的。

因此,一個成功的模型應該:

(1) 利用圖的結構

(2)能夠從圖的結構和所學習的語義 推斷出圖的相似性

為了解決圖的相似度學習問題,我們研究了GNN在這種情況下的使用,探討了如何將圖嵌入到向量空間中,並學習這種嵌入模型,使相似的圖在向量空間中更接近,而不同的圖在向量空間中距離更大。

該模型的一個重要特性是,它將每個圖獨立地對映到一個嵌入向量,然後所有的相似度計算都在向量空間中進行。因此,可以預先計算和索引大型資料庫中的圖嵌入,從而能夠使用快速的最近鄰搜尋資料結構(如k-d trees)或區域性敏感雜湊演算法(locality sensitive hashing)實現高效檢索。

我們進一步提出了一種對GNN的擴充套件,我們稱之為圖匹配網路(Graph Matching Networks, GMNs),用於相似性學習。

GMN不是單獨計算每個圖的表示,而是通過cross-graph的注意力機制來計算相似度評分,以便跨圖進行關聯節點和識別差異。通過使圖表示計算依賴於對(pair),該匹配模型比嵌入模型更強大,提供了良好的精度-計算的權衡。

我們在三個任務上評估了所提出的模型和基線模型:一個是合成圖edit-distance學習任務,僅捕獲結構相似性;以及兩個現實世界任務——二進位制函式相似性搜尋和網格檢索,這兩個任務都需要對結構相似性和語義相似性進行推理。

在所有三個任務上,我們提出的方法都優於已有的基線模型和結構無關模型;在更詳細的消融研究中,我們發現圖匹配網路始終優於圖嵌入模型和Siamese網路。

總結而言,本文的貢獻在於:

(1)演示瞭如何 使用GNN生成用於相似性學習的圖嵌入

(2)提出了一種新的 圖匹配網路 ,通過基於cross-graph的注意力匹配來計算相似性;

(3)實證結果表明,本文所提出的圖相似性學習模型在多個應用中具有良好的效能,並且 優於結構無關模型和已有的基線模型

深度圖相似性學習

給定兩個圖 G = (V₁, E₁) G₂ = (V₂, E₂) ,我們想要有一個模型來生成它們之間的相似度評分 s(G₁, G₂) 。每個圖表示為 G = (V, E) ,即節點V和邊E的集合,任意一個節點i∈V都可以與一個特徵向量x_i相關聯,任意一條邊(i, j)∈E都可以與一個特徵向量x_ij相關聯。這些特徵可以表示諸如節點的型別、邊的方向等。如果一個節點或一條邊沒有任何相關的特徵,我們就將相應的向量設定為常數向量1。

我們提出了兩種圖相似度學習模型:一種是 基於標準GNN的學習圖嵌入模型 ,以及一種新的、更強大的 GMN模型

兩種模型如圖2所示。

圖嵌入模型(Graph Embedding Models)

圖嵌入模型是將每個圖嵌入到一個向量中,然後在該向量空間中使用相似性度量來度量圖之間的相似性。我們的GNN嵌入模型包括三個部分:(1)編碼器,(2)傳播層,(3)聚合器。

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文

圖2:圖嵌入模型(左)和圖匹配模型(右)

圖匹配網路

圖匹配網路以一對圖作為輸入,並計算它們之間的相似度評分。與嵌入模型相比,匹配模型是在“對”的基礎上計算相似度的,而不是先將每個圖單獨對映到一個向量。因此,匹配模型可能比嵌入模型更強大,但代價是額外的計算效率。

我們提出如下的圖匹配網路,改變了每個傳播層中的節點的更新模組,不僅考慮每個圖邊緣的聚合資訊,也考慮衡量一個節點在一個圖中匹配其他一個或多個節點的效果的cross-graph匹配向量:

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文

實驗和結果

本節在三個任務上評估了圖相似性學習(GSL)框架和圖嵌入網路(GNN)和圖匹配網路(GMN),並將這些模型與其他競爭方法進行了比較。

總體而言,實驗結果表明,GMN在圖相似度學習方面表現優異,始終優於其他方法。

Learning Graph Edit Distances

圖G₁和圖G₂之間的 圖編輯距離(Graph edit distance) 的定義是將G₁轉換為 G2 所需的最小編輯運算元。通常,編輯操作包括新增/刪除/替換節點和邊緣。

圖的編輯距離自然是圖之間相似性的度量,在圖的相似性搜尋中有許多應用。通過這個實驗,我們證明了GSL模型可以在極具挑戰性的問題上學習圖之間的結構相似性。

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文

表1:圖嵌入(GNN)和圖匹配(GMN)模型與基線的比較

從表1可以看到,通過學習特定分佈的圖,GSL模型能夠比一般基線做得更好,而GMN始終優於嵌入模型(GNN)。

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文

圖3:圖匹配模型cross-graph attention的視覺化

對於GMN,我們可以將cross-graph attention視覺化,從而進一步瞭解它是如何工作的。圖3顯示了匹配模型的兩個例子,cross-graph注意力權重以綠色表示,權重的比例以綠色邊的透明度表示。我們可以看到,當兩個圖匹配時,注意力權重可以很好地對齊節點,當兩個圖不匹配時,注意力權重往往集中在度數較高的節點上。然而,這種模式並不像標準注意力模型那樣具有可解釋性。

基於控制流圖的二進位制函式相似性搜尋

二進位制函式相似性搜尋(Binary function similarity search)是電腦保安中的一個重要問題。當我們無法訪問原始碼時,例如在處理商業或嵌入式軟體或可疑的可執行程式時,就需要分析和搜尋二進位制檔案。結合反彙編器和程式碼分析器,我們可以提取一個控制流圖(CFG),它以結構化格式包含二進位制函式中的所有資訊。

在CFG中,每個節點都是組裝指令的基本塊,節點之間的邊表示控制流,例如在分支、迴圈或函式呼叫中使用的跳轉或返回指令表示。

本節中,我們將針對漏洞搜尋問題,其中使用已知存在一些漏洞的二進位制程式碼片段作為查詢,並通過一個庫搜尋,找到可能具有相同漏洞的類似二進位制程式碼。

結果如圖4所示,評估了不同模型在不同傳播步數和不同資料設定下的效能。

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文

圖4:不同模型在二進位制函式相似性搜尋任務中的效能

結果很顯然:

(1)隨著傳播步數增加,圖嵌入模型和匹配模型的效能都不斷增高;

(2)在傳播步數足夠的情況下,圖嵌入模型始終優於基線;

(3)圖匹配模型在所有設定和傳播步數的情況下都優於嵌入模型。

超越標準 GNN !DeepMind、谷歌提出圖匹配網路|  ICML最新論文

表2:函式相似性搜尋任務的更多結果

表2總結了更多實驗,結果表明:

(1)GNN嵌入模型是有競爭力的模型(比GCN模型更強大);

(2)利用Siamese網路結構在圖表示的基礎上學習相似度優於使用預先指定的相似度度量;

(3)在計算過程的早期,GMN優於Siamese模型,說明了跨圖資訊通訊的重要性。

論文:

https://arxiv.org/pdf/1904.12787.pdf


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2643650/,如需轉載,請註明出處,否則將追究法律責任。

相關文章