圖嵌入綜述(arxiv1709.07604)譯文五、六、七

apachecn_飛龍發表於2018-09-20

應用

圖嵌入有益於各種圖分析應用,因為向量表示可以在時間和空間上高效處理。 在本節中,我們將圖嵌入的應用分類為節點相關,邊相關和圖相關。

節點相關應用

節點分類

節點分類是基於從標記節點習得的規則,為圖中的每個節點分配類標籤。 直觀地說,“相似”節點具有相同的標籤。 它是圖嵌入文獻中討論的最常見的應用之一。 通常,每個節點都嵌入為低維向量。 通過在用於訓練的標記節點嵌入集上應用分類器來進行節點分類。 示例分類器包括 SVM([1,33,56,20,73,34,45,41,42,57,75,81,87,60]),邏輯迴歸([17,27,124,1,21],[28,20,19,45,25,59])和 k-最近鄰分類([58,151])。 然後,給定未標記節點的嵌入,訓練的分類器可以預測其類標籤。 與首先是節點嵌入然後是節點分類的上述順序處理相比,其他一些工作([62,72,47,48,80])設計了一個統一的框架來聯合優化圖嵌入和節點分類,它們學習特定於分類的每個節點的表示。

節點聚類

節點聚類旨在將類似節點組合在一起,以使同一組中的節點彼此更相似,而不是其他組中的節點。 作為無監督演算法,當節點標籤不可用時,它是適用的。 在將節點表示為向量之後,可以將傳統的聚類演算法應用於節點嵌入。 大多數現有工作[1,2,21,33,23,22,81]採用 k 均值作為聚類演算法。 相比之下,[4]和[77]聯合優化了一個目標中的聚類和圖嵌入,來學習特定於聚類的節點表示。

節點推薦/檢索/排名

節點推薦的任務是,基於諸如相似性的某些標準[106,3,47,16,43,45]來推薦給定節點感興趣的前K個節點。 在現實世界的場景中,有各種型別的節點推薦,例如為研究人員推薦研究興趣[66],為客戶推薦專案[3,71],為社會網路使用者推薦影像[35],為社交網路使用者推薦朋友[3],以及為查詢推薦檔案[69]。 它在社群問答中也很受歡迎。 給出一個問題,他們預測使用者的相對排名([31,30])或答案([32,29])。 在鄰近搜尋[44,39]中,它們對給定查詢節點(例如,“Bob”)和鄰近類別(例如,“同學”)的特定型別(例如,“使用者”)的節點進行排名,例如,排名是Bob的同學的使用者。 並且有一些工作側重於跨模態檢索[33,36,99,34],例如,基於關鍵詞的影像/視訊搜尋。

在知識圖嵌入中廣泛討論的特定應用是實體排名[53,51,59,52,61]。 回想一下,知識圖由一組三元組組成 。 實體排名旨在對正確的缺失實體進行排名,給定三元組中其他兩個成分,它們高於虛假實體。 例如,給定rt,在所有候選實體,它返回真的h,或者給定rh返回真的t

邊相關應用

接下來,我們介紹邊相關應用,其中涉及邊或節點對。

連結預測

圖嵌入旨在表示具有低維向量的圖,但有趣的是它的輸出向量也可以幫助推斷圖結構。 在實踐中,圖通常是不完整的; 例如,在社交網路中,實際上彼此瞭解的兩個使用者之間可能缺少好友連結。 在圖嵌入中,期望低維向量保持不同的網路鄰近度(例如,DeepWalk [17],LINE [27]),以及不同的結構相似度(例如,GCN [72],struc2vec [145])。 因此,這些向量編碼網路結構的豐富資訊,並且它們可用於預測不完整圖中的缺失連結。 大多數圖嵌入驅動的連結預測,都在同構圖上[3,16,28,19]嘗試。 例如,[28]預測兩個使用者之間的好友關係。 處理異構圖連結預測的圖嵌入工作相對較少。 例如,在異構社交圖上,ProxEmbed [44]試圖根據其在圖上的連線路徑的嵌入,來預測兩個使用者之間某些語義型別(例如,同學)的缺失連結。 D2AGE [152]通過嵌入兩個使用者的連通有向無環圖結構,解決了同樣的問題。

三元組分類

三元組分類[142,53,15,51,52,14,38,61]是知識圖的特定應用。 它的目的是分類,沒見過的三元組 是否正確,即 的關係是否是

圖相關應用

圖分類

圖分類將類標籤分配給整圖。 當圖是資料單位時,這很重要。 例如,在[50]中,每個圖是化學化合物,有機分子或蛋白質結構。 在大多數情況下,應用整圖嵌入來計算圖層級相似度[93,55,54,49,95]。 最近,一些工作開始匹配節點嵌入和圖相似性[153,50]。 每個圖表示為一組節點嵌入向量。 基於兩組節點嵌入來比較圖。 [93]將圖分解為一組子結構,然後將每個子結構嵌入為向量,並通過子結構相似性比較圖。

視覺化

圖視覺化在低維空間上生成圖的視覺化[20,23,55,48,73,58]。 通常,出於視覺化目的,所有節點都嵌入為2D向量,然後繪製在2D空間中,不同的顏色表示節點的類別。 它提供了生動的演示,表明屬於同一類別的節點的嵌入是否彼此更緊密。

其它應用

以上是一些在現有工作中經常討論的一般應用。 根據輸入圖中攜帶的資訊,可能存在更具體的應用。 以下是一些示例場景。

知識圖相關:[15]和[14]從大規模純文字中提取關係事實。 [62]從文字中提取醫學實體。 [69]將自然語言文字與知識圖中的實體聯絡起來。 [92]側重於刪除知識圖中重複的等效實體。 [84]聯合嵌入實體提及,文字和實體型別,從其嘈雜的候選型別集中估計每個提及的真實型別路徑。 例如,“川普”的候選型別是“人,政治家,商人,藝術家,演員”。 對於提及“川普”的句子“共和黨總統候選人唐納德川普在洛克希爾的競選活動中發言。”,只有“人,政治家”是正確的型別。

多媒體網路相關 :[83]嵌入地理標記社交媒體(GTSM)記錄“時間,地點,訊息 ”,這使得他們能夠在給定其他兩個成分的情況下,從GTSM三元組中恢復丟失的成分。 它還可以對GTSM記錄進行分類,例如,登記記錄是否與“食物”或“商店”相關。 [85]使用圖嵌入來減少人臉識別的資料維度。 [88]將影像對映到一個語義流形,忠實地掌握使用者的偏好,來促進基於內容的影像檢索。

資訊傳播相關:[63]預測給定時間間隔後級聯大小的增量。 [64]預測傳播使用者,並通過嵌入社互動動圖來識別領域專家。

社交網路對齊: [26]和[18]都學習節點嵌入,來對齊跨越不同的社交網路的使用者,即,預測兩個不同社交網路中的兩個使用者帳戶是否由同一使用者擁有。

影像相關:一些工作嵌入由影像構建的圖,然後使用嵌入進行影像分類([81,82]),影像聚類[101],影像分割[154],模式識別[80]等。

未來發展方向

在本節中,我們總結了圖嵌入領域的四個未來方向,包括計算效率,問題設定,技術和應用場景。

計算。 採用幾何輸入(例如,圖)的深層架構遭受低效率問題。 傳統的深度學習模型(為歐幾里得域設計)通過假設輸入資料在1D或2D網格上,利用現代GPU來優化其效率。 但是,圖沒有這種網格結構,因此為圖嵌入設計的深層架構需要尋求替代解決方案來提高模型效率。 [117]建議可以採用為大規模圖處理開發的計算正規化,來提高圖嵌入的深度學習模型的效率。

問題設定。 動態圖是圖嵌入的一個有前途的設定。 圖並不總是靜態的,尤其是在現實生活場景中,例如Twitter中的社交圖,DBLP中的引文圖。 在圖結構或節點/邊資訊方面,圖可以是動態的。 一方面,圖結構可以隨時間演變,即,一些舊節點/邊消失時出現新節點/邊。 另一方面,節點/邊可以通過一些時變資訊來描述。 現有圖嵌入主要側重於嵌入靜態圖,忽略了動態圖嵌入的設定。 與靜態圖嵌入不同,動態圖的技術需要是可擴充套件的,並且最好是遞增的,以便有效地處理動態變化。 這使得大多數現有的圖嵌入方法受到低效率問題的影響,不再適用。 如何在動態域中設計有效的圖嵌入方法仍然是一個懸而未決的問題。

技術。 結構感知對於基於邊重建的圖嵌入很重要。 當前基於邊重建的圖嵌入方法主要僅基於邊,例如,一般圖中的一跳的鄰居,知識圖中的排名三元組<h, r, t>,和 cQA 圖中的 。 單個邊僅提供區域性鄰域資訊來計算一階和二階接近度。 省略了圖的全域性結構(例如,路徑,樹,子圖模式)。 直觀地說,子結構包含比單個邊更豐富的資訊。 一些工作嘗試探索知識圖嵌入中的路徑資訊([142,40,38,39])。 然而,他們中的大多數使用深度學習模型([142,38,40]),這些模型遭受前面討論的低效率問題。 如何設計可以利用圖結構的表現力的非深度學習方法是一個問題。 [39]提供了一個示例解決方案。 它最小化成對和長程損失,來捕獲成對關係和實體之間的遠端互動。 注意,除了列表/路徑結構之外,還存在各種具有不同結構資訊的子結構。 例如,SPE [155]試圖引入一個子圖增強路徑結構,用於在異構圖中嵌入兩個節點之間的接近度,並且它比語義搜尋任務的簡單路徑嵌入表現出更好的效能。 通常,需要一種有效的結構感知圖嵌入優化解決方案以及子結構取樣策略。

應用。 圖嵌入已應用於許多不同的應用中。 考慮到它們之間的關係,這是學習資料表示的有效方法。 此外,它可以將來自不同源/平臺/檢視的資料例項轉換到一個公共空間,以便它們可以直接比較。 例如,[36,16,34]使用圖嵌入進行跨模態檢索,例如基於內容的影像檢索,基於關鍵詞的影像/視訊搜尋。 使用圖嵌入進行表示學習的優點在於,訓練資料例項的圖流形被保留在表示中,並且可以進一步有益於後續應用。 因此,圖嵌入可以使假設輸入資料例項與某些關係相關(即,通過某些連結連線)的任務受益。 探索受益於圖嵌入的應用場景非常重要,因為它從不同的角度為傳統問題提供了有效的解決方案。

結論

在本綜述中,我們對圖嵌入中的文獻進行了全面的回顧。 我們為圖嵌入問題提供了一個正式的定義,並介紹了一些基本概念。 更重要的是,我們提出了兩種圖嵌入分類法,分別基於問題設定和嵌入技術對現有工作進行分類。 在問題設定分類中,我們介紹了四種嵌入輸入和四種嵌入輸出,並總結了每種設定所面臨的挑戰。 對於嵌入技術分類法,我們介紹了每個類別的工作,並根據它們的優缺點進行比較。 之後,我們總結了圖嵌入的應用。 最後,在計算效率,問題設定,技術和應用場景方面,我們建議了圖嵌入領域的四個有希望的未來研究方向。


相關文章