【論文筆記】Shortest Paths and Centrality in Uncertain Networks

HNUJSY發表於2020-11-29
  1. INTRODUCTION
    不確定網路,即每條邊都與一個存在概率相關聯的圖,由於其在許多現實世界環境中的可表達性和適用性而受到了極大的關注。
    Researchers have studied k-nearest neighbors queries[36, 49], reachability queries [29], clustering [22], sampling [45],network design [28], and embedding [23], just to mention a few.
    網路中的不確定性可能是由於噪聲測量[2],使用推理和預測模型的邊緣插補[1,37],以及明確的邊緣操作(例如,出於隱私目的)[7]而產生的。
    最短路徑的一個關鍵應用是計算betweenness centrality[10,19,40,51],這是一種基於節點通過最短路徑連線其他節點對的有效性來衡量網路中節點重要性的方法。
    本文首先研究了在不確定網路中計算最短路徑查詢的基本問題,然後在此基礎上建立了 betweeness centrality的度量。一個關鍵點是,不確定圖中最短路徑的概念不僅要考慮路徑的長度,還要考慮路徑上所有邊存在的概率。更具體地說,給定一個不確定圖G、一個源節點s和一個目標節點t,我們的目標是從具有最大概率為最短路徑(SP)的s到t中找到路徑P,即P存在且沒有比P短的路徑存在的概率。我們稱這樣的路徑為從s到t的最可能最短路徑(MPSP)
    在這裡插入圖片描述
    1.2 Contributions and Roadmap
    我們正式定義了不確定圖(2)中最可能最短路徑(MPSP)的概念,證明了我們的問題是#P-hard,並且還匯出了其他有趣的性質,突出了計算MPSPs ( 2.1)的複雜性。我們討論了早期的baseline解決方案[59],以及它的缺點(2.2)。
    然後,我們將重點放在問題的兩個重要概括上:首先,我們研究top-k MPSP查詢(3.3);然後是不確定多圖上的MPSP。後者提供了一個非常通用的資料模型,因為它允許將不確定性建模為邊長的概率分佈:例如,在道路網路中,它可以對特定路段上的行駛時間的概率分佈進行建模。此外,我們還研究了MPSP-Betweenness-Centrality,並提出了有效的抽樣策略來計算前k箇中心節點,並給出了理論上的質量保證(4)。
    我們進行了徹底的實驗(5),展示了在大規模資料集上的可擴充套件性和相對於最先進方法的效能改進[12,59]。我們還開發了關於感測器(5.6)和大腦網路(5.7)的有趣案例研究。
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    本文研究的主要問題要求找到最大概率為最短路徑的路徑。
    在這裡插入圖片描述

  2. Hardness of the Problem
    使問題1具有挑戰性的一個因素是,對於給定的路徑,即使計算兩個給定節點之間的最短路徑的概率也是困難的
    在這裡插入圖片描述
    除了#P-hardness之外,MPSPs還有其他一些特性 讓我們的問題變得很難。確定圖上最短路徑的許多經典性質在不確定圖中不再成立。例如,兩個MPSPs的連線和一個MPSP的子路徑不一定是MPSP。接下來,我們使用圖2中的不確定圖來演示這些屬性。
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    我們在這一節的結尾指出,MPSP的長度可能不同於早期在不確定圖中引入的關於最近鄰查詢的概念[36,49]。我們首先定義中間距離、多數距離和期望可靠距離。
    在這裡插入圖片描述
    在這裡插入圖片描述
    2.2 Baseline: Filtering-and-Verification
    在我們的實驗(5)中,我們使用[59]的過濾和驗證方法作為基線。該方法包括兩個步驟:生成一組包含MPSP的候選路徑,並使用盧比-卡普取樣在該集合中找到MPSP在這裡插入圖片描述
    在這裡插入圖片描述
    在這裡插入圖片描述
    兩個主要缺點影響了該方法的效能。首先,生成的候選數量可能非常大,甚至是輸入大小的指數級。對於[59]中給出的兩個下限LB,它認為LB(Pj) ≤ Pr(X(Pj))。路徑Pi是SP的概率的上限是這樣計算的在這裡插入圖片描述
    。如果MPSP存在的概率很低,那麼其他更短的路徑的概率通常會很低。因此,上限將非常緩慢地降低,並且在候選生成終止之前可能需要很多時間
    第二個缺點直接關係到候選生成的計算成本。假設我們在候選生成終止之前生成k條路徑。此步驟時間複雜度O(k|V|(|E| + |V| log |V|))。如第一個缺點所述,候選數k可以變得很大,即使很小,我們也有|V||E|因子。經驗上(5)我們發現,對於我們更大的資料集,候選生成不會在一個小時內完成

  3. PROPOSED SOLUTION
    我們提出了一個兩階段演算法來近似不確定圖中兩個節點之間的MPSP。演算法在3.1中有所描述,返回路徑質量的理論保證在3.2中有所提供。在最後一部分,我們展示瞭如何擴充套件我們的演算法來尋找k > 1 ( 3.3)的前k個MPSPs ,並計算不確定多圖中的MPSPs (3.4)
    在這裡插入圖片描述
    第一階段:Dijkstra+MC。
    給定一個不確定的圖G = (V,E,W,P)和兩個節點(S,t) ∈ V ×V,第一階段包括計算從S到T的MPSP候選路徑。這是通過在G上執行Dijkstra演算法的m次獨立執行來完成的,其中m是超引數(演算法1的第2行到第7行)。Dijkstra在不確定圖上的演算法類似於在確定圖上的經典演算法,除了當演算法到達不確定圖中的一個節點時,它的輸出邊根據它們各自的概率被取樣(演算法2)。在任何階段,選擇下一個節點時只考慮取樣的邊。這相當於在一個可能的世界G ⊑ G上執行Dijkstra演算法,如果在取樣的可能世界中t可以從s到達,那麼g上的Dijkstra演算法產生一個s-t路徑,該路徑被新增到由CP表示的候選路徑集合中。否則,如果t不可達,則返回空路徑(表示為Pϕin演算法1和2)。
    在這裡插入圖片描述
    階段2:概率近似。
    在第二階段,使用盧比-卡普演算法(演算法3)來計算每個候選路徑是g中最短s-t路徑的概率的近似值。直觀地,給定路徑P和從s到t的一些其他較短路徑,以及超引數N,該演算法首先通過經由蒙特卡羅取樣生成N個合適的可能範圍來估計任何短於P的路徑的存在概率 p,然後它返回值作為Pr(Shts§)的估計。
    在這裡插入圖片描述
    請注意,為了近似路徑P是G中最短路徑的概率,如[59]中所述,盧比-卡普演算法要求輸入所有比路徑P短的路徑。雖然在演算法2的m次執行後計算的候選路徑集不一定包括所有這樣的路徑,但我們將在3.2中表明,我們仍然可以提供良好的近似保證。
    3.3 Extension to Top-k MPSPs
    3.1中提出的方法可以很容易地擴充套件到計算k > 1的前k個最大功率點。我們注意到,如果候選路徑的數量小於或等於k,我們返回所有的候選路徑。否則,我們修改演算法1,使其儲存每個候選路徑P和按概率降序排序的Pr(Shts§)的近似值,然後返回前k個元素。由於空間限制,我們省略了該演算法準確性的技術細節。然而,我們在5.5中實驗性地演示了該演算法的效能。
    3.4 Extension to Uncertain Multi-Graphs
    一個不確定的多圖是一個四元組(v,e,w,p),其中v是一組節點,
    在這裡插入圖片描述
    是一組有向邊,邊長(w)和存在概率§,這樣每對節點可以由零個、一個或多個邊連線,稱為平行邊,邊長和存在概率有明顯的組合。取決於交通狀況,可以使用這種更通用的資料模型,例如道路網路的一段上的行駛時間的概率分佈。
    我們在3.1中描述的演算法可以很容易地適用於在不確定的多圖中尋找MPSPs。主要區別在於候選路徑的生成。在階段1中,當我們到達不確定圖中的一個節點時,用它們各自的概率對它的輸出邊進行取樣,並且為了更新演算法2的第5行中的路徑,只考慮從當前節點到每個相鄰節點的一個取樣邊(在從當前節點到該相鄰節點的所有采樣邊中具有最小長度)。

  4. MPSP-BETWEENNESS CENTRALITY
    接下來我們定義了不確定圖的MPSP-Betweenness Centrality,並設計了一種有效的取樣策略,在理論保證的情況下快速逼近每個節點的中心性。
    在這裡插入圖片描述
    在這裡插入圖片描述
    v
    在這裡插入圖片描述
    在[46,56]中給出了不確定圖的介數中心性的不同定義,它被稱為期望介數中心性。節點的期望介數是其在所有可能世界上的介數的加權平均值。
    這些概念中的任何一個都是有意義的,這取決於應用。例如,當應用程式涉及從一個節點到另一個節點的訊息廣播時,期望中心性的概念值得研究,在這種情況下,訊息可以通過不同的可能路徑傳播。另一方面,當應用程式涉及路由或路由推薦時,MPSP-介數-中心性的概念給出了更準確的描述,其中路徑需要預先固定,並且我們只能使用單個路徑從起點到目的地。
    在這裡插入圖片描述
    節點v ∈ V的介數中心性的另一個概念是基於可能的最短路徑[56]的,它被稱為PSP-
    Betweenness-Centrality
    4.1 Efficient s-t Pairs Sampling
    通過考慮所有s-t對來計算節點MPSP-Betweenness Centrality,然後計算最大概率點的樸素方法對於大型不確定圖是不可行的。此外,在我們的環境中,為這項任務設計一個有效的演算法是具有挑戰性的。如2.1所述,在不確定圖中,MPSP的子路徑不一定是MPSP。因此,我們不能將一條最短路徑分解成兩條較小的最短子路徑,也不能將兩條最短子路徑串聯起來得到一條較大的最短路徑。由於這些原因,我們既不能應用諸如布蘭德斯演算法[10]中開發的優化技術,也不能應用基於節點取樣的技術,在節點取樣中,對一小組節點進行取樣,並累積它們對中間中心性的貢獻來估計其他節點的中間性[4,11,21]。
    因此,我們設計了一種基於高效s-t路徑取樣策略的新演算法來代替節點取樣。在下文中,為簡單起見,我們假設每對節點只有一個MPSP。由於這個假設,隨機一致地選擇一個MPSP相當於使用演算法1在它們之間找到唯一的MPSP。然而,如果一對節點有多個MPSPs,我們可以使用3.3中的top-k方法來識別它們,然後在它們之間統一隨機選擇一個。
    我們提出的方法,其虛擬碼如演算法4所示,對s-t對進行抽樣,對每一個樣本計算MPSPP,然後將P的每個內部節點的介數中心性增加1。現在出現的主要問題是:需要多少個樣本才能以高概率產生每個節點介數中心性的非常精確的估計?在本節的剩餘部分,我們提供了這個問題的答案。具體地說,給定ϵ,δ > 0,我們找到樣本數r的下界,使得概率至少為1-δ,每個節點的近似中心性和精確中心性之間的差至多為ϵ.
    在這裡插入圖片描述

相關文章