AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文標題:NoisyGL: A Comprehensive Benchmark for Graph Neural Networks under Label Noise
論文地址:https://arxiv.org/pdf/2406.04299
專案地址:https://github.com/eaglelab-zju/NoisyGL
提出了 NoisyGL,第⼀個針對標籤噪聲下的圖神經⽹絡的綜合基準庫。 透過⼤量的實驗,針對標籤噪聲下的圖神經⽹絡提出了⼀些重要的見解。 為標籤噪聲下的圖神經⽹絡提供了⼏點未來的發展⽅向。
均勻噪聲(Uniform Noise)或對稱噪聲:假設真實標籤有的機率均勻地翻轉到其他所有的類別。形式上,對於,我們有,其中 c 表示類別數量。 對偶噪聲(Pair Noise)或對偶翻轉、⾮對稱噪聲:假設真實標籤只能以機率 ϵ 翻轉到其對應的對偶類別,而不會翻轉到其他任何類別。
從 Table 2 中可以看出,標籤噪聲的傳播效應在平均度較低的稀疏圖(如 Cora、 Citeseer、Pubmed 和 DBLP)上非常嚴重,但在密集圖(如 Amazon-Computers、 Amazon-Photos、Blogcatalog 和 Flickr)上則不明顯。對此現象的解釋是:稀疏圖上的未標記節點在其鄰域中通常只有有限數量的標註節點可用於監督,所以這些未標註節點的預測結果在很大程度上依賴於其鄰域中有限的標註節點,如果這些節點被錯誤標註,則很容易導致未標註節點表示的錯誤學習。相比之下,對於密集圖,未標註節點的鄰域包含許多可以作為參考的標註節點。
設計廣泛適用的 GLN 方法。⼤多數現有的 GLN 方法無法在所有場景中確保⼀致的高效能,尤其在高度異質的圖中。為了解決這個問題,我們可能需要探索幾個關鍵問題:a)不同圖資料集的共同屬性是什麼?b)如何利用這些共同屬性增強 GNNs 對標籤噪聲的穩健性?我們的實驗結果表明增強圖結構可以減少標籤噪聲在不同密度圖中的傳播,進而引出第三個問題:c)如果難以識別共同屬性,我們能否透過資料增強來統⼀這些特徵? 為各種圖學習任務設計 GLN 方法。先前對 GLN 的研究主要集中在節點分類任務上。然而,圖學習領域還包括其他重要應⽤,如鏈路預測、邊屬性預測和圖分類等。這些應用也可能受到標籤噪聲的影響,需要進⼀步關注和探索。 考慮圖學習中的其他型別標籤噪聲。先前對 GLN 的研究假設圖資料中存在兩種例項無關的標籤噪聲,即對偶噪聲和均勻噪聲。然二,更為現實的假設是例項相關標籤噪聲,但目前尚未有相關的工作。此外,與其它領域的資料不同,圖資料存在額外的圖結構,圖結構很有可能影響圖資料的標註過程,因此圖資料的標籤噪聲模型很可能與圖拓撲結構相關。