TPAMI 2024 | 計算機視覺中基於圖神經網路和圖Transformers的方法和最新進展

机器之心發表於2024-09-09
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本篇綜述工作已被《IEEE 模式分析與機器智慧彙刊》(IEEE TPAMI)接收,作者來自三個團隊:香港大學俞益洲教授與博士生陳超奇、周洪宇,香港中文大學(深圳)韓曉光教授與博士生吳毓雙、許牧天,上海科技大學楊思蓓教授與碩士生戴啟元。

近年來,由於在圖表示學習(graph representation learning)和非網格資料(non-grid data)上的效能優勢,基於圖神經網路(Graph Neural Networks,GNN)的方法被廣泛應用於不同問題並且顯著推動了相關領域的進步,包括但不限於資料探勘(例如,社交網路分析、推薦系統開發)、計算機視覺(例如,目標檢測、點雲處理)和自然語言處理(例如,關係提取、序列學習)。考慮到圖神經網路已經取得了豐碩的成果,一篇全面且詳細的綜述可以幫助相關研究人員掌握近年來計算機視覺中基於圖神經網路的方法的進展,以及從現有論文中總結經驗和產生新的想法。可惜的是,我們發現由於圖神經網路在計算機視覺中應用非常廣泛,現有的綜述文章往往在全面性或者時效性上存在不足,因此無法很好的幫助科研人員入門和熟悉相關領域的經典方法和最新進展。同時,如何合理地組織和呈現相關的方法和應用是一個不小的挑戰。

圖片

  • 論文標題:A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

  • 論文地址:

    https://arxiv.org/abs/2209.13232(預印版)

    https://ieeexplore.ieee.org/document/10638815(IEEE 版)

儘管基於卷積神經網路(CNN)的方法在處理影像等規則網格上定義的輸入資料方面表現出色,研究人員逐漸意識到,具有不規則拓撲的視覺資訊對於表示學習至關重要,但尚未得到徹底研究。與具有內在連線和節點概念的自然圖資料(如社交網路)相比,從規則網格資料構建圖缺乏統一的原則且嚴重依賴於特定的領域知識。另一方面,某些視覺資料格式(例如點雲和網格)並非在笛卡爾網格上定義的,並且涉及複雜的關係資訊。因此,規則和不規則的視覺資料格式都將受益於拓撲結構和關係的探索,特別是對於具有挑戰性的任務,例如理解複雜場景、從有限的經驗中學習以及跨領域進行知識傳遞。

在計算機視覺領域,目前許多與 GNN 相關的研究都有以下兩個目標之一:(1) GNN 和 CNN 主幹的混合,以及 (2) 用於表示學習的純 GNN 架構。前者通常旨在提高基於 CNN 的特徵的遠端建模能力,並適用於以前使用純 CNN 架構解決的視覺任務,例如影像分類和語義分割。後者用作某些視覺資料格式(例如點雲)的特徵提取器。儘管取得了豐碩的進展,但仍然沒有一篇綜述能夠系統、及時地回顧基於 GNN 的計算機視覺的發展情況。

在本文中,我們首先介紹了圖神經網路的發展史和最新進展,包括最常用、最經典的圖神經網路和圖 Transformers。然後,我們以任務為導向對計算機視覺中基於圖神經網路(包括圖 Transformers)的方法和最新進展進行了全面且詳細的調研。具體來說,我們根據輸入資料的模態將圖神經網路在計算機視覺中的應用大致劃分為五類:自然影像(二維)、影片、視覺 + 語言、三維資料(例如,點雲)以及醫學影像。在每個類別中,我們再根據視覺任務的不同對方法和應用進一步分類。這種以任務為導向的分類法使我們能夠研究不同的基於圖神經網路的方法是如何處理每個任務的,以及較為公平地比較這些方法在不同資料集上的效能,在內容上我們同時還涵蓋了基於 Transformers 的圖神經網路方法。對於不同的任務,我們系統性地總結了其統一的數學表達,闡明瞭我們組織這些文章的邏輯關係,突出了該領域的關鍵挑戰,展示了圖神經網路在應對這些挑戰的獨特優勢,並討論了它的侷限和未來發展路線。

圖片

圖神經網路發展史

GNN 最初以迴圈 GNN 的形式發展,用於從有向無環圖中提取節點表示。隨著研究的發展,GNN 逐漸擴充套件到更多型別的圖結構,如迴圈圖和無向圖。受到深度學習中 CNN 的啟發,研究人員開發了將卷積概念推廣到圖域的方法,主要包括基於頻域的方法和基於空域的方法。頻域方法依賴於圖的拉普拉斯譜來定義圖卷積,而空域方法則透過聚合節點鄰居的資訊來實現圖卷積。這些方法為處理複雜的圖結構和不規則拓撲提供了有效的工具,極大地推動了 GNN 在多個領域,尤其是計算機視覺中的應用和發展。

圖片

具體來說,我們詳盡地調查瞭如下這些任務:

  • 建立在自然影像(二維)上的視覺任務包括 Image Classification (multi-label、few-shot、zero-shot、transfer learning),Object Detection,Semantic Segmentation,和 Scene Graph Generation。
  • 建立在影片上的視覺任務包括 Video Action Recognition,Temporal Action Localization,Multi-Object Tracking,Human Motion Prediction,和 Trajectory Prediction。
  • 視覺 + 語言方向的任務包括 Visual Question Answering,Visual Grounding,Image Captioning,Image-Text Matching,和 Vision-Language Navigation。
  • 建立在三維資料上的視覺任務包括 3D Representation Learning (Point Clouds、Meshes),3D Understanding (Point Cloud Segmentation、3D Object Detection、3D Visual Grounding),和 3D Generation (Point Cloud Completion、3D Data Denoising、3D Reconstruction)。
  • 建立在醫學影像上的任務包括 Brain Activity Investigation,Disease Diagnosis (Brain Diseases、Chest Diseases),Anatomy Segmentation (Brain Surfaces、Vessels、etc)。

總結來說,儘管在感知領域取得了突破性的進展,如何賦予深度學習模型推理能力仍然是現代計算機視覺系統面臨的巨大挑戰。在這方面,圖神經網路和圖 Transformers 在處理 “關係” 任務方面表現出了顯著的靈活性和優越性。為此,我們從面向任務的角度首次對計算機視覺中的圖神經網路和圖 Transformers 進行了全面的綜述。各種經典和最新的演算法根據輸入資料的模態(如影像、影片和點雲)分為五類。透過系統地整理每個任務的方法,我們希望本綜述能夠為未來的更多進展提供啟示。透過討論關鍵的創新、侷限性和潛在的研究方向,我們希望讀者能夠獲得新的見解,並朝著類似人類的視覺理解邁進一步。

相關文章