本次分享的論文是 KDD 2020 的一篇工作,出發點是為了更好地建模多變數時間序列資料中成對變數之間的潛在空間依賴。作者提出了一種通用的圖神經網路框架 MTGNN,透過圖學習模組融合外部知識和變數之間的單向關係,再使用 mix-hop 傳播層和膨脹 inception 捕獲空間和時序依賴。
論文標題:
Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks
論文來源:
KDD 2020
論文連結:
https://arxiv.org/abs/2005.11650
程式碼連結:
https://github.com/nnzhan/MTGNN
背景 挑戰 MTGNN框架 實驗解讀 個人總結
一、背景
多變數時序預測在經濟、金融、生物資訊和交通等領域有廣泛應用。相較於單變數時序預測,需要建模的問題更復雜,因為每個變數不僅與其歷史值有關,還要考慮變數之間的依賴關係。
然而,現有的多變數時序預測方法並沒有有效地探索變數之間的潛在空間依賴關係。統計方法如 VAR 和 GP 假設變數之間存線上性依賴關係,隨著變數的增加,模型複雜度二次方增長,容易導致過擬合。深度學習方法如 LSTNet [1] 和 TPA-LSTM [2],雖然能夠捕獲非線性關係,但是無法明確地建模成對變數之間的依賴關係。
二、挑戰
時空圖神經網路是最適合多變數時序預測任務的圖神經網路型別,因為多變數時序預測問題需要考慮時間維和空間維的資訊表達。通常時空圖神經網路以多變數時序資料和外部圖結構作為輸入,預測時序資料的未來值或標籤。相較於未利用結構資訊的方法,能夠取得較大提升。但是,該方法仍然存在兩個方面的挑戰:
未知的圖結構 :使用圖神經網路建模時序預測任務時,大多依賴於預定義的圖結構。但是,大多數情況下,多變數時序預測是沒有明確的圖結構,需要從資料中去學習變數之間的關係(圖)。
圖結構與圖神經網路共同學習:現有方法大多專注於如何設計合適的圖神經網路結構,卻忽略了有時圖結構(通常為鄰接矩陣)有可能不是最優的,也需要在訓練中最佳化。因此,對於時序問題,如何在一個 end2end 的框架下同時學習圖結構和圖神經網路是一個問題。
MTGNN 各部分之間的聯絡如下圖所示,主要有三個模組組成圖學習模組、圖卷積模組、時序卷積模組。
下面根據上述兩個挑戰,介紹下本文的解決方案。
針對挑戰1,作者提出了一個圖學習層,能夠自適應地從資料中抽取稀疏圖鄰接矩陣。此外,基於學習得到的圖鄰接矩陣,作者使用圖卷積模組進行變數之間空間依賴學習。同時,作者對圖卷積模組進行了改進,學習變數之間的單向依賴以及緩解圖神經網路中的過度平滑問題。
針對挑戰2,圖學習層和圖卷積模組都是引數化的,兩者透過後向傳播(梯度下降)方法共同最佳化。
3.1 總體框架
3.2 圖學習層
3.3 圖卷積模組
兩個 mix-hop 分別處理單個節點的 inflow 資訊和 outflow 資訊,最終將兩個資訊相加所謂最終的模組輸出資訊。
3.4 時序卷積模組
3.5 跳躍連線層和輸出層
3.6 學習演算法
在本文的任務長期預測中,比較容易想到的是短期預測效果是肯定優於長期預測的,那麼可以先學習短期的,再逐漸學習長期的。我這裡介紹的比較口語化,原文從 loss 層面介紹,我理解的是如果長期預測,越長步數的預測值偏差越大,導致總 loss 會更大,即使取平均,相較於短期預測也會產生更大的 loss。
四、實驗解讀
LSTNet [1] TPA-LSTM [2] DCRNN [6] STGCN [7] Graph WaveNet [8] ST-MetaNet [9] GMAN [10] MRA-BGCN [11]
論文中做了多種實驗,這裡我主要介紹下與時空圖神經網路相關的基線模型對比。從實驗結果來看,MTGNN 可以取得 SOTA 或者與 SOTA 相差無幾的效果。相較於對比的方法,其主要優勢在於不需要預定的圖。其中 Graph WaveNet 是本文作者在 IJCAI 2019 的工作,也是自適應構建鄰接矩陣,但是需要結合預定圖才能取得較好的效果。
五、個人總結
[1] Modeling long-and short-term temporal patterns with deep neural networks
[2] Temporal pattern attention for multivariate time series forecasting
[3] MixHop:Higher-Order Graph Convolutional Architectures via Sparsified Neighborhood Mixing
[4] DAGCN: Dual Attention Graph Convolutional Networks
[5] Curriculum Learning
[6] Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.
[7] Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting
[8] Graph WaveNet for Deep Spatial-Temporal Graph Modeling.
[9] Urban Traffic Prediction from Spatio-Temporal Data Using Deep Meta Learning
[10] GMAN: A Graph Multi-Attention Network for Traffic Prediction
[11] Multi-Range Attentive Bicomponent Graph Convolutional Network for Traffic Forecasting