【論文閱讀】N-BEATS Neural basis expansion analysis for interpretable time series forecasting

张天明發表於2024-03-11

原始題目:N-BEATS: Neural basis expansion analysis for interpretable time series forecasting
中文翻譯:N-BEATS:可解釋時間序列預測的神經基展開分析
發表時間:2020-02-20
平臺:arXiv
文章連結:http://arxiv.org/abs/1905.10437
開原始碼:https://github.com/servicenow/n-beats

摘要

我們專注於使用深度學習解決單變數時間序列點預測問題。我們提出了一種基於後向和前向殘差鏈路以及完全連線層的深度堆疊的深度神經架構。該體系結構具有許多理想的特性,可解釋,無需修改即可應用於廣泛的目標域,並且訓練速度快。我們在幾個著名的資料集上測試了所提出的架構,包括M3、M4和旅遊比賽資料集,這些資料集包含來自不同領域的時間序列。我們為所有資料集展示了N-BEATS的兩種配置的最先進效能,比統計基準提高了11%的預測精度,比去年的M4競賽(一種神經網路和統計時間序列模型之間的域調整手工混合)的獲勝者提高了3%。我們模型的第一種配置不使用任何時間序列特定的元件,其在異構資料集上的效能強烈表明,與公認的觀點相反,深度學習原語(如殘差塊)本身就足以解決廣泛的預測問題。最後,我們展示瞭如何增強所提出的體系結構,以提供可解釋的輸出,而不會造成相當大的準確性損失。

1. 引言

時間序列(TS)預測是一個重要的商業問題,也是機器學習(ML)的一個富有成果的應用領域。它是現代商業的大多數方面的基礎,包括庫存控制和客戶管理等關鍵領域,以及從生產和分銷到財務和營銷的商業規劃。因此,它具有相當大的財務影響,通常每獲得一點預測準確性就要花費數百萬美元(Jain,2017;Kahn,2003年)。然而,與計算機視覺或自然語言處理等領域不同的是,深度學習(DL)技術現在已經根深蒂固,仍然有證據表明ML和DL難以超越經典的統計TS預測方法(Makridakis等人,2018a;b)。例如,在總共60個參賽作品中,提交給M4競賽的六種“純”ML方法的排名分別為23、37、38、48、54和57,大多數最佳排名方法都是經典統計技術的集合(Makridakis等人,2018b)。

另一方面,M4比賽的獲勝者(Smyl,2020)是基於神經殘差/注意力擴張LSTM堆疊與具有可學習引數的經典Holt-Winters統計模型(Holt,1957;2004;Winters,1960)之間的混合。由於Smyl的方法在很大程度上依賴於Holt-Winters元件,Makridakis等人(2018b)進一步認為,“混合方法和方法組合是提高預測準確性和使預測更有價值的前進方向”。在這項工作中,我們希望透過探索純DL架構在TS預測中的潛力來挑戰這一結論。此外,在可解釋的DL架構設計的背景下,我們有興趣回答以下問題:我們是否可以在模型中注入適當的歸納偏差,使其內部操作更具可解釋性,即提取一些可解釋的驅動因素,結合起來產生給定的預測?

1.1 貢獻總結

深度神經架構:據我們所知,這是第一項實證證明不使用時間序列特定元件的純DL在M3、M4和旅遊資料集上優於公認的統計方法的工作(在M4上,比統計基準高11%,比最佳統計條目高7%,比M4競賽獲勝者高3%)。在我們看來,這為在TS預測中使用純ML提供了一個長期缺失的概念證明,並加強了繼續推進該領域研究的動力。

時間序列的可解釋DL:除了準確性優勢外,我們還表明,設計一個具有可解釋輸出的架構是可行的,該架構可以被從業者以與傳統分解技術(如“季節性趨勢水平”方法)非常相同的方式使用(Cleveland et al.,1990)。

與傳統分解技術相當的可解釋程度

2. 問題陳述

我們考慮離散時間中的單變數點預測問題。給定一個長度為H的預測範圍——一個長度T的觀測序列歷史[y1,…,yT]∈RT,任務是預測未來值y∈RH=[yT+1,yT+2,…,yT+H]的向量。為了簡單起見,我們稍後將考慮以最後一個觀測值yT結束的長度為t≤t的回顧視窗作為模型輸入,並表示x∈Rt=[yT−t+1,…,yT]。我們將y表示為y的預測。以下指標通常用於評估預測效能(Hyndman&Koehler,2006;Makridakis&Hibon,2000;Makridakis等人,2018b;Athanasopoulos等人,2011):

這裡,m是資料的週期性(例如,對於月序列為12)。MAPE(Mean Absolute Percentage Error,平均絕對百分比誤差)、sMAPE(symmetric MAPE,對稱MAPE)和MASE(Mean-Absolute Scaled Error,平均絕標度誤差)是預測實踐中的標準無標度度量(Hyndman&Koehler,2006;Makridakis&Hibon,2000):而sMAPE透過預測和地面實況之間的平均值來縮放誤差,MASE透過簡單地複製過去m個週期測量的觀測值的天真預測器的平均誤差進行縮放,從而考慮季節性。OWA(總體加權平均值)是一種特定於M4的指標,用於對參賽作品進行排名(M4團隊,2018b),其中sMAPE和MASE指標被歸一化,使得經季節性調整的天真預測獲得OWA=1.0。

3. N-BEATS

我們的架構設計方法依賴於幾個關鍵原則。首先,基礎架構應該是簡單的、通用的,但具有表現力(深度)。其次,體系結構不應依賴於時間序列特定的功能工程或輸入縮放。這些先決條件使我們能夠探索純DL架構在TS預測中的潛力。最後,作為探索可解釋性的先決條件,體系結構應該是可擴充套件的,以使其輸出具有人類可解釋性。現在,我們將討論這些原則如何與所提出的體系結構相融合。

3.1基本塊

所提出的基本構建塊具有分叉結構,如圖1(左)所示。在本節中,我們將重點詳細描述“第\(l\)-個塊”的操作(請注意,為了簡潔起見,圖1中刪除了塊索引)。第\(l\)個塊接受相應的輸入\(x_l\),並輸出兩個向量,$ \widehat{y_l}\(和\) \widehat{x_l}\(。對於模型中的第一個塊,其相應的x是整個模型輸入——一個以最後一次測量觀測結束的具有一定長度的歷史回顧視窗。我們將輸入視窗的長度設定為預測範圍H的倍數,在我們的設定中,x的典型長度範圍從2H到7H。對於其餘的塊,它們的輸入\)x_l\(是先前塊的剩餘輸出。每個塊有兩個輸出:\) \widehat{y_l}\(,塊對長度H的前向預測;以及\) \widehat{x_l}\(,塊對\)x_l$的最佳估計,也稱為“反向預測”,給定塊可以用來近似訊號的函式空間的約束。

image-20240311161922242

圖1:建議的體系結構。基本構建塊是具有RELU非線性的多層FC網路。它預測前向基展開係數θf(預測)和後向基展開因數θb(反向)。使用雙殘差堆疊原理將塊組織成堆疊。堆疊可能具有具有共享gb和g f的層。預測是以分層方式聚合的。這使得能夠構建具有可解釋輸出的非常深入的神經網路

在內部,基本構建塊由兩部分組成。第一部分是一個完全連線的網路,它產生展開係數的前向θf和後向θb預測因子(再次注意,圖1中的\(θ^b_l\)\(θ^f_l\)\(g^b_l\)\(g^f_l\)去掉了塊索引)。第二部分由後向\(g^b\)和前向\(g^f\)基層組成,它們接受各自的前向θf和後向θb展開係數,將它們內部投影在基函式集上,併產生前一段中定義的後向x和預測輸出y

\(l\)塊的第一部分的操作由以下方程描述:

\[\begin{aligned}\mathbf{h}_{\ell,1}&=\mathrm{FC}_{\ell,1}(\mathbf{x}_\ell),\quad\mathbf{h}_{\ell,2}=\mathrm{FC}_{\ell,2}(\mathbf{h}_{\ell,1}),\quad\mathbf{h}_{\ell,3}=\mathrm{FC}_{\ell,3}(\mathbf{h}_{\ell,2}),\quad\mathbf{h}_{\ell,4}=\mathrm{FC}_{\ell,4}(\mathbf{h}_{\ell,3}).\\\mathbf{\theta}_\ell^b&=\mathrm{LINEAR}_\ell^b(\mathbf{h}_{\ell,4}),\quad\mathbf{\theta}_\ell^f=\mathrm{LıNEAR}_\ell^f(\mathbf{h}_{\ell,4}).\end{aligned}\tag{4.1} \]

這裡線性層只是一個線性投影層,即\(\theta_{\ell}^{f}=\mathbf{W}_{\ell}^{f}\mathbf{h}_{\ell,4}\)FC層是具有RELU非線性的標準全連線層(Nair&Hinton,2010),使得對於\(FC_{l,1}\),例如:\(\theta_{\ell}^{f}=\mathbf{W}_{\ell}^{f}\mathbf{h}_{\ell,4}\)。該架構的這一部分的一個任務是預測前向展開係數θf,最終目標是透過適當混合由g f提供的基向量來最佳化部分預測\(\widehat{\mathbf{y}}_{\ell}\)的精度。此外,該子網路預測gb使用的向後擴充套件係數θb來產生x的估計,最終目標是透過去除其輸入中對預測沒有幫助的分量來幫助下游塊

網路的第二部分透過基層將展開係數θf和θb對映到輸出,\(\widehat{\mathbf{y}}_{\ell}=g_{\ell}^{f}(\boldsymbol{\theta}_{\ell}^{f})\)\(\widehat{\mathbf{x}}_{\ell}=g_{\ell}^{b}(\theta_{\ell}^{b})\)。其操作由以下方程描述:

\(\widehat{\mathbf{y}}_{\ell}=\sum_{i=1}^{\dim(\boldsymbol{\theta}_{\ell}^{f})}\boldsymbol{\theta}_{\ell,i}^{f}\mathbf{v}_{i}^{f},\quad\widehat{\mathbf{x}}_{\ell}=\sum_{i=1}^{\dim(\boldsymbol{\theta}_{\ell}^{b})}\boldsymbol{\theta}_{\ell,i}^{b}\mathbf{v}_{i}^{b}.\)

這裡,\(v^f_i\)\(v^b_i\)是預測和回溯基向量,\(θ^f_{l,i}\)\(θ^f_l\)的第i個元素。\(g^b_l\)\(g^f_l\)的函式是提供足夠豐富的集合\(\{v^f_ i\}^{dim(θ^f_l)}_{i=1}\)\(\{v^b_i\}^{dim(θ^b_l)}_{i=1}\),使得它們各自的輸出可以透過變化的展開係數\(θ^f_l\)\(θ^b_l\)來充分表示。如下所示,\(g^b_l\)\(g^f_l\)可以被選擇為可學習的,也可以被設定為特定的函式形式,以反映某些特定於問題的歸納偏差,從而適當地約束輸出的結構。第3.3節討論了\(g^b_l\)\(g^f_l\)的具體例子。

3.2 雙重剩餘堆疊

經典的殘差網路架構在將結果傳遞給下一個堆疊之前,將層堆疊的輸入新增到其輸出中(He et al.,2016)。Huang等人提出的DenseNet架構(2017)透過引入從每個堆疊的輸出到後面的每個其他堆疊的輸入的額外連線來擴充套件這一原理。這些方法在提高深度架構的可訓練性方面提供了明顯的優勢。在這項工作的背景下,它們的缺點是導致難以解釋的網路結構。我們提出了一種新的分層雙殘差拓撲,如圖1所示(中間和右邊)。所提出的架構具有兩個殘差分支,一個在每層的反向預測上執行,另一個在每個層的預測分支上執行。其操作由以下方程描述:

\(\mathbf{x}_{\ell}=\mathbf{x}_{\ell-1}-\widehat{\mathbf{x}}_{\ell-1},\quad\widehat{\mathbf{y}}=\sum_{\ell}\widehat{\mathbf{y}}_{\ell}.\)

如前所述,在第一個塊的特殊情況下,其輸入是模型級輸入x,\(x_1\equiv x\)。對於所有其他塊,可以將反向殘差分支\(x_l\)視為對輸入訊號進行順序分析。前一個塊刪除了訊號\(\widehat{\mathbf{x}}_{\ell-1}\)中它可以很好地近似的部分,使下游塊的預測工作更容易。這種結構還促進了更多的流體梯度反向傳播。更重要的是,每個塊都輸出一個部分預測y,該預測首先在堆疊級別聚合,然後在整個網路級別聚合,從而提供分層分解。最終預測y是所有部分預測的總和。在通用模型上下文中,當允許堆疊對每層具有任意的\(g^b_l\)\(g^f_l\)時,這使得網路對梯度流更加透明。在一個特殊的情況下,在堆疊上共享的中\(g^b_l\)\(g^f_l\)強制執行刻意結構,這一點至關重要,即透過聚合有意義的部分預測來實現可解釋性。

3.3 可解釋性

在選擇\(g^b_l\)\(g^f_l\)的基礎上,我們提出了兩種體系結構配置。其中一個是通用DL,另一個是用某些可解釋的歸納偏差擴充的。

通用體系結構不依賴於TS特定的知識。我們將\(g^b_l\)\(g^f_l\)設定為前一層輸出的線性投影。在這種情況下,塊l的輸出被描述為:

\(\widehat{\mathbf{y}}_{\ell}=\mathbf{V}_{\ell}^{f}\mathbf{\theta}_{\ell}^{f}+\mathbf{b}_{\ell}^{f},\quad\widehat{\mathbf{x}}_{\ell}=\mathbf{V}_{\ell}^{b}\mathbf{\theta}_{\ell}^{b}+\mathbf{b}_{\ell}^{b}.\)

該模型的解釋是,圖中所示的基本構建塊中的FC層在網路學習的基礎\(V^f_l\)中學習部分預測\(\widehat{y}_l\)的預測分解。矩陣\(V^f_l\)具有維度\(H×dim(θ^f_l)\)。因此,\(V^f_l\)的第一維具有預測域中離散時間指數的解釋。矩陣的第二個維度解釋了基函式的指數,其中\(θ^f_l\)是該基的展開係數。因此,\(V^f_l\)的列可以被認為是時域中的波形。由於沒有對\(V^f_l\)的形式施加額外的約束,因此深度模型學習的波形不具有固有結構(在我們的實驗中也沒有明顯的結構)。這導致\(\widehat{y}_l\)不可解釋。

可解釋的體系結構可以透過重用圖1中的整體體系結構方法和在堆疊級別向基礎層新增結構來構建。預測從業者通常使用將時間序列分解為趨勢性和季節性的方法,例如STL(Cleveland et al.,1990)和X13-ARIMA(美國人口普查局,2013)執行的方法。我們建議將趨勢和季節性分解設計到模型中,以使堆疊輸出更容易解釋。請注意,對於通用模型,堆疊的概念是不必要的,為了清晰起見,省略了堆疊級別的索引。現在我們將同時考慮堆疊級別和塊級別的索引。例如,\(\widehat{\mathbf{y}}_{s,\ell}\),將表示堆疊s內塊l的部分預測。

趨勢模型。趨勢的一個典型特徵是,大多數時候它是一個單調函式,或者至少是一個緩慢變化的函式。為了模擬這種行為,我們建議將\(g^b_{s,l}\)\(g^f_{s,l}\)約束為小階p的多項式,這是一個在預測視窗內緩慢變化的函式:

\[\widehat{\mathbf{y}}_{s,\ell}=\sum_{i=0}^{p}\theta_{s,\ell,i}^{f}t^{i}.\tag{2} \]

這裡,時間向量\(t=[0,1,2,…,H−2,H−1]^T/H\)定義在從0到(H−1)/H的離散網格上,預測前方H步。或者,矩陣形式的趨勢預測將是:

\(\widehat{\mathbf{y}}_{s,\ell}^{tr}=\mathbf{T}\theta_{s,\ell}^{f},\)

其中\(\theta_{s,\ell}^{f}\)是由方程(1)描述的堆疊s的層的FC網路預測的多項式係數;並且T=[1,T,…,tp]是T的冪矩陣。如果p很低,例如2或3,則它迫使\(\hat{\mathbf{y}}_{s,\ell}^{tr}\)模擬趨勢。

季節性模型。季節性的典型特徵是它是一種有規律的、週期性的、反覆出現的波動。因此,為了對季節性進行建模,我們建議將\(g^b_{s,l}\)\(g^f_{s,l}\)約束為屬於週期函式類,即yt=yt-∆,其中∆是季節性週期。對週期函式建模的基礎的自然選擇是傅立葉級數:

\[\widehat{\mathbf{y}}_{s,\ell}=\sum_{i=0}^{\lfloor H/2-1\rfloor}\theta_{s,\ell,i}^{\int}\cos(2\pi it)+\theta_{s,\ell,i+\lfloor H/2\rfloor}^{f}\sin(2\pi it),\tag{3}季節性預測的矩陣形式如下: \]

\(\widehat{\mathbf{y}}_{s,\ell}^{seas}=\mathbf{S}\theta_{s,\ell}^{f},\)

其中\(\theta_{s,\ell}^{f}\)是由方程(1)描述的堆疊s的層的FC網路預測的傅立葉係數;\(\mathbf{S}=[\mathbf{1},\cos(2\boldsymbol{\pi}\mathbf{t}),\ldots\cos(2\boldsymbol{\pi}|H/2-1|\mathbf{t})),\sin(2\boldsymbol{\pi}\mathbf{t}),\ldots,\sin(2\boldsymbol{\pi}|H/2-1|\mathbf{t}))]\)。因此,預測的\(\widehat{\mathbf{y}}_{s,\ell}^{seas}\)是一個模仿典型季節模式的週期函式。

整體可解釋架構由兩個堆疊組成:趨勢堆疊後面是季節性堆疊。雙殘差疊加與預測/反向預測原理相結合導致(i)趨勢分量在被饋送到季節性疊加之前從輸入視窗x中被去除,以及(ii)趨勢和季節性的部分預測可作為單獨的可解釋輸出獲得。從結構上講,每個堆疊由幾個用殘差連線連線的塊組成,如圖1所示。每個堆疊共享其各自的不可學習的\(g^b_{s,l}\)\(g^f_{s,l}\)。對於趨勢性和季節性,區塊數量均為3。我們發現,除了共享\(g^b_{s,l}\)\(g^f_{s,l}\)之外,在堆疊中的塊之間共享所有權重會帶來更好的驗證效能。

3.4組裝

在M4比賽中,所有頂尖選手都使用Ensembling。我們也依靠組合來進行比較。我們發現,集合是一種比流行的替代方案(如丟棄或L2範數懲罰)更強大的正則化技術。這些方法的加入改進了單個模型,但損害了整體的效能。合奏的核心屬性是多樣性。我們使用多種多樣性來源構建了一個樂團。首先,集合模型適用於三個不同的度量:sMAPE、MASE和MAPE,這是sMAPE的一個版本,在分母中只有基本真值。其次,對於每個地平線H,在不同長度的輸入視窗上訓練各個模型:2H,3H,7H總共六個視窗長度。因此,整體系綜呈現出多尺度方面。最後,我們透過包括用不同隨機初始化訓練的模型來執行裝袋過程(Breiman,1996)。我們總共使用180個模型來報告測試集的結果(關於整體尺寸的消融,請參閱附錄B)。我們使用中值作為集合聚合函式。

表1:M4、M3、TOURISM測試集的效能,在每個資料集上彙總。為每個資料集指定了評估指標;值越低越好。括號中提供了每個資料集中時間序列的數量。

image-20240311173152702

4. 相關工作

TS預測的方法可以分為幾個不同的類別。基於指數平滑及其不同風格的統計建模方法已經建立起來,並且通常被認為是行業中的預設選擇(Holt,1957;2004;Winters,1960)。指數平滑的更高階變體包括M3競爭的獲勝者,Theta方法(Assimakopoulos&Nikolopoulos,2000),該方法將預測分解為幾個θ線,並將它們進行統計組合。統計方法的頂峰包括ARIMA、自動ARIMA和一般的統一狀態空間建模方法,可用於解釋和分析上述所有方法(概述見Hyndman&Khandakar(2008))。最近,ML/TS組合方法開始滲透到該領域,並取得了巨大成功,透過使用統計引擎的輸出作為特徵,顯示出了有希望的結果。事實上,在M4比賽中排名前五的參賽作品中,有兩個是這種型別的方法,包括第二個參賽作品(Montero Manso et al.,2019)。第二個條目計算M4資料集上幾種統計方法的輸出,並使用梯度增強樹將其組合(Chen和Guestrin,2016)。在某種程度上獨立地,現代深度學習TS預測的工作是基於遞迴神經網路的變化發展起來的(Flunkert et al.,2017;Rangapuram et al.,2018b;Toubeau et al.,2019;Zia&Razzaq,2018)在很大程度上被多變數設定中的電力負荷預測所主導。一些早期的工作探索了遞迴神經網路與擴張、殘差連線和注意力的組合(Chang et al.,2017;Kim等人,2017;秦等人,2017)。這些都是M4比賽獲勝者的基礎(Smyl,2020)。獲勝的條目結合了Holt-Winters風格的季節性模型,其引數透過梯度下降和每個預測範圍的膨脹/殘差/注意力方法的獨特組合擬合到給定的TS。由此產生的模型是一個混合模型,在架構上嚴重依賴於時間序列引擎。它是針對M4的每個特定領域手工製作的,這使得這種方法很難推廣到其他資料集

5. 實驗結果

我們基於幾個資料集的總體效能指標的關鍵實證結果——M4(M4團隊,2018b;Makridakis等人,2018b)、M3(Makridakis&Hibon,2000;Makridakis等人,2018a)和旅遊(Athanasopoulos等人,2011)——如表1所示。第5.1節和附錄A提供了資料集的更詳細描述。對於每個資料集,我們將我們的結果與文獻中報告的該資料集的最佳5個條目進行比較,根據每個資料集特有的習慣指標(M4:OWA和sMAPE,M3:SMAP E,TOURISM:MAPE)。更精細的資料集特定結果以及預測範圍和時間序列型別的資料劃分出現在各自的附錄中(M4:附錄C.1;M3:附錄C.2;旅遊:附錄C.3)。

在表1中,我們研究了兩種N-BEATS配置的效能:通用的(N-BEATS-G)和可解釋的(N-BEATS-I),以及N-BEATS-I+G(來自N-BEATS-G和N-BEATS-I的所有模型的集合)。在M4資料集上,我們與來自M4競爭的5個代表進行了比較(Makri-dakis et al.,2018b):每個代表在各自的模型類別中都是最好的。純ML是B.Trotta提交的,是6個純ML模型中最好的一個。統計是N.Z.Legaki和K.Koutsouri的最佳純統計模型。ML/TS組合是P.Montero-Manso、T.Talagala、R.J.Hyndman和G.Athanasopoulos的模型,在一些統計時間序列模型上排名第二,梯度增強樹。ProLogistica是M4中基於統計方法加權集合的第三個條目。最後,DL/TS混合動力是M4比賽的獲勝者(Smyl,2020)。在M3資料集上,我們與M3的獲勝者Theta方法(Assimakopoulos&Nikolopoulos,2000)進行了比較;DOTA,一種動態最佳化的Theta模型(Fiorucci等人,2016);EXP,最新的統計方法和之前M3的最先進技術(Spiliotis等人,2019);以及ForecastPro,一種現成的預測軟體,基於指數平滑、ARIMA和移動平均之間的模型選擇(Athanasopoulos等人,2011;Assimakopoulos和Nikolopoulos,2000年)。在旅遊資料集上,我們與3個統計基準進行了比較(Athanasopoulos et al.,2011):ETS,具有交叉驗證的加法/乘法模型的指數平滑;Theta方法;ForePro,與M3中的ForecastPro相同;以及旅遊Kaggle競賽的前兩名參賽作品(Athanasopoulos&Hyndman,2011):Stratometrics,一種未知的技術;LeeCBaker(Baker&Howard,2011),Naïve、線性趨勢模型和指數加權最小二乘迴歸趨勢的加權組合。

根據表1,N-BEATS在三個具有挑戰性的非重疊資料集上展示了最先進的效能,這些資料集包含來自非常不同領域的時間序列、取樣頻率和季節性。例如,在M4資料集上,N-BEATS和M4獲勝者之間的OWA差距(0.821−0.795=0.026)大於M4獲勝者和第二個條目之間的差距(0.838−0.821=0.017)。通用N-BEATS模型使用盡可能少的先驗知識,沒有功能工程,沒有縮放,也沒有可能被認為是TS特定的內部架構元件。因此,表1中的結果使我們得出結論,DL不需要統計方法或手工製作的特徵工程和領域知識的支援,就可以在廣泛的TS預測任務中表現得非常好。除此之外,所提出的通用架構在三個不同的資料集上表現非常好,優於各種各樣的模型,包括對各自資料集的通用和手動構建的模型,其中包括M4的獲勝者,該模型在架構上手動調整為M4資料的每個預測範圍子集。

5.1資料集

M4(M4團隊,2018b;Makridakis等人,2018b)是自1982年以來Spyros-Makridakis組織的一系列有影響力的預測比賽中的最新一場(Makridaki斯等人,1982)。100k系列資料集龐大而多樣,由商業、金融和經濟預測中經常遇到的資料組成,取樣頻率從每小時到每年不等。附錄A.1中提供了一個彙總統計表,顯示了TS特性的廣泛可變性。

M3(Makridakis&Hibon,2000)在組成上與M4相似,但總體規模較小(總時間序列為3003,而M4為100k)。附錄A.2提供了一個彙總統計表。在過去的20年裡,該資料集支援了在設計更最佳化的統計模型方面的重大努力,例如Theta及其變體(Assimakopoulos&Nikolopoulos,2000;Fiorucci等人,2016;Spiliotis等人,2019)。此外,最近一份基於M3子集的出版物(Makridakis et al.,2018a)提供了ML模型不如經典統計模型的證據。

旅遊(Athanasopoulos et al.,2011)資料集是作為Athanasoopoulos和Hyndman(2011)各自舉辦的Kaggle比賽的一部分發布的。資料包括政府旅遊機構(例如澳大利亞旅遊局、香港旅遊發展局和紐西蘭旅遊局)以及在以往研究中使用過這些資料的學者提供的月度、季度和年度資料。附錄A.3中提供了一個彙總統計表。

5.2 訓練方法

我們將每個資料集劃分為訓練、驗證和測試子集。測試子集是之前為每個資料集定義的標準測試集(M4 Team,2018a;Makridakis和Hibon,2000;Athanasopoulos等人,2011年)。每個資料集的驗證和訓練子集是透過在每個時間序列的最後一個地平線的邊界分割它們的完整訓練集來獲得的。我們使用訓練和驗證子集來調整超引數。一旦確定了超引數,我們就在完整的訓練集上訓練模型,並在測試集上報告結果。有關塊級別的詳細超引數設定,請參閱附錄D。N-BEATS是在Tensorflow中實現和訓練的(Abadi等人,2015)。我們在各個範圍內共享網路的引數,因此我們為每個資料集在每個範圍內訓練一個模型。如果每個時間序列都被解釋為一個單獨的任務,這可以與多工學習聯絡起來,還可以與元學習聯絡起來(見第6節的討論),在元學習中,透過對多個任務的學習來正則化神經網路,以提高泛化能力。我們想強調的是,不同層次和資料集的模型重用相同的體系結構。體系結構超引數(寬度、層數、堆疊數量等)在各個層次和資料集中固定為相同的值(見附錄D)。事實上,我們可以跨領域重用體系結構甚至超引數,這表明所提出的體系結構設計在不同性質的時間序列中都能很好地推廣。在具有48k時間序列的M4 Monthly子集和具有174時間序列的M3 Others子集上成功地訓練了相同的體系結構。這是一個比S.Smyl(Makridakis et al.,2018b)的結果更強的結果,後者不得不使用為不同層位手工製作的非常不同的架構。

為了更新一個地平線的網路引數,我們對固定大小為1024的訓練批次進行取樣。我們從這個範圍中選擇1024個TS ID,均勻地隨機替換。對於每個選定的TS id,我們從緊接在TS的列車部分中的最後一個點之前的長度LH的歷史範圍中選擇一個隨機預測點。LH是一個交叉驗證的超引數。我們觀察到,對於具有大量時間序列的子集,它往往較小,而對於具有較少時間序列的子集,它往往較大。例如,在海量的Yearly、Monthly、Quarterly子集中,M4 LH等於1.5;並且在中等到小的每週、每天、每小時M4 LH的子集等於10。給定一個取樣的預測點,我們將其後面的一個水平點設定為目標預測視窗y,並設定長度2H、3H、…之一的點的歷史,前面的7H是網路的輸入x。我們使用預設設定和初始學習率為0.001的Adam最佳化器。在依靠sMAPE度量的最小化來最佳化系綜成員的同時,我們停止分母中的梯度流,以使訓練在數值上穩定。神經網路訓練在提前停止的情況下執行,並在驗證集上確定批次數量。根據神經網路設定和硬體,對整個M4資料集的一個集合成員進行基於GPU的訓練需要30分鐘到2小時。

5.3 可解釋性結果

圖2研究了所提出的模型在通用配置和可解釋配置中的輸出。如第3.3節所述,為了使圖1中所示的通用架構可解釋,我們將第一個堆疊中的gθ約束為多項式(2)的形式,而第二個堆疊具有傅立葉基(3)的形式。此外,我們使用N-BEATS的通用配置的輸出作為控制組(圖1中所示的30個殘差塊的通用模型分為兩個堆疊),並在圖2中並排繪製通用(字尾“-G”)和可解釋(字尾“-I”)堆疊輸出。通用模型的輸出是任意的且不可解釋的:趨勢性或季節性或兩者都存在於兩個堆疊的輸出中。輸出的幅度(峰到峰)通常在第二堆疊的輸出處較小。可解釋模型的輸出表現出不同的特性:趨勢輸出是單調的且緩慢移動的,季節性輸出是有規律的、週期性的且具有反覆波動。如果時間序列中存在顯著的季節性,則季節性輸出的峰峰值顯著大於趨勢的峰峰值。類似地,當地面實況訊號中不存在明顯趨勢時,趨勢輸出的峰峰值往往較小。因此,所提出的可解釋架構將其預測分解為兩個不同的元件。我們的結論是,DL模型的輸出可以透過在體系結構中對可感知的電感偏差進行編碼來進行解釋。表1證實,這不會導致效能下降。

6. 討論:與元學習的聯絡

元學習定義了內部學習過程和外部學習過程。內部學習過程被外部學習過程引數化、條件化或以其他方式影響(Bengio等人,1991)。典型的內部學習與外部學習是動物一生中的個體學習與內部學習過程本身在多代個體中的進化。為了瞭解這兩個水平,通常有助於參考兩組引數,即在內部學習過程中修改的內部引數(例如突觸權重)和僅在外部學習過程中被修改的外部引數或元引數(例如基因)。

image-20240311174427305

圖2:通用和可解釋配置的輸出,M4資料集。每行是每個資料頻率從上到下的一個時間序列示例(年度:id Y3974,季度:id Q11588,月度:id M19006,每週:id W246,每日:id D404,每小時:id H344)。為了方便起見,一行中的幅度透過實際時間序列的最大值進行歸一化。列(a)顯示了實際值(actual)、通用模型預測(forecast-G)和可解釋模型預測(forecast-I)。列(b)和(c)分別示出了通用模型的堆疊1和堆疊2的輸出;FORECAST-G是它們的總和。列(d)和(e)分別顯示了可解釋模型的趨勢堆疊和季節堆疊的輸出;預測一是他們的總結。

N-BEATS可以透過繪製以下對比圖來作為元學習的一個例子。外部學習過程被封裝在整個網路的引數中,透過梯度下降進行學習。內部學習過程被封裝在一組基本構建塊中,並修改基g f作為輸入的展開係數θf。內部學習透過一系列階段進行,每個階段對應於體系結構堆疊中的一個塊。每個塊都可以被認為是執行更新步驟的等價物,該更新步驟逐漸修改擴充套件係數θf,最終將其輸入到每個塊中的g f中(將其相加以形成最終預測)。內部學習過程從TS中提取一段歷史,並將該歷史視為一個訓練集。它產生前向展開係數θf(見圖1),將輸入引數對映到預測。此外,每個前一塊透過產生後向展開係數θb來修改下一塊的輸入,從而調節下一個塊的學習和輸出。在可解釋模型的情況下,元引數僅在FC層中,因為g f是固定的。在通用模型的情況下,元引數還包括非引數地定義g f的V。附錄B中報告的消融研究結果進一步強化了這一觀點,表明增加堆疊中的塊數和堆疊數可以提高泛化效能,並可以解釋為內部學習過程的更多迭代。

7. 結論

我們提出並實證驗證了一種新的單變數TS預測體系結構。我們證明了該體系結構是通用的、靈活的,並且在一系列TS預測問題上表現良好。我們將其應用於三個不重疊的具有挑戰性的競爭資料集:M4、M3和TOURISM,並在兩種配置中展示了最先進的效能:通用和可解釋。這使我們能夠驗證兩個重要的假設:(i)通用DL方法在不使用TS領域知識的情況下對異構單變數TS預測問題表現得非常好,(ii)額外約束DL模型以迫使其將預測分解為不同的人類可解釋輸出是可行的。我們還證明了DL模型可以在多個時間序列上以多工的方式進行訓練,成功地轉移和共享個人學習。我們推測,N-BEATS的表現可以部分歸因於它進行了一種形式的元學習,對其進行更深入的研究應該是未來工作的主題。

相關文章