新視角設計下一代時序基礎模型,Salesforce推出Moirai-MoE

机器之心發表於2024-10-31

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由 Salesforce、新加坡國立大學、香港科技大學(廣州)共同完成。其中,第一作者柳旭是 Salesforce 亞洲研究院實習生、新加坡國立大學計算機學院四年級博士生。通訊作者劉成昊是 Salesforce 亞洲研究院高階科學家。該工作的短文版本已被 NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收。

時間序列預測是人類理解物理世界變化的重要一環。自去年底以來,時序預測領域正在經歷重大轉型,從傳統的「單一資料集訓練單一模型」的模式逐步轉向「通用預測基礎模型」。目前雖然有不少基礎模型已經提出,但如何有效地在高度多樣化的時序資料上訓練基礎模型仍是一個開放問題。

近期,來自 Salesforce、新加坡國立大學、香港科技大學(廣州)的研究者以模型專家化這一全新視角作為抓手,設計並提出了下一代時序預測基礎模型 Moirai-MoE。該模型將模型專業化設計在 token 這一細粒度執行,並且以完全自動的資料驅動模式對其賦能。模型效能方面,不同於僅在少量資料集上進行評估的已有時序基礎模型,Moirai-MoE 在一共 39 個資料集上進行了廣泛評估,充分驗證了其優越性。

圖片

  • 論文標題:Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts

  • 論文地址:https://arxiv.org/abs/2410.10469

  • 程式碼倉庫:https://github.com/SalesforceAIResearch/uni2ts

研究動機

訓練通用基礎模型的一大挑戰在於適應時間序列資料的高度異質性,這種時序資料的獨特特性凸顯了設計專業化模組的必要性。現有的解決方案主要分為兩種。第一種是透過基於語言的提示來識別資料來源,從而實現非常粗粒度的資料集級別模型專業化。第二種方案利用了時序資料的頻率這一元特徵實現了更細粒度的專業化:該方法為特定頻率設計單獨的輸入 / 輸出投影層,從而實現特定頻率的模型專業化。

作者認為,這種人為強加的頻率級專業化缺乏普適性,並引入了一些侷限性。(1)頻率並不總是一個可靠的指標,無法有效地捕捉時序資料的真實結構。如下圖所示,具有不同頻率的時間序列可以表現出相似的模式,而具有相同頻率的時間序列可能顯示出多樣且不相關的模式。這種人為強加的頻率和模式之間的不匹配削弱了模型專業化的有效性,從而導致效能下降。(2)現實世界的時間序列本質上是非平穩的,即使在單個時間序列的短視窗內也會顯示出不同的分佈。顯然,頻率級專業化的粒度無法捕捉這種程度的多樣性,這凸顯了對更細粒度的建模方法的需求。

圖片

為了解決上述問題,作者提出了全新的時間序列統一訓練解決方案 Moirai-MoE,其核心思想是利用單個輸入 / 輸出投影層,同時將各種時間序列模式的建模委託給 Transformer 層中的稀疏混合專家。透過這些設計,Moirai-MoE 的專業化以資料驅動的方式實現,並在 token 級別執行。

基於稀疏混合專家的時序基礎模型

Moirai-MoE 構建在它的前序工作 Moirai 之上。雖然 Moirai-MoE 繼承了 Moirai 的許多優點,但其主要改進在於:Moirai-MoE 不使用多個啟發式定義的輸入 / 輸出投影層來對具有不同頻率的時間序列進行建模,而是使用單個輸入 / 輸出投影層,同時將捕獲不同時間序列模式的任務委託給 Transformer 中的稀疏混合專家。此外,Moirai-MoE 提出了一種新型的利用預訓練模型中知識的門控函式,並採用自迴歸的訓練目標來提高訓練效率。下面簡要介紹 Moirai-MoE 的模組。

圖片

1. 時序 Token 構造

Moirai-MoE 採用切塊(patching)技術將時間序列輸入切成沒有重疊的小塊,而後對小塊進行標準化來緩解分佈遷移的問題。為了在自迴歸模型中獲取準確、魯棒的標準化統計值,作者引入掩蔽率 r 作為超引數,它指定整個序列中專門用於正則化器計算的部分,不對這些 patch 計算預測損失。最後,一個輸入投影層來負責把 patch 投影到和 Transformer 一樣的維度,生成時序 token。

2. 稀疏混合專家 Transformer

透過用 MoE 層替換 Transformer 的每個 FFN 來建立專家混合層。該 MoE 層由 M 個專家網路和一個門控函式 G 組成。每個 token 只啟用一個專家子集,從而允許專家專注於不同模式的時間序列資料並確保計算效率。在 Moirai-MoE 中,作者探索了不同的門控函式。首先使用的是最流行的線性投影門控函式,它透過一個線性層來生成專家子集的分配結果。此外,作者提出了一種新的門控機制,利用從預訓練模型的 token 表示中得出的聚類中心來指導專家分配。這一方法的動機是,與隨機初始化的線性投影層相比,預訓練 token 表示的聚類更接近資料的真實分佈,可以更有效地實現模型專業化。

3. 訓練目標

為了同時支援點預測和機率預測兩種預測模式,Moirai-MoE 的訓練目標設定為最佳化未來混合分佈的對數似然函式。

實驗效果

作者在 39 個資料集上的進行了廣泛測試評估來驗證 Moirai-MoE 的有效性。
圖片
上圖展示了在 Monash 基準中 29 個資料集上進行的分佈內預測評估。結果表明,Moirai-MoE 擊敗了所有競爭對手。相比前序工作 Moirai,Moirai-MoE 的提升幅度達到了 19%。與 Moirai 無法超越的基礎模型 Chronos 相比,Moirai-MoE 成功彌補了差距,並相比它少 65 倍啟用引數,這帶來了巨大的推理速度的優勢。
圖片
上表展示了在零樣本預測設定時,Moirai-MoE 在 10 個資料集上的點預測和機率預測的表現。Moirai-MoE-Base 取得了最佳的零樣本效能,甚至超越了 Google 的 TimesFM 和 Amazon 的 Chronos(他們在預訓練語料庫中已包含了部分評估資料,因此存在資料洩露)。與所有規模的 Moirai 相比,Moirai-MoE-Small 在 CRPS 方面提高了 3%-14%,在 MASE 方面提高了 8%-16%。考慮到 Moirai-MoE-Small 只有 11M 啟用引數(比 Moirai-Large 少 28 倍),這些進步是非常顯著的。
圖片
在這篇研究中,作者還對時序 MoE 基礎模型的內部工作機制進行了首次探索。上圖是對 Moirai-MoE 的專家分配分佈進行的視覺化。基於此,作者總結了以下觀點:

1. 在淺層中,不同頻率的資料在專家選擇的分佈上呈現多樣化。隨著層數的加深,模型將重點轉移到更通用的時間依賴性,例如更廣泛的趨勢和長期模式,這些依賴性可以在不同頻率之間共享。到最後一層(第 6 層),專家分配在所有頻率上變得幾乎相同,表明模型已將時間序列抽象為與頻率基本無關的高階表示。這一證據表明 Moirai-MoE 學習到了頻率不變的隱層表示,這對於模型泛化至關重要。

2. 隨著層數增加專家選擇逐漸收斂的行為與 Large Language Models 中觀察到的模式完全相反。這種分歧可能源於時間序列 token 的動態和噪聲特性,它們是由小時間視窗生成的,不像從固定詞彙表中派生的語言 token。研究結果表明,隨著層數增加,模型實際上是在進行逐步去噪過程。這一觀察結果與 GPT4TS 的結論一致:隨著層深度增加,token 會被投影到輸入的低維頂部特徵向量空間中。

更多實驗結果,可參考原論文。

相關文章