AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文由 Salesforce、新加坡國立大學、香港科技大學(廣州)共同完成。其中,第一作者柳旭是 Salesforce 亞洲研究院實習生、新加坡國立大學計算機學院四年級博士生。通訊作者劉成昊是 Salesforce 亞洲研究院高階科學家。該工作的短文版本已被 NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收。
時間序列預測是人類理解物理世界變化的重要一環。自去年底以來,時序預測領域正在經歷重大轉型,從傳統的「單一資料集訓練單一模型」的模式逐步轉向「通用預測基礎模型」。目前雖然有不少基礎模型已經提出,但如何有效地在高度多樣化的時序資料上訓練基礎模型仍是一個開放問題。
近期,來自 Salesforce、新加坡國立大學、香港科技大學(廣州)的研究者以模型專家化這一全新視角作為抓手,設計並提出了下一代時序預測基礎模型 Moirai-MoE。該模型將模型專業化設計在 token 這一細粒度執行,並且以完全自動的資料驅動模式對其賦能。模型效能方面,不同於僅在少量資料集上進行評估的已有時序基礎模型,Moirai-MoE 在一共 39 個資料集上進行了廣泛評估,充分驗證了其優越性。
論文標題:Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts
論文地址:https://arxiv.org/abs/2410.10469
程式碼倉庫:https://github.com/SalesforceAIResearch/uni2ts
研究動機
訓練通用基礎模型的一大挑戰在於適應時間序列資料的高度異質性,這種時序資料的獨特特性凸顯了設計專業化模組的必要性。現有的解決方案主要分為兩種。第一種是透過基於語言的提示來識別資料來源,從而實現非常粗粒度的資料集級別模型專業化。第二種方案利用了時序資料的頻率這一元特徵實現了更細粒度的專業化:該方法為特定頻率設計單獨的輸入 / 輸出投影層,從而實現特定頻率的模型專業化。
作者認為,這種人為強加的頻率級專業化缺乏普適性,並引入了一些侷限性。(1)頻率並不總是一個可靠的指標,無法有效地捕捉時序資料的真實結構。如下圖所示,具有不同頻率的時間序列可以表現出相似的模式,而具有相同頻率的時間序列可能顯示出多樣且不相關的模式。這種人為強加的頻率和模式之間的不匹配削弱了模型專業化的有效性,從而導致效能下降。(2)現實世界的時間序列本質上是非平穩的,即使在單個時間序列的短視窗內也會顯示出不同的分佈。顯然,頻率級專業化的粒度無法捕捉這種程度的多樣性,這凸顯了對更細粒度的建模方法的需求。
為了解決上述問題,作者提出了全新的時間序列統一訓練解決方案 Moirai-MoE,其核心思想是利用單個輸入 / 輸出投影層,同時將各種時間序列模式的建模委託給 Transformer 層中的稀疏混合專家。透過這些設計,Moirai-MoE 的專業化以資料驅動的方式實現,並在 token 級別執行。
基於稀疏混合專家的時序基礎模型
Moirai-MoE 構建在它的前序工作 Moirai 之上。雖然 Moirai-MoE 繼承了 Moirai 的許多優點,但其主要改進在於:Moirai-MoE 不使用多個啟發式定義的輸入 / 輸出投影層來對具有不同頻率的時間序列進行建模,而是使用單個輸入 / 輸出投影層,同時將捕獲不同時間序列模式的任務委託給 Transformer 中的稀疏混合專家。此外,Moirai-MoE 提出了一種新型的利用預訓練模型中知識的門控函式,並採用自迴歸的訓練目標來提高訓練效率。下面簡要介紹 Moirai-MoE 的模組。
1. 時序 Token 構造
Moirai-MoE 採用切塊(patching)技術將時間序列輸入切成沒有重疊的小塊,而後對小塊進行標準化來緩解分佈遷移的問題。為了在自迴歸模型中獲取準確、魯棒的標準化統計值,作者引入掩蔽率 r 作為超引數,它指定整個序列中專門用於正則化器計算的部分,不對這些 patch 計算預測損失。最後,一個輸入投影層來負責把 patch 投影到和 Transformer 一樣的維度,生成時序 token。
2. 稀疏混合專家 Transformer
透過用 MoE 層替換 Transformer 的每個 FFN 來建立專家混合層。該 MoE 層由 M 個專家網路和一個門控函式 G 組成。每個 token 只啟用一個專家子集,從而允許專家專注於不同模式的時間序列資料並確保計算效率。在 Moirai-MoE 中,作者探索了不同的門控函式。首先使用的是最流行的線性投影門控函式,它透過一個線性層來生成專家子集的分配結果。此外,作者提出了一種新的門控機制,利用從預訓練模型的 token 表示中得出的聚類中心來指導專家分配。這一方法的動機是,與隨機初始化的線性投影層相比,預訓練 token 表示的聚類更接近資料的真實分佈,可以更有效地實現模型專業化。