ICLR 2025 | 讓大模型更懂時序的語境對齊來了!效能更優開銷更低

机器之心發表於2025-02-28
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


大語言模型在迅速發展的同時,也展現了其在下游任務中的卓越效能,這主要得益於豐富多樣的大型語料訓練庫,使大語言模型掌握了一定的跨領域、跨任務的知識。

近兩年,越來越多的研究工作利用預訓練的大語言模型來構建時間序列分析模型。透過微調大語言模型,使其能夠理解陌生的時序資料,進而啟用其在時序分析任務中的能力。

近期,來自東方理工大學、香港理工大學和上海交通大學的研究團隊提出了一種新的模態對齊正規化 —— 語境對齊(Context-Alignment)。該方法將時間序列資料對齊到大語言模型熟悉的語言環境中,幫助模型更好地理解時間序列,從而啟用其在時序分析方面的能力。該論文已被 ICLR 2025 會議接收。
圖片
  • 論文標題:Context-Alignment: Activating and Enhancing LLMs Capabilities in Time Series
  • 論文連結:https://openreview.net/forum?id=syC2764fPc
  • 程式碼連結:https://github.com/tokaka22/ICLR25-FSCA

以往的微調方法往往依賴於一個詞庫,透過各種方式將時序資料的 token 嵌入與詞庫中的詞彙(例如 rise、fall、periodic、short 等)的 token 嵌入進行對齊,也就是說將大語言模型陌生的時序資料嵌入轉化為其熟悉的語言嵌入。此前研究希望透過這種「詞對齊」的方式幫助大語言模型理解時序資料,進而啟用其在時序分析上的能力。

然而,這種依賴詞庫的對齊方式通常需要較大的計算開銷,且是否能有效地幫助大語言模型理解時序資料還有待商榷。

語境對齊(Context-Alignment)

本文指出,大語言模型在處理語言時的能力更多源於其對語言邏輯和結構的深刻理解,而不僅僅是對詞彙模式的表面對齊。因此,作者認為,即使使用精準的詞彙來表達冗長的時間序列資料,這種方式也只是大量詞彙嵌入的堆疊,缺乏語言的邏輯和結構,使得大語言模型難以真正理解其中的含義。

本文中,作者基於語言學中關於邏輯結構的層次關係,提出了語境對齊正規化(Context-Alignment)。他們希望將時間序列資料融入自然語言的語境中,使大語言模型能夠將時序資料整體視為一個語言成分,並透過上下文自主地理解時間序列

雙尺度語境對齊圖結構

考慮到圖結構往往可以很好地表達邏輯和結構的關係,作者在時序資料和自然語言 prompt 的多模態輸入上構建了雙尺度圖結構,以實現語境對齊。

具體來說,作者利用雙尺度的圖節點來描述語言結構的層次劃分,在保證資訊不丟失的前提下,將冗長的時序資料表達為一個整體,這就好像英語中的賓語從句,從句整體充當了一個語言成分,冗長的時序資料也應該被視為輸入中的一個整體成分。利用有向邊表達時序和 prompt 輸入之間的邏輯關係。從而將時序資料對齊到大語言模型熟悉的語境中。

雙尺度圖結構包括細粒度圖結構粗粒度圖結構,其中:
  • 細粒度圖結構將每個 token 視為一個節點,強調 token 之間的相互獨立性,保留時序的具體資訊。透過兩個線性層(如圖 1 中所示的圖片圖片),將連續且冗長的時序資料嵌入和 prompt 嵌入分別對映為兩種粗粒度節點。

  • 粗粒度圖結構將連續的、模態一致的 tokens 對映為一個節點,表示了模態的整體性。

根據 prompt 的內容,在粗粒度和細粒度圖中構建表示邏輯關係的有向邊(有向邊表示資訊的傳遞方向)。例如,當 prompt 為「predict future sequences using previous data」時,有向邊由表示「previous data」的時序節點指向 prompt 節點,因為時序資料是 prompt 的資訊來源。粗粒度有向邊是細粒度有向邊的簡化。

雙尺度圖結構顯式地體現了時序資料和自然語言 prompt 之間的語言層級結構和邏輯傳遞關係。粗粒度圖結構和細粒度圖結構在經過圖卷積網路(GCN)對節點嵌入進行更新後,透過一個可學習的互動機制(根據圖 1 中的圖片和分配矩陣計算,參考原文公式 4),使粗粒度節點能夠向細粒度節點傳遞更新後的資訊,細粒度節點在完成自己的更新後整合來自粗粒度節點的資訊。最後,粗粒度節點和細粒度節點嵌入將分別輸入預訓練的大語言模型。

就其效果而言,該雙尺度圖結構可以嵌入至大語言模型的任意層,並可多次使用,以強化大語言模型對語境對齊的記憶能力。
圖片 圖 1 雙尺度語境對齊圖結構

VCA 和 FSCA

由於不同的 prompt 內容對應不同的邏輯結構關係,因此雙尺度語境對齊圖結構依賴於具體的 prompt 內容。作者提出了兩種使用雙尺度語境對齊圖結構的具體方法。

1. Vanilla Context-Alignment(VCA)

VCA 是最直接的實現方式,其輸入模式為時序資料 + prompt。例如,在預測任務中,prompt 為「predict future sequences using previous data」,其圖結構如圖 1 中的 VCA 所示。在分類任務中,輸入為「時序資料 + Predict category using previous data」,其圖結構與預測任務相同。VCA 利用最簡單直接的 prompt,透過雙尺度圖結構實現語境對齊。

2. Few-Shot Context-Alignment(FSCA)

FSCA 是 VCA 的進階版本,結合了 Few-Shot prompting 技術以進一步提升效能。該方法的輸入包括例子 + 時序資料 + prompt。在預測任務中,prompt 依然為「predict future sequences using previous data」,但需要將原始歷史時序資料分成兩部分構建一個例子:前半段資料作為後半段資料的歷史輸入,後半段資料作為利用前半段資料預測的 ground truth。這一示例有助於大語言模型更好地理解預測任務。其圖結構如圖 1 中的「FSCA in TS Forecasting」所示。

圖 2 展示了 FSCA 作為一個即插即用的模組被引入到預訓練的大語言模型中進行微調。在分類任務中,FSCA 需要抽取一組時序資料和其對應的標籤構成一個固定的例子,再進行分類預測。其圖結構如圖 1 中的「FSCA in TS Classification」所示。
圖片
圖 2 利用 FSCA 進行時序預測

主要實驗結果

各種任務上的表現

該研究展示了長期預測、短期預測、Few-Shot 預測、Zero-Shot 預測以及分類任務的實驗結果。

實驗表明,FSCA 在多個任務中均取得了更優的效能。尤其在 Few-Shot 預測和 Zero-Shot 預測中,FSCA 分別超越次優方法 6.7% 和 13.3%。FSCA 在 Few-Shot 和 Zero-Shot 預測任務中的出色表現表明,雙尺度圖結構成功引入了基於邏輯結構的先驗知識。這進一步驗證了正確的結構劃分和邏輯引導對於大語言模型(LLM)理解時序資料的重要性。
圖片
表 1 長期預測結果對比
圖片
表 2 短期預測結果對比
圖片
表 3 Few-shot 預測結果對比
圖片
表 4 Zero-shot 預測結果對比
圖片
圖 3 分類結果對比

計算效率對比

所提出的 FSCA 在計算效率方面僅次於 GPT4TS(該方法僅在 LLM 的輸入和輸出階段加入了線性層)。

相比之下,其他流行方法在實現詞 token 對齊時往往需要付出較大的計算代價。此外,這些方法通常包含額外的操作。例如,Time-LLM 在每次迭代中都會重複生成提示並檢索相應的嵌入,進一步增加了計算開銷。

相較而言,FSCA 中的雙尺度 GNN 僅引入了兩個可學習矩陣,以及兩個用於將細粒度節點嵌入轉化為粗粒度節點嵌入的可學習線性層。這些操作本質上是簡單的矩陣計算,極大地降低了計算複雜性。因此,FSCA 在計算效率上顯著優於以往基於詞 token 對齊的方法,在保證效能提升的同時有效減少了計算資源的消耗。
圖片
總結

綜上所述,本文首次提出了語境對齊(Context-Alignment)的概念,並基於雙尺度圖網路結構和 Few-Shot prompting 技術設計了 FSCA 模型。與以往流行的基於詞 token 對齊的方法相比,FSCA 在實現更優效能的同時顯著降低了計算開銷。此外,原文還提供了更為詳盡的消融實驗、分析實驗和對比實驗結果,全面驗證了 FSCA 的有效性和優勢。

相關文章