AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者曾秋皓,加拿大西安大略大學計算機系博士研究生,本科畢業於哈爾濱工業大學,碩士畢業於新加坡國立大學。在王博予教授和凌曉峰院士的指導下,博士期間主要圍繞隨時間變化的分佈的問題展開理論、方法和應用的研究。目前已在 ICLR/AAAI/IEEE TNNLS 發表多篇學術論文。
個人主頁:https://hardworkingpearl.github.io/
在現實世界的機器學習應用中,隨時間變化的分佈偏移是常見的問題。這種情況被構建為時變域泛化(EDG),目標是透過學習跨領域的潛在演變模式,並利用這些模式,使模型能夠在時間變化系統中對未見目標域進行良好的泛化。然而,由於 EDG 資料集中時間戳的數量有限,現有方法在捕獲演變動態和避免對稀疏時間戳的過擬合方面遇到了挑戰,這限制了它們對新任務的泛化和適應性。
為了解決這個問題,我們提出了一種新的方法 SDE-EDG,它透過連續插值樣本收集資料分佈的無限細分網格演變軌跡(IFGET),以克服過擬合的問題。此外,透過利用隨機微分方程(SDEs)捕獲連續軌跡的固有能力,我們提出了將 SDE 建模的軌跡透過最大似然估計與 IFGET 的軌跡對齊,從而實現捕獲分佈演變趨勢。
論文標題:Latent Trajectory Learning for Limited Timestamps under Distribution Shift over Time
論文連結:https://openreview.net/pdf?id=bTMMNT7IdW
專案連結:https://github.com/HardworkingPearl/SDE-EDG-iclr2024
方法
核心思想
為了克服這一挑戰,SDE-EDG 提出了一種新穎的方法,透過構建無限細分網格演變軌跡(Infinitely Fined-Grid Evolving Trajectory, IFGET),在潛在表示空間中建立連續插值樣本,以彌合時間戳之間的間隔。此外,SDE-EDG 利用隨機微分方程(Stochastic Differential Equations, SDEs)的內在能力來捕捉連續的軌跡動態,透過路徑對齊正則化器將 SDE 建模的軌跡與 IFGET 對齊,從而實現跨域捕獲演變分佈趨勢。
方法細節
1. 構建 IFGET:
首先,SDE-EDG 在潛在表示空間中為每個樣本建立樣本到樣本的對應關係,收集每個個體樣本的演變軌跡。對於時刻的每個類別 k 的任一樣本,我們搜尋時刻在特徵空間離其最近的為其在的對應樣本:
這裡是計算兩個向量之間的距離,是從下個領域取樣的個樣本的集合。
然後,利用這種對應關係生成連續插值樣本,旨在連線時間戳間隔之間的時間間隙,避免對稀疏時間戳的過擬合,
這裡取樣自 Beta 分佈。透過收集透過以上方式產生的樣本的時序軌跡,我們得到 IFGET。
2. 使用 SDE 建模軌跡:
SDE-EDG 採用神經 SDE 來模擬資料在潛在空間中的連續時間軌跡。與傳統的基於離散時間戳的模型不同, SDE 天然適合於模擬連續的時間軌跡。SDE-EDG 建模了時序軌跡,可以透過時刻的樣本預測任意未來時刻的樣本:
這裡特徵空間變數是由時刻的樣本預測得到,是 drift function,是 diffusion function。
3. 路徑對齊與最大似然估計:
SDE-EDG 透過最大化 IFGET 的似然估計來訓練模型,
最終訓練函式是,第一項是預測分類任務誤差損失函式。
4. 實驗
下表展示了 SDE-EDG 與其他基線方法在多個資料集上分類準確率的比較。這些資料集包括 Rotated Gaussian (RG), Circle (Cir), Rotated MNIST (RM), Portraits (Por), Caltran (Cal), PowerSupply (PS), 和 Ocular Disease (OD)。結果顯示,SDE-EDG 在所有資料集上的平均準確率均優於其他方法。
下圖提供了一個直觀的比較,展示了 SDE-EDG 演算法(左)與傳統 DG 方法 IRM(右)在特徵表示方面的差異。透過資料特徵空間的視覺化,我們可以觀察到 SDE-EDG 學習到的特徵表示具有明顯的決策邊界,其中不同類別的資料點被清晰地區分開來,以不同形狀表示,並且不同域的資料以彩虹條的顏色區分。這表明 SDE-EDG 能夠成功捕捉資料隨時間演變的動態,並在特徵空間中保持類別的可分性。相比之下,IRM 的特徵表示則傾向於將資料點坍縮到單一方向,導致決策邊界不明顯,這反映出 IRM 在捕捉時變分佈趨勢方面的不足。
下圖透過一系列子圖深入展示了 SDE-EDG 演算法在捕捉資料隨時間演變的能力方面的優勢。子圖 (a) 提供了 Sine 資料集的真實標籤分佈,其中正例和負例用不同顏色的點表示,為後續的比較提供了基準。接著,子圖 (b) 和 (c) 分別展示了基於 ERM 的傳統方法和 SDE-EDG 演算法對同一資料集的預測結果,透過對比可以看出 SDE-EDG 在捕捉資料演變模式上的明顯優勢。子圖 (d) 和 (e) 進一步揭示了 SDE-EDG 學習到的演變路徑,其中 (d) 展示了應用了路徑對齊損失(最大似然損失函式)後的路徑,而 (e) 展示了未應用該損失時的路徑。透過這一對比,可以直觀地看到路徑對齊損失對於確保模型能夠正確捕捉和表徵資料隨時間變化的重要性。
下圖子圖 (a) 展示了在 Portraits 資料集上,使用不同演算法進行訓練時的準確率收斂軌跡。這個子圖提供了一個直觀的視角,用以比較 SDE-EDG 演算法與其他基線方法(如 ERM、MLDG、GI)在訓練過程中效能的變化情況。透過觀察訓練準確率隨時間推移的增長趨勢,我們可以評估不同演算法的學習能力和收斂速度。SDE-EDG 演算法的收斂軌跡尤其值得關注,因為它揭示了該演算法在適應不斷演變的資料分佈時的效率和穩定性。
下圖子圖 (b) 和 (c) 分別展示了 RMNIST 和 Circle 資料集上,SDE-EDG 演算法在這些資料集上的表現顯示出其在處理時變分佈時的優越性,即使在面對較大時間跨度的目標域時,也能保持較高的準確率,這表明了 SDE-EDG 演算法在捕捉和適應資料演變模式方面的強大能力。
下圖子圖 (d) 和 (e) 探討了最大似然損失(Maximum Likelihood Loss)在 RMNIST 和 PowerSupply 資料集上對 SDE-EDG 效能的影響。透過改變正則化權重 α 的值,這兩個子圖展示了不同 α 設定對模型效能的具體影響。實驗結果表明,適當的 α 值可以顯著提高 SDE-EDG 在特定資料集上的效能,這強調了在實際應用中根據資料集特性和任務需求調整超引數的重要性。
結論
論文作者提出了一種新的 SDE-EDG 方法,用於建模時變域泛化(EDG)問題。方法涉及透過識別樣本到樣本的對應關係並生成連續插值樣本來構建 IFGET。隨後,作者採用隨機微分方程(SDE)並將其與 IFGET 對齊進行訓練。文章的貢獻在於揭示了透過收集個體的時間軌跡來捕獲演變模式的重要性,以及在時間間隔之間進行插值以減輕源時間戳數量有限的問題,這有效地防止了 SDE-EDG 對有限時間戳的過擬合。