揭示Transformer重要缺陷!北大提出傅立葉分析神經網路FAN,填補週期性特徵建模缺陷

机器之心發表於2024-11-10

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的通訊作者是北京大學計算機學院長聘教授李戈。第一作者:董益宏,北京大學計算機學院 22 級博士生,曾在 ISSTA、FSE、ACL、NeurIPS、TOSEM 等 CCF-A 類 / SCI 一區國際頂級會議和期刊上發表 11 篇學術論文。

週期性現象廣泛存在,深刻影響著人類社會和自然科學。作為最重要的基本特性之一,許多規律都顯式或隱式地包含週期性,例如天文學中的行星運動、氣象學中的季節變化、生物學中的晝夜節律、經濟學中的商業週期、物理學中的電磁波以及數學運算和邏輯推理等。因此,在許多工和場景中,人們希望對週期進行建模,以便根據以往的經驗進行推理。

儘管以 MLP 和 Transformer 為代表的基礎模型已經取得了顯著的成功,但是它們卻在週期性建模方面存在潛在的缺陷。即使面對簡單的正弦函式,現有基礎模型也難以理解其中的週期性規律,在外推時表現出完全失控的狀態,未能有效捕捉到週期性現象的本質。
圖片
圖 1:不同基礎模型在其訓練資料域內外對正弦函式的表現,其中 x 為標量。

為此,北京大學李戈教授的團隊提出了一種新型網路架構 FAN(Fourier Analysis Networks)。透過引入傅立葉級數的思想,FAN 能夠將週期性資訊直接嵌入網路的結構中,使模型更自然地捕捉和理解資料中的週期性模式。
圖片
  • 論文連結:https://arxiv.org/pdf/2410.02675.pdf
  • 程式碼連結:https://github.com/YihongDong/FAN
  • 論文標題:FAN: Fourier Analysis Networks

實驗表明,FAN 不僅在週期性建模上的表現顯著優於現有模型,而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現出色,超過了 Transformer 等主流模型。

研究者認為,許多實際任務都顯式或者隱式地包含潛在的週期性特徵,良好的週期性建模對於提升模型在這些任務上的表現是必要的,而現有基礎模型嚴重依賴資料驅動的最佳化方式,缺少明確的機制來理解資料中的根本原理。

FAN 的意義在於,它提供了一種全新的正規化來有效地建模週期性,能夠無縫替換傳統 MLP,同時減少引數量和計算量,填補了當前基礎模型在週期性建模上的缺陷,並展示出廣泛的應用潛力。
圖片
圖片
圖 2:MLP Layer 和 FAN Layer 的示例。

FAN 的實現細節

北大研究團隊首先構建一個簡單神經網路來建模傅立葉級數,然後在此基礎上設計了 FAN 網路架構。

為構建一個簡單的神經網路圖片表示函式的傅立葉級數展開,我們可以將圖片表示為:
圖片
其中圖片是可學習引數,(I) 根據圖片圖片透過定積分計算,(II) 和 (III) 是矩陣運算的等價形式,[・||・] 和 [・,・] 分別表示沿第一維度和第二維度的連線。為了充分利用深度學習的優勢,我們可以堆疊上述網路圖片形成深度神經網路圖片,其中第 i 層表示為圖片。因此, 圖片可以表示為:
圖片
其中圖片表示左側函式圖片作用於右側輸入圖片,即圖片。然而,我們發現直接堆疊圖片會導致模型圖片的主要引數集中於學習角頻率 (圖片),從而忽略了傅立葉係數 (圖片圖片) 的學習,如下所示:
圖片
其中圖片定義為圖片圖片用於近似角頻率,圖片用於近似傅立葉係數。因此,擬合傅立葉係數的能力與的深度無關,這是一個不理想的結果。

為了應對這一問題,研究團隊根據以下原則設計了 FAN:1) FAN 表示傅立葉係數的能力應與其深度正相關;2) 任何隱藏層的輸出都可以透過後續層使用傅立葉級數來建模週期性。第一個原則透過利用 FAN 的深度增強了其週期性建模的表現力,而第二個原則確保 FAN 中間層的特徵可用於執行週期性建模。

假設我們將圖片解耦為:
圖片其中
圖片
為了滿足這兩個原則,FAN 的中間層輸入需要同時使用圖片圖片而不是依次應用它們。

最終,FAN 基於此設計,其 FAN 層圖片定義如下:
圖片
其中圖片是可學習引數,圖片表示啟用函式。

整個 FAN 定義為 FAN Layer圖片的堆疊:
圖片
其中圖片
FAN 的效能表現

1. 週期建模

下圖 3 展示了 FAN 和其他模型在週期性建模中的表現。結果表明,現有的神經網路(包括 MLP、KAN 和 Transformers)在建模週期性方面表現出明顯的不足。儘管它們試圖擬合這些週期函式,但其內在能力限制了它們在大範圍週期性上的效能表現。相比之下,FAN 在所有這些週期性建模任務中都明顯優於基線。更值得一提的是,FAN 在訓練資料域內和域外的測試資料上都表現得非常出色,表明它能夠真正理解週期性的深刻原理並對其進行精準建模,而不僅僅是記住訓練資料。
圖片
圖 3 FAN 在週期性建模中的表現與 MLP、KAN 和 Transformer 相比,其中綠線表示訓練資料域內的測試資料,而藍線表示訓練資料域外的測試資料。

研究團隊還分析了不同模型在學習複雜週期函式任務上的訓練過程,如下圖 4 所示,結果如下:1)FAN 在收斂速度和最終效果方面都遠遠超過其他模型。2)與 FAN 相比,FAN (Gated) 通常可以實現更快的收斂,但最終效能仍然相當。3)隨著訓練輪數的增加,雖然其他模型的訓練損失變得穩定或逐漸減少,但它們的建模可能與測試資料的分佈有很大差異,導致測試損失急劇增加。這一現象進一步證明了這些模型在捕捉週期性方面的缺陷。
圖片
圖 4 不同模型在學習複雜週期函式任務上的訓練和測試損失比較

2. 符號公式表示

從不同模型應用於數學和物理學中四個常見函式的表現中可以觀察到,雖然 KAN 在引數數量較少時能與 FAN 相媲美,但隨著引數數量的增加,其效能會顯著下降。相反,隨著引數數量的增加,FAN 擬合這些函式始終優於其他基線,包括 MLP、KAN 和 Transformer,儘管這些函式中的許多隻是部分週期性的或完全非週期性的。這些結果表明,FAN 不僅增強了對週期性的建模能力,同時也沒有損害擬合非週期性函式的能力。
圖片
圖 5 不同模型在符號公式表示任務中不同引數量的表現

3. 時間序列預測

如下表 2 所示,研究團隊在四個公共資料集上比較了結合 FAN 的 Transformer 和其他序列模型在時間序列預測任務上的表現。

在大多數情況下,與 LSTM、Mamba 和標準 Transformer 相比,結合 FAN 和 FAN(Gated)的 Transformer 在這些任務上取得了最佳效能。它們相對於標準 Transformer 的改進是顯著的,平均相對改進範圍為 14.3%-15.0% 的 MSE 和 7.6%-7.9% 的 MAE。這些結果表明,在神經網路中加入顯式週期模式編碼可以提高實際應用中的時間序列預測效能。
圖片
4. 語言建模

研究者報告了不同序列模型在四種情緒分析資料集上的效能比較,如表 3 所示。可以發現,結合 FAN 和 FAN(Gated)的 Transformer 與標準 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表現出明顯優越的效能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 資料集上的零樣本跨領域表現。結合 FAN 的 Transformer 在損失和準確度方面分別實現了最 14.65% 和 8.50% 的相對改進,同時將引數數量減少了約 14.16M。結果表明週期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。
圖片
FAN 的表達能力和應用範圍

FAN 在理論上具有與 MLP 相同的表達能力,因為它也遵循通用近似定理,這確保了其函式近似能力。不同的是,FAN 透過明確納入週期性,引入了重要的功能增強,這是傳統 MLP 所不具備的。FAN 的這一設計,不僅全面繼承了 MLP 的既有優勢,還增強了其捕獲資料週期性特徵的能力。因此,FAN 可以作為 MLP 的有力替代品。

當然,FAN 的實用性不僅限於明確需要週期性建模的任務,在更廣泛的應用中也展現出強大的適用性。研究團隊透過一系列現實世界任務的實驗證明,如符號公式表示、時間序列預測和語言建模等,FAN 的表現明顯優於 MLP 和其他基線模型。

事實上,許多看似與週期性無直接關聯的機器學習任務,如數學運算和邏輯推理,實際上也可能隱藏著週期性。如果神經網路缺乏針對週期性特徵進行建模的能力,則可能會損害其學習效率。從更深層次的角度來看,週期性不僅僅是一種資料特徵,還反映了一種規律或知識,即允許抽象的規則和原理在不同上下文之間轉移和重用。

總結來看,FAN 與 MLP 相比,不僅增強了週期性建模能力,且引數量和計算量更少,有望成為基礎模型的關鍵組成部分。未來,北大研究團隊將進一步擴大 FAN 的應用範圍,增強其作為基礎模型元件的表現,持續推動基礎模型的技術進步與創新發展。

相關文章