替代MLP的KAN,被開源專案擴充套件到卷積了

机器之心發表於2024-05-20

本月初,來自 MIT 等機構的研究者提出了一種非常有潛力的 MLP 替代方法 ——KAN。

KAN 在準確性和可解釋性方面表現優於 MLP,而且它能以非常少的引數量勝過以更大引數量執行的 MLP。比如,作者表示,他們用 KAN 以更小的網路和更高的自動化程度重現了 DeepMind 的結果。具體來說,DeepMind 的 MLP 有大約 300000 個引數,而 KAN 只有大約 200 個引數。

KAN 與 MLP 一樣具有強大的數學基礎,MLP 基於通用逼近定理,而 KAN 基於 Kolmogorov-Arnold 表示定理。

如下圖所示,KAN 在邊上具有啟用函式,而 MLP 在節點上具有啟用函式。KAN 似乎比 MLP 的引數效率更高,但每個 KAN 層比 MLP 層擁有更多的引數。

圖片

最近,有研究者將 KAN 創新架構的理念擴充套件到卷積神經網路,將卷積的經典線性變換更改為每個畫素中可學習的非線性啟用函式,提出並開源 KAN 卷積(CKAN)。

圖片

專案地址:https://github.com/AntonioTepsich/Convolutional-KANs替代MLP的KAN,被開源專案擴充套件到卷積了

KAN 卷積

KAN 卷積與卷積非常相似,但不是在核心和影像中相應畫素之間應用點積,而是對每個元素應用可學習的非線性啟用函式,然後將它們相加。KAN 卷積的核心相當於 4 個輸入和 1 個輸出神經元的 KAN 線性層。對於每個輸入 i,應用 ϕ_i 可學習函式,該卷積步驟的結果畫素是 ϕ_i (x_i) 的總和。

圖片

KAN 卷積中的引數

假設有一個 KxK 核心,對於該矩陣的每個元素,都有一個 ϕ,其引數計數為:gridsize + 1,ϕ 定義為:

圖片

這為啟用函式 b 提供了更多的可表達性,線性層的引數計數為 gridsize + 2。因此,KAN 卷積總共有 K^2(gridsize + 2) 個引數,而普通卷積只有 K^2。

初步評估

作者測試過的不同架構有:

  • 連線到 KAN 線性層的 KAN 卷積層(KKAN)

  • 與 MLP 相連的 KAN 卷積層(CKAN)

  • 在卷積之間進行批次歸一化的 CKAN (CKAN_BN)

  • ConvNet(連線到 MLP 的經典卷積)(ConvNet)

  • 簡單 MLP

圖片

作者表示,KAN 卷積的實現是一個很有前景的想法,儘管它仍處於早期階段。他們進行了一些初步實驗,以評估 KAN 卷積的效能。

值得注意的是,之所以公佈這些「初步」結果,是因為他們希望儘快向外界介紹這一想法,推動社群更廣泛的研究。

圖片

卷積層中列表每個元素都包含卷積數和相應的核心大小。

基於 28x28 MNIST 資料集,可以觀察到 KANConv & MLP 模型與 ConvNet(大)相比達到了可接受的準確度。然而,不同之處在於 KANConv & MLP 所需的引數數量是標準 ConvNet 所需的引數數量的 7 倍。此外,KKAN 的準確率比 ConvNet Medium 低 0.04,而引數數量(94k 對 157k)幾乎只有 ConvNet Medium 的一半,這顯示了該架構的潛力。我們還需要在更多的資料集上進行實驗,才能對此得出結論。

在接下來的幾天和幾周裡,作者還將徹底調整模型和用於比較的模型的超引數。雖然已經嘗試了一些超引數和架構的變化,但這只是啟發式的,並沒有採用任何精確的方法。由於計算能力和時間的原因,他們還沒有使用大型或更復雜的資料集,並正在努力解決這個問題。

未來,作者將在更復雜的資料集上進行實驗,這意味著 KANS 的引數量將會增加,因為需要實現更多的 KAN 卷積層。

結論

目前,與傳統卷積網路相比,作者表示並沒有看到 KAN 卷積網路的效能有顯著提高。他們分析認為,這是由於使用的是簡單資料集和模型,與嘗試過的最佳架構(ConvNet Big,基於規模因素,這種比較是不公平的)相比,該架構的優勢在於它對引數的要求要少得多。

在 2 個相同的卷積層和 KAN 卷積層與最後連線的相同 MLP 之間進行的比較顯示,經典方法略勝一籌,準確率提高了 0.06,而 KAN 卷積層和 KAN 線性層的引數數量幾乎只有經典方法的一半,準確率卻降低了 0.04。

作者表示,隨著模型和資料集複雜度的增加,KAN 卷積網路的效能應該會有所提高。同時,隨著輸入維數的增加,模型的引數數量也會增長得更快。

相關文章