號稱能打敗MLP的KAN到底行不行?數學核心原理全面解析

deephub發表於2024-05-08

前幾天火爆的Kolmogorov-Arnold Networks是具有開創性,目前整個人工智慧社群都只關注一件事LLM。我們很少看到有挑戰人工智慧基本原理的論文了,但這篇論文給了我們新的方向。

mlp或多層感知位於AI架構的最底部,幾乎是每個深度學習架構的一部分。而KAN直接挑戰了這一基礎,並且也挑戰了這些模型的黑箱性質。

也許你看到了很多關於KAN的報告,但是裡面只是簡單的描述性介紹,對於他的執行原理還是不清楚,所以我們這篇文章將涉及大量的數學知識,主要介紹KAN背後的數學原理。

KAN

Kolmogorov-Arnold Networks引入了一種基於Kolmogorov-Arnold表示定理的新型神經網路架構,為傳統的多層感知器(mlp)提供了一種有前途的替代方案。

mlp在節點(“神經元”)上有固定的啟用函式,而kan在邊緣(“權重”)上有可學習的啟用函式。kan根本沒有線性權重,每個權重引數都被引數化為樣條的單變數函式。這個看似簡單的改變使得KANs在準確性和可解釋性方面優於mlp。KANs是mlp的有希望的替代品,為進一步改進當今嚴重依賴mlp的深度學習模型提供了機會。

上面論文的原文,根據論文在資料擬合和PDE求解方面,更小的kan與更大的mlp相當或更好。所以kan可能比mlp擁有更快的神經縮放定律。並且KANs可以直觀地視覺化,大大提高了可解釋性。

論文圍繞函式逼近的Kolmogorov-Arnold表示定理的性質展開,這是這篇論文的全部前提。

表示定理基礎:函式被分解成更簡單的函式,然後使用神經網路進行近似。

平滑性和連續性:目標是確保原始多元函式的平滑性有效地轉化為神經網路近似。

空間填充曲線:函式跨維度的屬性,特別是關注在近似過程中如何保持連續性和其他函式屬性或轉換。

https://avoid.overfit.cn/post/6ee2307e614b462f9c9aac26ef12252d

相關文章