使神經網路更容易理解,促進科學發現,MIT劉子鳴團隊新架構

ScienceAI發表於2024-09-19
圖片

編譯 | 白菜葉

神經網路是目前人工智慧領域最強大的工具。」Perimeter Institute for Theoretical Physics 的研究員 Sebastian Wetzel 表示,「當我們將它們擴充套件到更大的資料集時,沒有什麼可以與之競爭。」

然而,一直以來,神經網路都存在一個缺點。當今許多成功網路的基本構建模組被稱為多層感知器(MLP)。但儘管取得了一系列成功,人類仍然無法理解基於這些 MLP 構建的網路是如何得出結論的,或者是否存在一些基本原理可以解釋這些結果。神經網路所表現出的能力就像魔術師一樣,都是秘密,隱藏在「黑匣子」裡。

人工智慧研究人員長期以來一直想知道不同型別的網路是否有可能以更透明的方式提供同樣可靠的結果。

2024 年 4 月的一項研究提出了一種替代神經網路設計,稱為 Kolmogorov-Arnold 網路(KAN),它更加透明,但對於某一類問題,它幾乎可以完成常規神經網路可以完成的所有事情。它基於 20 世紀中葉的一個數學思想,該思想在深度學習時代被研究人員重新認識。

圖片

論文連結:https://arxiv.org/abs/2404.19756

雖然這一創新僅有幾個月的歷史,但新設計已經引起了研究和編碼界的廣泛興趣。約翰霍普金斯大學電腦科學家 Alan Yuille 表示:「KAN 更易於解釋,可能特別適用於科學應用,因為它們可以從資料中提取科學規則。[它們是] 無處不在的 MLP 的一種令人興奮的新替代品。」

「實現不可能」

典型的神經網路的工作原理如下:人工神經元(或節點)的各層透過人工突觸(或邊)相互連線。資訊透過每一層,在那裡被處理並傳輸到下一層,直到最終成為輸出。邊是有權重的,因此權重較大的邊比其他邊具有更大的影響力。在一段稱為訓練的時間內,這些權重會不斷調整,以使網路的輸出越來越接近正確答案。

神經網路的一個常見目標是找到一個數學函式或曲線,以最佳方式連線某些資料點。網路越接近該函式,其預測就越好,結果就越準確。如果您的神經網路模擬某些物理過程,則輸出函式將理想地表示描述物理學的方程 - 相當於物理定律。

對於 MLP,有一個數學定理可以告訴你網路可以多接近最佳函式。這個定理的一個結果是 MLP 無法完美地表示該函式。

但在適當的情況下,KAN 可以。

KAN 進行函式擬合(連線網路輸出的點)的方式與 MLP 完全不同。KAN 不依賴具有數值權重的邊,而是使用函式。這些邊緣函式是非線性的,這意味著它們可以表示更復雜的曲線。它們也是可學習的,因此可以比 MLP 的簡單數值權重以更高的靈敏度進行調整。

然而在過去的 35 年裡,人們認為 KAN 從根本上來說不切實際。麻省理工學院物理學家、計算神經學家 Tomaso Poggio 在 1989 年的一篇論文中明確指出,KAN 核心的數學思想「與學習網路無關」。

論文連結:http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf

Poggio 的關注點之一可以追溯到 KAN 核心的數學概念。1957 年,數學家 Andrey Kolmogorov 和 Vladimir Arnold 在各自但互補的論文中表明,如果你有一個使用多個變數的單一數學函式,你可以將其轉換為多個函式的組合,每個函式都有一個變數。

然而,有一個重要的問題。該定理得出的單變數函式可能不「平滑」,這意味著它們可能具有像 V 的頂點一樣的尖銳邊。對於任何試圖使用該定理重新建立多變數函式的網路來說,這都是一個問題。更簡單的單變數部分需要平滑,以便它們能夠在訓練期間學會以正確的方式彎曲,以匹配目標值。

因此,KAN 的前景似乎並不樂觀——直到今年 1 月的一個寒冷的日子,麻省理工學院物理學研究生劉子鳴(Ziming Liu)決定重新審視這個課題。他和他的導師、麻省理工學院物理學家 Max Tegmark 一直致力於讓神經網路更易於理解,以用於科學應用——希望能夠讓人們一窺黑匣子內部——但事情並沒有進展。

無奈之下,劉子鳴決定研究一下 Kolmogorov-Arnold 定理。他問道:「為什麼不試一試,看看它是如何運作的,即使過去人們並沒有給予它太多關注?」

Tegmark 熟悉 Poggio 的論文,並認為這一努力將再次走向死衚衕。但劉子鳴沒有氣餒,Tegmark 很快就改變了主意。他們認識到,即使該定理生成的單值函式不平滑,網路仍然可以用平滑函式來近似它們。

他們進一步瞭解到,我們在科學中遇到的大多數函式都是平滑的,這使得完美(而非近似)的表示有可能實現。劉子鳴不想在沒有嘗試的情況下就放棄這個想法,因為他知道,自 35 年前 Poggio 的論文發表以來,軟體和硬體已經取得了長足的進步。從計算角度來說,2024 年許多在 1989 年甚至無法想象的事情都將成為可能。

劉子鳴花了大約一週的時間研究這個想法,在此期間,他開發了一些原型 KAN 系統,所有系統都有兩層——最簡單的網路,以及研究人員幾十年來一直關注的型別。雙層 KAN 似乎是顯而易見的選擇,因為 Kolmogorov-Arnold 定理本質上為這種結構提供了藍圖。

該定理具體將多變數函式分解為不同的內部函式和外部函式集。(它們代表了沿著邊的啟用函式,替代了 MLP 中的權重。)這種安排自然而然地適用於具有內層和外層神經元的 KAN 結構——這是簡單神經網路的常見安排。

但令劉子鳴失望的是,他的原型機在完成他設想的科學相關任務時表現都不佳。Tegmark 隨後提出了一個關鍵建議:為什麼不嘗試使用兩層以上的 KAN,這樣也許能夠處理更復雜的任務?

這種突破性的想法正是他們所需要的突破。劉子鳴剛起步的網路開始展現出希望,因此兩人很快聯絡了麻省理工學院、加州理工學院和東北大學的同事。他們希望團隊中既有數學家,又有他們計劃讓 KAN 分析的領域的專家。

在他們 4 月份的論文中,該團隊表明三層的 KAN 確實是可能的,並提供了一個可以精確表示函式的三層 KAN 的示例(而兩層 KAN 則不能)。

他們並沒有止步於此。此後,該團隊嘗試了多達六層的神經網路,每層神經網路都能夠與更復雜的輸出函式相匹配。「我們發現,基本上可以堆疊任意多的層。」論文合著者之一王逸軒 (Yixuan Wang) 說道。

經過驗證的改進

作者還將他們的網路用於解決兩個現實問題。第一個問題與數學的一個分支有關,稱為結理論。2021 年,DeepMind 的一個團隊宣佈他們已經構建了一個 MLP,在輸入了足夠多的結的其他屬性後,它可以預測給定結的某種拓撲屬性。三年後,新的 KAN 複製了這一壯舉。然後它更進一步,展示了預測屬性與其他所有屬性之間的關係——劉子鳴說,這是「MLP 根本做不到的」。

第二個問題涉及凝聚態物理學中一種稱為 Anderson 局域化的現象。目標是預測特定相變發生的邊界,然後確定描述該過程的數學公式。沒有任何 MLP 能夠做到這一點。他們的 KAN 做到了。

但 Tegmark 表示,KAN 相對於其他形式的神經網路的最大優勢,以及其近期發展的主要動機,在於其可解釋性。在這兩個例子中,KAN 不只是給出答案,它還提供瞭解釋。「可解釋是什麼意思?」他問道,「如果你給我一些資料,我就會給你一個可以寫在 T 恤上的公式。」

約翰霍普金斯大學研究機器學習的物理學家 Brice Ménard 表示,儘管 KAN 在這方面的能力目前還很有限,但從理論上講,這些網路可以教會我們一些關於世界的新知識。

Ménard 說:「如果問題實際上可以用一個簡單的方程來描述,那麼 KAN 網路就很擅長找到它。」但他提醒道,KAN 最適用的領域可能僅限於問題——例如物理學中的問題——其中方程往往只有很少的變數。

劉子鳴和 Tegmark 對此表示同意,但並不認為這是一個缺點。「幾乎所有著名的科學公式」——例如 E = mc^2——「都可以用一兩個變數的函式來寫。」Tegmark 說,「我們所做的絕大多數計算都依賴於一兩個變數。KAN 利用這一事實並尋找這種形式的解決方案。」

終極方程

劉子鳴和 Tegmark 的 KAN 論文迅速引起轟動,在大約三個月內就獲得了 75 次引用。很快其他團隊也開始研究自己的 KAN。

圖片

論文連結:https://arxiv.org/abs/2406.11045

清華大學 Wang Yizheng 團隊於 6 月線上發表的一篇論文表明,他們的 Kolmogorov Arnold Informed 神經網路 (KINN) 在解決偏微分方程 (PDE) 方面「明顯優於」 MLP。Wang 說,這不是小事:「PDE 在科學中無處不在。」

新加坡國立大學研究人員在 7 月份發表的一篇論文則更加喜憂參半。他們得出的結論是,KAN 在可解釋性相關任務上的表現優於 MLP,但發現 MLP 在計算機視覺和音訊處理方面表現更佳。

圖片

論文連結:https://arxiv.org/abs/2407.16674

這兩個網路在自然語言處理和其他機器學習任務上的表現大致相當。對於劉子鳴來說,這些結果並不令人意外,因為最初的 KAN 團隊的重點一直是「與科學相關的任務」,而可解釋性是其中的重中之重。

與此同時,劉子鳴正在努力讓 KAN 更加實用和易於使用。8 月,他的團隊發表了一篇名為「KAN 2.0」的新論文,他將其描述為「更像是一本使用者手冊,而不是一篇傳統論文」。劉子鳴表示,這個版本更加使用者友好,除了原始模型所缺乏的功能外,還提供了一個乘法工具。

圖片

論文連結:https://arxiv.org/abs/2408.10205

他和他的合著者認為,這種型別的網路不僅僅是一種達到目的的手段。KAN 促進了該組織所稱的「好奇心驅動的科學」,這與長期主導機器學習的「應用驅動的科學」相得益彰。例如,在觀察天體運動時,應用驅動的研究人員專注於預測其未來狀態,而好奇心驅動的研究人員希望揭示運動背後的物理原理。

劉子鳴希望,透過 KAN,研究人員可以從神經網路中獲得更多,而不僅僅是幫助解決原本令人望而生畏的計算問題。他們可能會專注於單純地獲得理解。

相關內容:https://www.quantamagazine.org/novel-architecture-makes-neural-networks-more-understandable-20240911/

相關文章