132年未解開的李雅普諾夫函式謎題,被Symbolic Transformer攻克了

机器之心發表於2024-10-20
牛頓沒解決的問題,AI給你解決了?

AI的推理能力一直是研究的焦點。作為最純粹、要求最高的推理形式之一,能否解決高階的數學問題,無疑是衡量語言模型推理水平的一把尺。

雖然我們已經見證過來自谷歌DeepMind的Al以一分之差痛失IMO金牌,也從陶哲軒頻頻更新的動態中得知,AI工具已經在幫助數學家解決像「紐結理論」和「海狸難題」這樣困擾數學家幾個世紀的難題。

但是這些成果大多數都需要數學家作大量的前期工作,對於沒有已知通用解法的開放性問題,AI也是一個小白。

圖片

最近的一項研究打破了這個局面。Meta和巴黎理工學院的研究人員共同探討了一個困擾數學界長達132年的問題:李雅普諾夫函式。簡單來說,李雅普諾夫函式用於判斷一個動力系統相對於其平衡點或軌道,隨著時間無限延長後是否能保持全域性穩定。論文已經入選了NeurIPS 2024。
圖片
  • 論文標題:Global Lyapunov functions: a long-standing open problem in mathematics, with symbolic transformers
  • 論文地址:https://arxiv.org/pdf/2410.08304

這類問題中,最出名的可能就是三體問題了:兩個物體在沒有其他引力的影響下相互繞行,如果再新增一個物體,在大多數情況下,這三個物體的運動都會變得混亂起來。
圖片
牛頓、拉格朗日和龐加萊都研究三體問題,但都沒有找到根本性的解決方案。著名俄羅斯數學家和物理學家李雅普諾夫(Александр Ляпунов)發現,如果能找到系統的類熵函式—李雅普諾夫函式,就能保證系統的穩定性。遺憾的是,目前還沒有已知的方法來推導一般情況下的李雅普諾夫函式,而且只發現了極少系統的李雅普諾夫函式解。

在最新的這項研究中,研究者提出了一種從隨機取樣的李雅普諾夫函式生成訓練資料的新技術。在這些資料集上訓練的序列到序列Transformer在held-out測試集上達到了近乎完美的準確率(99%),在分佈外測試集上達到了非常高的效能(73%)。

這項研究表明,透過使用少量(300 個)可以用現有演算法方法解決的簡單樣本來豐富訓練集,可以獲得更高的準確率(84%)。AI模型在各種基準測試中的表現已經遠超最先進的技術和人類的表現。

研究者表示,生成模型可用於解決數學研究層面的問題,為數學家提供可能解決方案的猜測。黑箱模型提出的解決方案是明確的,其數學正確性可以得到驗證。或許,這項研究是解決數學開放問題的人工智慧驅動藍圖。

三體問題與李雅普諾夫函式


三體問題是經典力學中最著名的未解問題之一。牛頓提出了萬有引力定律,並透過微積分為兩個物體之間的引力相互作用提供了精確的解。然而,當系統中增加第三個物體時,系統的複雜性顯著增加,傳統方法無法應對。
圖片
18世紀,拉格朗日做出了突破性的貢獻:拉格朗日點。三體系統將在拉格朗日點達到平衡。然而,他的發現依然無法解決三體系統在長時間尺度下的整體穩定性問題。

到了19世紀末,龐加萊透過發展拓撲學和混沌理論,證明了某些條件下,三體系統會出現不可預測的混沌行為。這表明三體問題的複雜程度遠超人們的想象,也意味著不存在普適的解。

1892年,李雅普諾夫又將這個世紀難題向前推進了一步。判斷三體系統是否穩定,可以藉助李雅普諾夫函式。

李雅普諾夫函式 V(x)需要滿足以下條件才能保證系統的穩定性:

1.穩定平衡點
圖片
2.全域漸近穩定平衡點
圖片
不過,李雅普諾夫只提供了理論上的證明,想要實際計算出一個系統的函式解極為困難。雖然像 SOSTOOLS 這樣的計算工具可以輔助,但它們的能力僅限於處理小型的多項式系統,對於更復雜的情況往往無能為力。

這項工作中,研究者訓練序列到序列 Transformer 來預測給定系統的 Lyapunov 函式。他們將這個問題定義為一個翻譯任務:問題和解決方案以符號Token序列的形式表示,模型從生成的系統和 Lyapunov 函式對中訓練,以最小化預測序列和正確解決方案之間的交叉熵。研究者使用學習率為 10^-4 的 Adam 最佳化器,在 16 個樣本的批上訓練具有 8 層、10 個注意力頭和 640 嵌入維度的 Transformer,初始線性熱身階段為 10000 個最佳化步驟,並進行反平方根排程。所有實驗都在 8 個 V100 GPU 和 32 GB 記憶體上執行,每個 GPU 的訓練時間為 12 到 15 個小時。

資料生成

本文模型是在成對穩定系統和相關 Lyapunov 函式的大型資料集上進行訓練和測試的。對此類穩定系統進行取樣會遇到兩個難題:首先,大多數動態系統都是不穩定的,沒有通用的方法來判斷一個系統是否穩定;其次,一旦對穩定系統進行取樣,除了特殊情況外,沒有找到 Lyapunov 函式的通用技術。

對於一般情況,研究者這裡採用了後向生成法 ,即取樣求解並生成相關問題;而對於小程度的可控多項式系統,研究者採用前向生成法,即取樣系統並用求解器計算其解。

研究者生成了 2 個後向資料集和 2 個前向資料集用於訓練和評估,並生成了一個較小的前向資料集用於評估。

後向資料集 BPoly 包含 100 萬個非退化多項式系統 S,其係數為整數,等式數為 2 到 5(比例相同)。研究者還建立了 BNonPoly,一個包含 100 萬個非退化非多項式系統、2 至 5 個等式的資料集。在這個資料集中,f 的座標是通用函式的多項式,對於這類系統,目前還沒有發現 Lyapunov 函式的方法。

兩個前向資料集都是使用 Python 的 SumOfSquares 軟體包中的求解器生成的,並採用了與 SOSTOOLS 類似的技術。這些資料集中的所有系統都是具有 2 到 3 個方程的非零整數多項式和整數多項式 Lyapunov 函式,這些方法只能求解這些系統。FLyap是一個包含 10 萬個系統的資料集,這些系統的 Lyapunov 函式都是非同次多項式;FBarr 是一個有 30 萬個以非均質多項式作為障礙函式的系統。這些資料集規模較小的原因在於 SOS 方法的計算成本以及發現 Lyapunov 或障礙函式的難度。

為了與發現多項式系統 Lyapunov 函式的最先進方法 SOSTOOL 進行比較,研究者還生成了一個測試集,其中包含 SOSTOOLS 可以求解的 1500 個具有整數係數的多項式系統(FSOSTOOLS)。

結果

研究者在不同資料集上訓練的模型,在held-out測試集上達到了近乎完美的準確性,且在分佈外測試集上則有非常高的效能,尤其是在用少量前向樣本豐富訓練集時。這些模型的效能大大優於此前最先進的技術,而且還能發現新系統的 Lyapunov 函式。

分佈內/分佈外準確率

表2展示了 4 個資料集上訓練的模型效能。在它們所訓練的資料集的保留測試集上進行測試時,所有模型都達到了很高的域內準確率。在前向資料集上,障礙函式的預測準確率超過 90%,Lyapunov 函式的預測準確率超過 80%。在後向資料集上,基於 BPoly 訓練的模型的準確率接近 100%。可以注意到,集束搜尋,即允許對解法進行多次猜測,能顯著提高效能(對於效能較低的模型,束大小為 50 時,效能提高 7% 至 10%)。研究者在所有進一步的實驗中都使用了束大小 50。

圖片

檢驗在生成資料上訓練模型的試金石是它們在分佈外(OOD)的泛化能力。表 3 展示了後向模型在前向生成集上的評估結果。在使用平方和 Lyapunov 函式(FLyap)對前向生成的隨機多項式系統進行測試時,所有後向模型都達到了很高的準確率(73% 到 75%)。非多項式系統(BNonPoly)是最多樣化的訓練集,其效能也最好。在前向生成的具有障礙函式(FBarr)的系統集上,後向模型的精度較低,這可能是由於許多障礙函式並不一定是 Lyapunov 函式。在這些測試集上,後向模型必須應對不同的分佈和(略微)不同的任務。另一方面,前向模型在後向測試集上的效能較低。這可能是由於這些訓練集的規模較小。

圖片

總的來說,這些結果似乎證實了後向訓練模型並沒有學會反轉其生成過程。如果是這樣的話,它們在前向測試集上的表現就會接近於零。

豐富訓練分佈以提高效能

為了提高後向模型的 OOD 效能,研究者在其訓練集中加入了極少量的前向生成的樣本,帶來了效能的顯著提高,如表4所示。將 FBarr 中的 300 個樣本新增到 BPoly 中,FBarr 的準確率從 35% 提高到 89%(儘管訓練集中前向樣本的比例僅為 0.03%),而 FLyap 的 OOD 準確率提高了 10 個百分點以上。增加 FLyap 中的樣本帶來的改進較小。這些結果表明,透過在訓練集中新增少量(幾十個或幾百個)我們知道如何求解的樣本,可以大大提高根據後向生成資料訓練的模型的 OOD 效能。在這裡,額外的樣本解決了一個較弱但相關的問題:發現障礙函式。由於提高效能所需的樣本數量很少,因此這種技術特別具有成本效益。

圖片

與baseline的對比

圖片

如表 5所示,在 FSOSTOOLS 上,一個以 BPoly 為基礎並輔以 500 個 FBarr 系統訓練的模型(PolyMixture)達到了 84%的準確率,證實了混合模型的高 OOD 準確率。在所有生成的測試集上,PolyMixture 的準確率都超過了 84%,而 findlyap 在後向生成的測試集上的準確率僅為 15%。這表明,在多項式系統上,與以前的技術水平相比,透過後向生成資料訓練的Transformer取得了非常出色的結果。

平均而言,基於Transformer的模型也比 SOS 方法快得多。當嘗試求解一個包含 2 至 5 個方程的隨機多項式系統時,findlyap 平均需要 935.2 秒(超時 2400 秒)。對於本文模型,使用greedy decoding時,推理和驗證一個系統平均需要 2.6 秒,使用束大小為 50 時需要 13.9 秒。

發現新數學

表 6 列出了本文模型發現的正確解的百分比。在多項式資料集上,最佳模型(PolyM)分別在 11.8%和 10.1%的(degree 3和degree 5)系統中發現了 Lyapunov 函式,是 findlyap 的 10 倍。對於非多項式系統,有 12.7% 的樣本發現了 Lyapunov 函式。這些結果表明,從生成的系統資料集和 Lyapunov 函式中訓練出來的語言模型確實可以發現未知的 Lyapunov 函式,其效能遠遠高於最先進的 SOS 求解器。

圖片

專家迭代

鑑於表 6 中模型的效能,可以利用新解決的問題來進一步微調模型。具體來說,研究者建立了一個針對多項式系統的經過驗證的模型預測樣本 FIntoTheWild,並將其新增到原始訓練樣本中,然後繼續訓練模型。他們還測試了對模型進行微調的不同策略,並在表 7 中總結了正向基準和「wild」的效能。

圖片

在 100 萬個訓練集的基礎上增加 1000 個經過驗證的預測後,「to into wild」測試集的效能提高了約 15%,而其他測試集(n4)的效能則沒有受到影響。增加更多樣本似乎是有害的,因為這會降低在其他基準(n5 和 n6)上的效能。研究者還注意到,使用來自其他分佈的混合資料進行微調並不高效(結果 n1 和 n2),而使用少量資料已經有助於獲得一些改進(結果 n3)。最後,使用來自 FIntoTheWild 的資料從頭開始預訓練模型並不高效(結果 n7)。

更多研究細節,可參考原論文。

相關文章