論文標題:Global Lyapunov functions: a long-standing open problem in mathematics, with symbolic transformers 論文地址:https://arxiv.org/pdf/2410.08304
三體問題與李雅普諾夫函式
資料生成
本文模型是在成對穩定系統和相關 Lyapunov 函式的大型資料集上進行訓練和測試的。對此類穩定系統進行取樣會遇到兩個難題:首先,大多數動態系統都是不穩定的,沒有通用的方法來判斷一個系統是否穩定;其次,一旦對穩定系統進行取樣,除了特殊情況外,沒有找到 Lyapunov 函式的通用技術。
對於一般情況,研究者這裡採用了後向生成法 ,即取樣求解並生成相關問題;而對於小程度的可控多項式系統,研究者採用前向生成法,即取樣系統並用求解器計算其解。
研究者生成了 2 個後向資料集和 2 個前向資料集用於訓練和評估,並生成了一個較小的前向資料集用於評估。
後向資料集 BPoly 包含 100 萬個非退化多項式系統 S,其係數為整數,等式數為 2 到 5(比例相同)。研究者還建立了 BNonPoly,一個包含 100 萬個非退化非多項式系統、2 至 5 個等式的資料集。在這個資料集中,f 的座標是通用函式的多項式,對於這類系統,目前還沒有發現 Lyapunov 函式的方法。
兩個前向資料集都是使用 Python 的 SumOfSquares 軟體包中的求解器生成的,並採用了與 SOSTOOLS 類似的技術。這些資料集中的所有系統都是具有 2 到 3 個方程的非零整數多項式和整數多項式 Lyapunov 函式,這些方法只能求解這些系統。FLyap是一個包含 10 萬個系統的資料集,這些系統的 Lyapunov 函式都是非同次多項式;FBarr 是一個有 30 萬個以非均質多項式作為障礙函式的系統。這些資料集規模較小的原因在於 SOS 方法的計算成本以及發現 Lyapunov 或障礙函式的難度。
為了與發現多項式系統 Lyapunov 函式的最先進方法 SOSTOOL 進行比較,研究者還生成了一個測試集,其中包含 SOSTOOLS 可以求解的 1500 個具有整數係數的多項式系統(FSOSTOOLS)。
結果
研究者在不同資料集上訓練的模型,在held-out測試集上達到了近乎完美的準確性,且在分佈外測試集上則有非常高的效能,尤其是在用少量前向樣本豐富訓練集時。這些模型的效能大大優於此前最先進的技術,而且還能發現新系統的 Lyapunov 函式。
分佈內/分佈外準確率
表2展示了 4 個資料集上訓練的模型效能。在它們所訓練的資料集的保留測試集上進行測試時,所有模型都達到了很高的域內準確率。在前向資料集上,障礙函式的預測準確率超過 90%,Lyapunov 函式的預測準確率超過 80%。在後向資料集上,基於 BPoly 訓練的模型的準確率接近 100%。可以注意到,集束搜尋,即允許對解法進行多次猜測,能顯著提高效能(對於效能較低的模型,束大小為 50 時,效能提高 7% 至 10%)。研究者在所有進一步的實驗中都使用了束大小 50。
檢驗在生成資料上訓練模型的試金石是它們在分佈外(OOD)的泛化能力。表 3 展示了後向模型在前向生成集上的評估結果。在使用平方和 Lyapunov 函式(FLyap)對前向生成的隨機多項式系統進行測試時,所有後向模型都達到了很高的準確率(73% 到 75%)。非多項式系統(BNonPoly)是最多樣化的訓練集,其效能也最好。在前向生成的具有障礙函式(FBarr)的系統集上,後向模型的精度較低,這可能是由於許多障礙函式並不一定是 Lyapunov 函式。在這些測試集上,後向模型必須應對不同的分佈和(略微)不同的任務。另一方面,前向模型在後向測試集上的效能較低。這可能是由於這些訓練集的規模較小。
總的來說,這些結果似乎證實了後向訓練模型並沒有學會反轉其生成過程。如果是這樣的話,它們在前向測試集上的表現就會接近於零。
豐富訓練分佈以提高效能
為了提高後向模型的 OOD 效能,研究者在其訓練集中加入了極少量的前向生成的樣本,帶來了效能的顯著提高,如表4所示。將 FBarr 中的 300 個樣本新增到 BPoly 中,FBarr 的準確率從 35% 提高到 89%(儘管訓練集中前向樣本的比例僅為 0.03%),而 FLyap 的 OOD 準確率提高了 10 個百分點以上。增加 FLyap 中的樣本帶來的改進較小。這些結果表明,透過在訓練集中新增少量(幾十個或幾百個)我們知道如何求解的樣本,可以大大提高根據後向生成資料訓練的模型的 OOD 效能。在這裡,額外的樣本解決了一個較弱但相關的問題:發現障礙函式。由於提高效能所需的樣本數量很少,因此這種技術特別具有成本效益。
與baseline的對比
如表 5所示,在 FSOSTOOLS 上,一個以 BPoly 為基礎並輔以 500 個 FBarr 系統訓練的模型(PolyMixture)達到了 84%的準確率,證實了混合模型的高 OOD 準確率。在所有生成的測試集上,PolyMixture 的準確率都超過了 84%,而 findlyap 在後向生成的測試集上的準確率僅為 15%。這表明,在多項式系統上,與以前的技術水平相比,透過後向生成資料訓練的Transformer取得了非常出色的結果。
平均而言,基於Transformer的模型也比 SOS 方法快得多。當嘗試求解一個包含 2 至 5 個方程的隨機多項式系統時,findlyap 平均需要 935.2 秒(超時 2400 秒)。對於本文模型,使用greedy decoding時,推理和驗證一個系統平均需要 2.6 秒,使用束大小為 50 時需要 13.9 秒。
發現新數學
表 6 列出了本文模型發現的正確解的百分比。在多項式資料集上,最佳模型(PolyM)分別在 11.8%和 10.1%的(degree 3和degree 5)系統中發現了 Lyapunov 函式,是 findlyap 的 10 倍。對於非多項式系統,有 12.7% 的樣本發現了 Lyapunov 函式。這些結果表明,從生成的系統資料集和 Lyapunov 函式中訓練出來的語言模型確實可以發現未知的 Lyapunov 函式,其效能遠遠高於最先進的 SOS 求解器。
專家迭代
鑑於表 6 中模型的效能,可以利用新解決的問題來進一步微調模型。具體來說,研究者建立了一個針對多項式系統的經過驗證的模型預測樣本 FIntoTheWild,並將其新增到原始訓練樣本中,然後繼續訓練模型。他們還測試了對模型進行微調的不同策略,並在表 7 中總結了正向基準和「wild」的效能。
在 100 萬個訓練集的基礎上增加 1000 個經過驗證的預測後,「to into wild」測試集的效能提高了約 15%,而其他測試集(n4)的效能則沒有受到影響。增加更多樣本似乎是有害的,因為這會降低在其他基準(n5 和 n6)上的效能。研究者還注意到,使用來自其他分佈的混合資料進行微調並不高效(結果 n1 和 n2),而使用少量資料已經有助於獲得一些改進(結果 n3)。最後,使用來自 FIntoTheWild 的資料從頭開始預訓練模型並不高效(結果 n7)。
更多研究細節,可參考原論文。