第一位超越國際數學奧林匹克金牌得主的人工智慧

banq發表於2024-04-11


本文重新審視了奧林匹克級幾何中自動化定理證明的挑戰,特別關注 IMO-AG-30 基準。作者認為,Wu 的方法是一種代數方法,以前被認為不如 AlphaGeometry 等合成方法有效,但它表現出了令人驚訝的強度,並且與其他技術結合時可以顯著提高效能。

Wu 的方法可以將符號人工智慧提升到銀牌得主的競爭對手,而 AlphaGeometry 則可以超越 IMO Geometry 金牌得主。

主要發現:

  • 僅 Wu 的方法就解決了 30 個 IMO-AG-30 問題中的 15 個, 超過了之前報告的效能,甚至解決了 AlphaGeometry 無法解決的問題。
  • 吳的方法與演繹資料庫和角度/比率/距離追逐(DD+AR)相結合解決了21個問題, 達到了與IMO銀牌得主相當的水平,並建立了強大的完全符號基線。
  • Wu 的方法與 AlphaGeometry 相結合,實現了最先進的效能,解決了 27 個問題 ,超越了金牌得主的能力。

論文的優點:
  • 強調代數方法的潛力: 挑戰代數方法在該領域不如綜合方法的觀念。
  • 展示組合不同方法的力量: 展示 Wu 的方法如何補充 DD+AR 和 AlphaGeometry 等現有技術,從而顯著提高效能。
  • 提出有關當前基準測試侷限性的問題: 表明 IMO 幾何問題可能不夠複雜,無法充分測試現代求解器的功能。

論文的缺點:
  • 評估範圍有限: 作者僅在 IMO-AG-30 基準上進行評估,這可能無法代表整個幾何問題。
  • 實施挑戰: 本文承認吳方法當前實施的侷限性,並呼籲在這一領域進一步發展。
  • 缺乏可解釋性: 像吳的方法這樣的代數方法因產生較少的人類可讀證明而聞名,這在某些情況下可能是一個缺點。

總的來說,本文為重新評估吳的方法及其在自動幾何定理證明中的潛力提供了令人信服的案例。研究結果鼓勵進一步探索這種方法並開發新的基準,以真正突破基於人工智慧的幾何推理的界限。

網友評論:
1. 十多年前,我就透過了數學奧林匹克競賽,並獲得了物理競賽的資格。這是一種專門為提高几何解題能力而設計的狹義人工智慧。當一個通用人工智慧,甚至一個大模型能在數論或組合學(忘了拓撲學之類的東西)的問題上勝出/推理時,我就會覺得這很重要了,我很期待那一天的到來。也許就在今年年底?

2.  大大模型將狹義人工智慧納入其 MOE專家系統 的一部分。

3. 訣竅不是獲得具體問題的答案,而是將解決數學問題的推理能力融入一般思維中。 MOE專家系統 無法解決這個問題,至少在所有數學位可以提供數字作為響應的情況下無法解決。

4. 當通用人工智慧演算法能夠破解乘法時,我會很高興,我指的不是“2*2”乘法,而是不使用計算器的任意長的數字鏈。我們人類小時候用筆和紙就可以做的事情。

5. 幾何是關鍵問題。幾何問題對於人工智慧來說比其他類別容易得多。有大量的參賽者可以解決幾何問題,但不會解決組合問題。今年我們幾乎已經擁有了金牌級別的幾何圖形和 alphageometry,所以這沒什麼大不了的。

6. 爆炸新聞!計算機擅長數學,因為計算機在數學方面確實很糟糕。
 

相關文章