谷歌AlphaGeometry2攻克IMO幾何難題,已超越金牌得主平均水準
机器之心發表於2025-02-10
OpenAI 與 DeepSeek 卷得不可開交的時候,谷歌 DeepMind 的數學推理模型又偷偷驚豔了所有人。在最新的一篇論文中,谷歌 DeepMind 介紹了全新進化的 AlphaGeometry 2,該系統在解決奧林匹克幾何問題方面已經超過了金牌得主的平均水準。- 論文標題:Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
- 論文連結:https://arxiv.org/pdf/2502.03544
國際奧林匹克數學競賽(IMO)是一項面向全球高中生的著名數學競賽。IMO 問題以難度大著稱,解決這些問題需要對數學概念有深刻理解,並能創造性地應用這些概念。幾何是 IMO 四大題型之一,各題型之間最為統一,非常適合基礎推理研究。因此,這項賽事也成為了衡量人工智慧系統高階數學推理能力的理想基準。在 2024 年 7 月,谷歌 DeepMind 曾經介紹了 AlphaGeometry (AG1),這是一個神經符號系統,在 2000-2024 年 IMO 幾何問題上的解題率達到 54%,距離金牌也只有一步之遙。AG1 將語言模型 (LM) 與符號引擎相結合,有效地解決了這些具有挑戰性的問題,造就了數學領域的「AlphaGo 時刻」。儘管 AG1 取得了成功,但它在幾個關鍵領域仍存在侷限性。其效能受限於特定領域語言的範圍、符號引擎的效率以及初始語言模型的容量。因此,在考慮 2000 年至今的所有 IMO 幾何問題時,AG1 只能達到 54% 的解題率。最新的這篇論文介紹了 AlphaGeometry2(AG2),它是解決了這些限制的升級版本,並顯著提高了效能。AG2 利用了更強大的基於 Gemini 的語言模型,該模型是在一個更大、更多樣化的資料集上訓練出來的。團隊還引入了速度更快、更強大的符號引擎,並進行了最佳化,如減少規則集和增強對二重點的處理。此外,團隊還擴充套件了領域語言,以涵蓋更廣泛的幾何概念,包括軌跡定理(locus theorem)和線性方程(linear equation)。為了進一步提高效能,他們開發了一種新型搜尋演算法,可探索更廣泛的輔助構造策略,並採用知識共享機制來擴充套件和加速搜尋過程。最後,他們在建立一個用自然語言解決幾何問題的全自動可信賴系統方面取得了進展。為此,谷歌利用 Gemini 將問題從自然語言翻譯成 AlphaGeometry 語言,並實施了新的自動圖解生成演算法。這些改進最終大大提高了效能:AG2 在 2000-2024 年 IMO 所有幾何問題上的解題率達到了令人印象深刻的 84%,這表明人工智慧在處理具有挑戰性的數學推理任務方面實現了重大飛躍,並超越了 IMO 金牌得主的平均水準。- 擴充套件領域語言:涵蓋軌跡型定理、線性方程和非構造性問題陳述;
- 更強更快的符號引擎:最佳化了規則集,增加了對二重點的處理,以及更快的 C++ 實現;
- 增強的語言模型:利用 Gemini 架構在更大和更多樣化的資料集上進行訓練。
符號引擎是 AlphaGeometry 的核心元件,谷歌稱之為演繹資料庫算術推理(Deductive Database Arithmetic Reasoning,DDAR)。它是一種計算演繹閉包的演算法,即給定一組核心初始事實的所有可演繹事實集合。DDAR 遵循一組固定的演繹規則來構建此演繹閉包,並迭代地將新的事實新增到演繹閉包中,直到無法再新增。DDAR 驅動語言模型的訓練資料生成以及測試時證明搜尋期間的演繹步驟搜尋。在這兩種情況下,速度都至關重要。更快的資料生成可以達成更大規模、更積極的資料過濾,而更快的證明搜尋可以實現更廣泛的搜尋,從而增加給定時間預算內找到解決方案的可能性。在重新實現 DDAR 時,谷歌試圖保持與原始演算法大致相同的邏輯強度,只是由於實現差異而稍微強一些(例如泰勒斯定理被更通用的圓心角定理取代)。然而,DDAR 缺少一個對解決難題至關重要的關鍵特性:它無法接受兩個名稱不同但座標相同的點。例如,想象一個問題:在點 𝑋 處兩條線 𝑎,𝑏 相交,並打算證明 𝑋 位於某個圓 𝜔 上。最合理的方法可能是重構,不證明 𝑎,𝑏 的交點在 𝜔 上,而是證明 𝑎,𝜔 的交點在 𝑏 上。這是等效的,但更容易證明,因為可以在圓上移動角度。具體可參見圖 1。要對雙重點推理實現這種重構,需要執行以下四個步驟:- 構造一個新點𝑋′作為 𝑎,𝜔 的交點(不知道 𝑋′ 是否與 𝑋 重合)。這是一個輔助構造,必須由語言模型預測;
DDAR 演算法可以處理一系列規則,並嘗試將每條規則應用於所有點的組合。此過程涉及以下兩個部分:- 子句匹配步驟,它的時間複雜度是每個前提的子句數的指數。
理論上,在 AG1 中搜尋相似三角形候選的最壞情況是 𝑂(𝑁^8),這是最耗時的步驟之一。指數級子句匹配是另一個成本高昂的步驟。DDAR 最耗時的兩個部分是搜尋相似三角形和搜尋圓內接四邊形。在 AG2 中,谷歌設計了一種改進的 DDAR2 演算法。對於相似三角形,他們遍歷所有的點三元組,對它們的「形狀」進行雜湊處理。如果兩次識別出形狀,則檢測出相似的對。對於圓內接四邊形,谷歌遍歷所有對(點𝑋、線段𝐴𝐵),並對(𝐴,𝐵,∠𝐴𝑋𝐵)的值進行雜湊處理。如果這樣的三元組重複出現,就得到一個圓內接四邊形。線段 𝐴𝐵 或 ∠𝐴𝑋𝐵 的「值」是指 AR 子模組計算出的符號正規化。該子模組跟蹤角度、距離和對數距離之間的已知線性方程,瞭解其代數結果,並將任何線性表示式簡化為其標準正規化。雖然新演算法已經顯著加快了 DDAR 的速度,但谷歌使用 C++ 實現其核心計算(高斯消元法),從而進一步提升了速度。新的 C++ 庫透過 pybind11 匯出到 Python,速度是 DDAR1 的 300 多倍。為了對速度改進進行基準測試,谷歌選擇了一組 25 道 DDAR 無法解決的 IMO 問題(見圖 8),並在配備 AMD EPYC 7B13 64 核 CPU 的機器上執行測試 50 次。結果顯示,DDAR1 平均可以在 1179.57±8.055 秒內完成計算,但 DDAR2 的速度要快得多,在 3.44711 ± 0.05476 秒內完成。與 AG1 類似,谷歌使用的合成資料生成方法從隨機圖取樣開始,並使用符號引擎從中推斷出所有可能的事實。並且對於每個推斷出的事實,他們都使用回溯演算法來提取可以證明事實的相應前提、輔助點和推理步驟。谷歌的資料生成方法刻意避免使用人為設計的問題作為初始圖種子,並嚴格從隨機圖開始。這種設計選擇消除了資料汙染的風險,並允許探索可能超出現有人類知識的定理分佈。更大、更復雜的圖表和更好的資料分佈。首先,谷歌擴大資料生成的來源,並更仔細地重新平衡資料分佈。圖 2 展示了 AG2 與 AG1 的訓練資料比較:- 生成的證明覆雜了 10 倍,即證明步驟多 10 倍;
更快的資料生成演算法。谷歌還提升了資料生成演算法的速度。回想 AG1,谷歌首先在隨機圖上執行演繹閉包,然後回溯以獲得可以證明閉包中每個事實的最小問題和最小證明。為了獲得 AG1 中的最小問題,必須從問題中徹底刪除不同的點子集,然後重新執行 DDAR 以檢查可證明性。這樣的搜尋可以找到基數最小的子集,但是作為指數級搜尋,對於大量的點而言不可行。因此,谷歌切換到圖 3 所示的貪婪丟棄演算法,該演算法僅使用線性數量的檢查來判斷一組點是否足以證明目標。只要檢查是單調的(如果 𝐴 ⊆ 𝐵,則 check_provable (𝐴) ⇒ check_provable (𝐵)),貪婪演算法就保證找到一組關於包含(inclusion)的最小點集。在 AG1 中,谷歌使用簡單的束搜尋來發現證明。在 AG2 中,他們設計了一種新穎的搜尋演算法,可以並行執行多個不同配置的束搜尋,並允許它們透過知識共享機制互相幫助,具體可見圖 4。為了提高系統的穩健性,谷歌還為每個搜尋樹配置使用多個不同的語言模型。這種搜尋演算法被稱為搜尋樹的共享知識集合(Shared Knowledge Ensemble of Search Trees,SKEST) 。該搜尋演算法的工作原理如下所示:在每個搜尋樹中,一個節點對應於一次輔助構造嘗試,然後是一次符號引擎執行嘗試。如果嘗試成功,所有搜尋樹都會終止。如果嘗試失敗,節點將把符號引擎設法證明的事實寫入共享事實資料庫。這些共享事實經過過濾,使它們不是特定於節點本身的輔助點,而僅與原始問題相關。這樣一來,這些事實也可以對同一搜尋樹中的其他節點以及不同搜尋樹中的節點產生助益。系統設計細節。對於證明搜尋,谷歌使用 TPUv4 為每個模型提供多個副本,並讓同一模型內的不同搜尋樹根據自身的搜尋策略來查詢同一伺服器。除了非同步執行這些搜尋樹之外,谷歌還對 DDAR 工作器與 LM 工作器進行非同步運算,其中 LM 工作器將它們探索的節點內容寫入資料庫,DDAR 工作器非同步拾取這些節點並嘗試它們。DDAR 工作器之間相互協調,以確保它們平等分配工作。單個 DDAR 工作器池在不同問題之間共享(如果一次解決多個問題),這樣先前解決的問題就會為正在解決的其餘問題釋放自己的 DDAR 計算資源。AG2 的最後一項改進是使用新的語言模型。下面將討論全新的訓練和推理設定。AG1 是一種定製版 Transformer,以無監督方式分兩個階段進行訓練:先對有無輔助結構的問題進行訓練,然後僅對包含輔助結構的問題進行訓練。對於 AG2,谷歌利用了 Gemini 訓練流程並將訓練簡化為一個階段:對所有資料進行無監督學習。他們使用了一種基於稀疏混合專家(MoE)Transformer 的新模型,該模型以 Gemini 1.5 為基礎,並使用 AG2 資料進行訓練。1. 使用領域特定語言中的自定義 tokenizer 從頭開始訓練(AG1 設定);2. 使用自然語言微調已經預訓練的自定義專業數學 Gemini 模型;3. 使用額外的影像輸入(給定幾何題的圖表)從頭開始進行多模態訓練。谷歌使用 TPUv4,並以硬體允許的最大批大小訓練模型。學習率計劃是先線性預熱,然後餘弦退火。學習率超參由 scaling 定律確定。在圖 5 中,他們展示了基於引數量的不同大小的 Gemini 的學習曲線。正如預期的那樣,增加模型大小會降低訓練、評估以及特殊 IMO 評估集的困惑度損失。在 AG2 中,谷歌在提出輔助構造之前讓 LM 瞭解 DDAR 所做的推論,進而豐富這個神經符號介面。也就是說,他們將以下資訊輸入到 LM 中- 𝑆_1:給定原始問題前提,DDAR 可推匯出的事實集;
- 𝑆_2:給定原始問題前提並假設目標謂詞也為真,DDAR 可推匯出的事實集;
本文的主要下游指標是 IMO 幾何題的解決率。2000-2024 年 IMO 共有 45 道幾何題,谷歌將它們轉化為了 50 道 AlphaGeometry 問題(稱該集合為 IMO-AG-50)。圖 8 展示了主要結果,AlphaGeometry2 解決了 2000-2024 年 IMO 所有 50 道幾何題中的 42 道,從而首次超越了金牌得主平均水平。表 4 中提供了更多詳細資訊,其中將各種 AG2 配置與其他系統進行了比較。可以看到,AG2 實現了 SOTA。在圖 7 中,針對透過前文「經典」樹搜尋與 DDAR 耦合的一個語言模型,谷歌將 IMO 解決率表示為了訓練時函式(訓練期間看到的 tokens)。有趣的是,AG2 僅在批大小為 256 時的 250 個時間步後(或者大約 2 億 tokens),就解決了 50 道幾何題中的 27 道。谷歌還對推理設定如何影響整體效能進行了消融實驗,結果如圖 9 所示。他們發現,對於單個搜尋樹,最優配置是束大小 128、束深度 4 以及樣本 32。