Meta、史丹佛等:AI的下一個前沿,正是陶哲軒說的形式化數學推理

机器之心發表於2024-12-24
對 AI 研究者來說,數學既是一類難題,也是一個標杆,能夠成為衡量 AI 技術的發展重要尺度。近段時間,隨著 AI 推理能力的提升,使用 AI 來證明數學問題已經成為一個重要的研究探索方向。著名數學家陶哲軒就是這一方向的推動者,他曾表示:未來數學家可以透過向類似 GPT 的 AI 解釋證明,AI 會將其形式化為 Lean 證明。這種助手型 AI 不僅能生成 LaTeX 檔案,還能幫助提交論文,從而大幅提高數學家的工作效率和便利性。

如今,已經誕生了 Gemini 2.0 Flash Thinking 和 o1/o3 等強大推理模型,那麼用 AI 來進行形式化數學推理又已經走到了哪一步呢?

Meta FAIR 和史丹佛大學等多所機構的一篇新的立場論文(position paper)或許能為你給出這個問題的答案。
圖片
  • 論文標題:Formal Mathematical Reasoning: A New Frontier in AI

  • 論文地址:https://arxiv.org/pdf/2412.16075

本文一作楊凱峪在 X 上表示,AI4Math 的下一步是使用證明助手等形式化系統來實現形式化數學推理。他也在推文以及論文中感謝了陶哲軒等數學家提供的反饋。
圖片
Meta 研究科學家田淵棟也分享轉發了這篇立場論文,並表示很期待看到 AI 能基於現有的網際網路資料在數學階梯上能到達何種高度。
圖片
這篇論文的內容相當豐富,機器之心將在此介紹該論文的主要內容結構,尤其是該團隊對多個相關研究方向的分級策略。這些分級可以幫助我們更好地界定 AI 在形式化數學推理方面的進展。下圖為該綜述的目錄截圖。
圖片
自 AI 誕生之初,研究者就夢想著構建能夠自動進行數學推理的 AI 系統。歷史上,首個此類 AI 程式是 Newell 和 Simon 打造的 Logic Theorist(邏輯理論家),這個定理證明系統能夠證明《數學原理》中的 38 條定理。

自那之後已過去數十年,AI 的中心已經從符號方法轉移到了機器學習,並出現了一個新領域:用於數學的統計式人工智慧(AI4Math)。

這是一個非常吸引人的領域。原因不難理解,很多推理和規劃任務本質上都是數學問題。另外,數學在定量學科中起著基礎性作用,因此 AI4Math 有可能給科學、工程和其他領域的人工智慧帶來革新。也正因為這些原因,LLM 開發者通常會把數學問題求解能力作為一個核心衡量指標,人們也在努力創造能在數學問題上比肩甚至超越人類的 AI 系統。

AI4Math 的重要性吸引了大量研究者,他們開始使用來自自然語言處理(NLP)領域的技術來開發數學 LLM。

一種常用方法是使用數學資料來對 LLM 進行持續預訓練,比如可以使用來自 arXiv 論文和 MathOverflow 網頁的資料,然後在精心選擇的數學問題資料集(其中會提供詳細的分步解決方案)上對模型進行微調。該團隊稱之為非形式化(informal)方法。

類似於通用 LLM,數學 LLM 的配方也很簡單,秘訣往往在於資料的整編。在 GSM8K、MATH、AIMO Progress Prize 等常用基準上取得進展的數學 LLM 通常包含精心整編的訓練資料集、思維鏈等推理時間技術、自我一致性和工具使用能力。

然而,直到本文寫作時,非形式化方法得到的 AI 的數學能力基本都不超過 AIME 的高中數學水平。

那麼,問題就來了:非形式化方法的規模擴充套件之路還能走多遠?它能讓數學 LLM 解決更具挑戰性的競賽問題(例如,IMO、國際數學奧林匹克)甚至還在研究中的數學問題嗎?

從高中到更高階的數學,非形式方法面臨的難題無法僅僅透過規模擴充套件解決。

首先,訓練數學 LLM 需要高質量的資料,而高質量高等數學資料很稀缺。對於新的研究數學問題,不可能在網際網路上找到類似問題的解答或大規模手動標註資料。如果沒法擴大資料規模,就不可能充分享受到 LLM 的 Scaling Law。
圖片
第二,很多高等數學的解並不是數值,因此難以透過比較 ground truth 來進行評估。例如證明問題需要一系列複雜的推理步驟。

LLM 還有個臭名昭著的幻覺問題,會生成看起來可行的推理步驟,因此評估模型輸出或收集有用反饋的難度非常大。

這些問題都難以透過擴大非形式化方法的規模來解決。

如果訓練時間擴充套件不夠用,那我們還需要什麼呢?OpenAI o1 展示了一個可能方向:在推理時間擴充套件非形式化方法,比如將搜尋與神經驗證器組合起來緩解推理幻覺。

雖然這種方法吸引了很多人的眼球,但它究竟能不能有效解決高等數學問題還有待解答。

而本篇立場論文關注的則是一個較少被探索的補充方法:形式化數學推理(formal mathematical reasoning。

該團隊表示,形式化數學推理是指立足於形式化系統的數學推理,而形式化系統包括但不限於一階 / 高階邏輯、依賴型別理論和帶有形式規範註釋的計算機程式。

這種形式化系統可提供驗證模型推理並提供自動反饋的環境。它們不同於現代 LLM 使用的「工具」,因為它們可以建模廣泛命題的真與假,並且還是可證明的。此類系統提供的反饋可以緩解資料稀缺問題;此外,此類系統還可以進行嚴格的測試時間檢查,以抵抗幻覺。

相比之下,非形式化數學是指教科書、研究論文和線上數學論壇中常見的數學文字。非形式化數學會將自然語言與符號(例如 LATEX)交織在一起,但這些符號沒有自我包含的形式語義,而是依靠非形式文字來傳達其含義的重要部分。

AlphaProof 和 AlphaGeometry 是這一想法成功的兩個突出例子。在此之前,很多研究者嘗試過使用 LLM 來解決奧數級數學問題,但都失敗了。上述系統的關鍵區別在於原則性地使用了符號表示和證明檢查框架。其中,符號元件(AlphaProof 的 Lean、AlphaGeometry 的特定領域幾何系統)的作用是執行神經網路的推理步驟並生成高質量的合成資料,從而實現前所未有的數學推理能力。

AlphaProof 和 AlphaGeometry 之前,已經有許多文獻做好了鋪墊 —— 它們探討了形式化方法和機器學習在數學任務中的協同使用。具體涉及的主題包括神經定理證明、自動形式化(autoformalization)等。

LLM 的出現大大加速了這一領域的研究。例如,由於缺乏用於微調的已對齊非形式化 - 形式化對,自動形式化長期以來一直都進展緩慢。LLM 可以透過合成資料或執行無微調自動形式化來緩解此問題。因此,人們開始認識到自動形式化在引導神經定理證明器方面的潛力。LLM 也是定理證明的強大工具;事實上,最近已有方法利用 LLM 來預測證明步驟並修復有缺陷的證明,同時還無需基於形式化證明資料進行明確訓練。

圍繞 LLM 和形式化推理的研究基礎設施正在迅速成熟。Lean 這種用於編寫形式化證明的語言在數學家中越來越受歡迎,並催生了形式化研究數學和通用數學庫。現在已有多個框架可支援 LLM 和 Lean 之間的互動。這些框架支援基於人工編寫的形式化證明提取訓練資料,以及透過與形式化環境的互動進行定理證明。
圖片
除了 Lean 之外,Coq 和 Isabelle 等證明語言的多語言基礎設施也已在構建中 。

最後,LLM 已被用於協助人類數學家編寫形式化證明 ,這可能會啟動一個資料飛輪,其中不斷增長的人類編寫的形式化數學資料會產生更強大的 LLM,從而讓人可以更輕鬆地建立更多資料。

AI 在形式化數學推理方面大有機會,因而研究繁盛。AI 在形式化數學推理方面的新興機會導致了研究活動的蓬勃發展。正如最近的一項調查給出的那樣,該領域的發表文獻數量在 2023 年幾乎翻了一番,並且很可能在 2024 年再翻一番。透過將自動形式化與強化學習相結合,AlphaProof 成為第一個在 IMO 中獲得銀牌的人工智慧。

該領域的進展也可直接應用於形式化驗證(formal verification) ,這是一個核心的電腦科學問題,傳統上一直是形式化數學最重要的應用之一。雖然形式化驗證可以得到極其穩健和安全的軟體和硬體系統,但從歷史上看,除了安全性至關重要的應用之外,形式化驗證其實很少用,因為其部署成本太高。AI 可以透過自動化形式化和證明工作來大幅降低這一成本。這可能導致未來大規模生產的軟體和硬體系統比現在更加穩健。

該團隊表示:「出於所有這些原因,我們相信基於 AI 的形式化數學推理已經到達了一個轉折點,未來幾年將取得重大進展。然而,仍有大量工作要做。」

本立場論文概述了該領域在資料和演算法方面面臨的難題,以及未來進步的可能路線。

AI4Math 與形式化數學推理

數學推理是 AI 領域的前沿研究方向。本節首先將介紹 AI4Math 的非形式化方法及其侷限性。然後將介紹在推進 AI4Math 方面,形式化數學推理是一條有希望的道路。這一節涵蓋的內容包括:

當前最佳的數學 LLM 以及它們的侷限性,目前的難題包括資料稀缺、缺乏驗證正確性的手段。

用於形式化數學推理的 AI:這一節將介紹從非形式化到形式化的轉向、證明助理和 Lean 等。
圖片
數學 AI 的其它方向:AI4Math 範圍很廣,還包含其它許多研究方向,比如使用神經網路來近似函式等等。

用於形式化數學推理的 AI 的最新進展

AI 已在形式數學推理方面取得了實質性進展。本節首先將討論兩個關鍵任務的進展:自動形式化和定理證明。然後將抽樣兩個相鄰領域 —— 自然語言和程式碼生成 —— 它們可受益於形式化方法實現的可驗證推理。

在自動形式化方面,本文介紹了基於規則的自動形式化、基於神經和 LLM 的自動形式化、自動形式化的應用。
圖片
在神經定理證明方面,本文介紹了專家迭代、從錯誤中學習、非正式證明草圖、庫學習、前提選擇和檢索等主題。
圖片
此外,這一節還介紹了自然語言中的驗證推理、形式系統驗證和驗證生成。

挑戰與未來的方向

這一節,該團隊分享了幾個仍待解決的挑戰和有希望的研究方向,包括形式化數學推理的資料和演算法、協助人類數學家和證明工程師的 AI 工具,以及整合 AI 和形式化方法來生成可驗證程式碼。

資料

資料稀缺是首要問題。潛在的解決方案包括:

  • 從教科書、論文和講義中自動形式化非形式化數學內容

  • 基於數學公理生成合成的猜想和證明

  • 從不同的證明框架和程式碼等資料豐富的領域遷移知識

演算法

在這個方面,又有許多亟待解決的問題,該團隊也提出了一些解決的設想:

問題 1:如何讓 AI 能夠自動地將非形式化的內容轉換成形式化的數學語言?
  • 建立自動形式化語句的評估指標

  • 將形式化過程分解為小步驟

  • 加強與形式系統的互動

問題 2:如何改進數學推理的模型架構?
  • 增強多步推理、長文字處理、抽象和分層規劃能力

  • 透過合成基準診斷推理失敗之處

  • 利用檢索和搜尋等推理技術輔助模型

問題 3:如何有效地搜尋證明?
  • 對搜尋進行擴充套件以利用更多的測試時間計算;

  • 對模型、搜尋演算法和超引數進行系統性評估;

  • 用於評估證明目標併為其設定優先順序的價值模型。

問題 4:如何利用定理證明中的層次結構?
  • 將大型、高階證明目標逐步分解為較小的目標。

問題 5:如何學習數學抽象?
  • 學習在成熟的證明助手中構建新的定義、引理和策略。

問題 6:如何利用現有的數學知識?
  • 為形式數學推理量身定製的檢索器;

  • 處理動態增長的知識庫。

問題 7:如何協調專家方法和通用方法?
  • 識別跨領域聯絡的通用方法;

  • 針對各個領域的有效性的專家方法以及與數學家合作的專家方法;

  • 將通用方法和專家方法結合起來,例如為 LLM 配備特定領域的工具。

用於輔助人類數學家的工具

這方面的主要問題是:AI 如何更好地協助人類研究形式化數學?

這個方面的難題和潛在研究方向包括:
  • 資源、激勵措施和工程開發,以提高可用性和使用者友好性;

  • 研究數學家如何使用形式化工具的行為;

  • 支援大規模分散式協作的工具。

形式驗證和已驗證生成

這方面的主要問題是:AI 如何輔助人類開發正確和安全的軟體?

這個方面的難題和潛在研究方向包括:
  • 將形式化方法納入 AI 輔助的系統設計和實現中;

  • 增強 AI 進行形式化軟體和硬體驗證的能力;

  • 將基於 AI 的生成與形式化驗證結合起來。

評估標準

在解決問題的過程中,一個關鍵問題逐漸浮現:如何有效衡量進展?

受自動駕駛汽車自動化等級的啟發,該團隊提出了一個評估 AI 數學推理能力的分級框架。他們強調,在這個新興領域還需要建立更多新的基準和評估方法。

定理證明能力

目前,AI 在形式數學領域的主要工作集中在自動定理證明上。像 Lean 這樣的形式系統提供了巨大優勢 - 一旦找到證明,即使人可能沒完全理解,就能保證其正確性。

研究團隊根據表 1 給出了 AI 形式定理證明的分級基準。
圖片
在最基礎的 0 級水平,AI 能夠識別正確的形式證明。

到了 1 級,AI 系統可以提供潛在有用的資料,但還不能寫出證明。

2 級及以上的系統可以生成完整或部分證明。人類專家設計和編寫的固定證明策略和規則,AI 按照這些預設的策略執行證明過程。

在 3 級水平,AI 系統能夠在一般領域自動證明定理,但仍侷限於簡單定理。

4 級系統應該能夠自主規劃和執行形式化專案,分解大型結果,提出新的定義和定理,並在探索的過程中嘗試不同的解決方案。

5 級則意味著系統能夠解決超出人類水平的問題。

自然語言推理驗證能力

研究團隊首先提出了一個問題:如何在不完全形式化的情況下實現嚴謹的推理?

他們發現,讓 AI 在形式系統和自然語言之間切換是一個很有前景的方向。這樣的 AI 系統應該能夠進行邏輯推理、數值計算,並以嚴謹且易懂的方式生成答案。

雖然推理過程可能不是嚴格的形式化證明,但其中的部分內容仍可以在人工的監督下以半自動化的形式驗證。該團隊將這種能力稱為「自然語言驗證推理」,並提出了一個分級框架 (表 2)。
圖片
在 0 級水平,AI 能夠用自然語言生成逐步推理過程,但不涉及驗證。

到了 1 級,AI 系統在生成推理的同時具備了驗證能力,可以評估每個推理步驟的正確性。

在 2 級,AI 系統能夠利用外部工具,執行單靠神經網路難以學會的計算任務。

第 3 級的 AI 系統將可以使用外部工具進行嚴格的邏輯推理。

在第 4 級,AI 系統能夠識別日常任務中的數學問題並使用嚴謹的方法。對其進行推理

自動形式化的能力

該團隊提出了一個自動形式化能力評估體系,評估 AI 如何在數學知識的非形式化表述和形式化表述之間自動轉換。
圖片
根據表 3,在最基礎的 0 級水平,AI 系統能夠儲存和檢驗形式化知識,方便人工形式化。

在第 1 級,AI 將可以為自動生成形式化的幾種草稿,並透過持續收集和儲存人類反饋來不斷改進系統效能。

到了第 2 級,AI 應能夠在兩者之間進行穩定且準確的轉換,準確度接近人類水平。

第 3 級的 AI 系統能夠在形式化的過程中推斷出缺失餓資訊,並標記出它無法補全的部分。

在第 4 級,AI 將具備遇到錯誤或對不上的輸入時自我糾正的能力。

最後在第 5 級,該團隊預計 AI 將能夠創造新的數學定義,有望降低證明的複雜度。

猜想能力

研究團隊發現,在數學研究中,提出定理證明之前的猜想階段同樣重要。該團隊認為,AI 有望自主提出數學猜想。

根據表 4 的分級標準,0 級水平是指 AI 能夠針對特定問題或目標結果提出相關猜想。更進一步,在 1 級水平上,AI 就預計可以在給定研究領域內自主提出猜想,而不必侷限於某個具體定理了。
圖片
形式化驗證與驗證生成的結果

研究團隊最新發現,把 AI 應用到程式驗證和系統開發時,面臨的挑戰與數學研究有很大不同。為了更好地理解這個領域,該團隊設計了一個 4 級能力評估體系 (表 5)。
圖片
在最基礎的第 1 級,AI 已經能夠完成一些簡單的驗證工作,比如檢查小段程式碼是否正確,或者自動生成一些簡單的可驗證程式碼。

到了第 2 級,AI 的能力提升到可以幫助開發團隊驗證整個專案,並且能處理更復雜的問題。

第 3 級是一個重要突破,AI 不僅能生成程式碼,還能提供證明並幫助維護系統。

在最高的第 4 級,AI 可以幫助開發人員制定技術規範,包括自動生成規範文件、解釋具體要求,以及幫助找出規範中的問題。

相關文章