ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力,開源框架SymbCoT來了

机器之心發表於2024-06-07
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

徐俊東,本文第一作者。本科畢業於倫敦大學學院(UCL),碩士就讀於新加坡國立大學(NUS)計算機系。主要研究方向為大語言模型的推理能力。

個人主頁:https://aiden0526.github.io/JundongXu/

不使用外部工具也能讓大語言模型(LLMs)實現嚴謹可信的推理,新國立提出 SymbCoT 推理框架:結合符號化邏輯(Symbolic Logical)表示式與思維鏈,極大提升推理質量,魯棒性與可信度。

圖片

LLMs 已表現出強大的語義理解能力。但現有的 LLMs 在實行嚴密的邏輯符號推理方面還存在很大的不足,依然需要依賴不同的思維提示方法與外部的符號推理工具進行邏輯推理。如何能讓 LLMs 本身具備強大的符號邏輯推理能力,是目前讓 LLMs 變得更強大的重要研究方向。

最近,新加坡國立大學聯合加州大學聖芭芭拉分校與奧克蘭大學的研究人員共同提出全新的符號邏輯推理框架 SymbCoT(Symbolic Chain-of-Thought),在推理質量,魯棒性與可信度都要超越現有的方法。該工作已被 ACL 2024 錄用。

圖片

  • 論文:Faithful Logical Reasoning via Symbolic Chain-of-Thought

  • 論文地址:https://arxiv.org/pdf/2405.18357.pdf

  • 程式碼地址:https://github.com/Aiden0526/SymbCoT

當前有效的邏輯推理方法還存在一些缺陷。比如說 CoT 在嚴密的邏輯推理過程中經常會產生邏輯謬誤。引入外部工具的方法,比如 Logic-LM,使用 LLM 來翻譯前提,然後使用外部推理工具如 Prover9 來進行邏輯推導,但這種方法在翻譯的過程中容易出現資訊損失或翻譯錯誤導致外部推理工具無法執行。

因此,作者提出 SymbCoT,一個既可以引入嚴密邏輯推理,又能避免翻譯造成的資訊損失 / 錯誤導致外部推理工具失效的框架。透過實驗證明,SymbCoT 與直接提示,傳統 CoT 和使用外部推理工具相比,SymbCoT 分別在三個複雜邏輯推理資料集上提升 22.08%、9.31% 和 7.88%。並且在複雜場景推理、可信度、魯棒性等方面優於現有方法。

推特知名人工智慧博主隨後轉發了這篇論文,認為這種方法有助於改進高階工作流程,構建更可靠和智慧的 LLM AI 代理。該推文僅釋出一天,已獲得 6w + 瀏覽量和超過 1200 + 點贊與收藏。

圖片

A.SymbCoT 框架介紹

總體來說,SymbCoT 包含四個部分:

1. 翻譯:將邏輯推理任務中的前提與結論翻譯成對應的符號化表達。
2. 規劃:根據結合翻譯前後的自然語言與符號化表達,生成符合邏輯推理的計劃。
3. 執行:嚴格按照對應的邏輯推理規則去驗證結論的邏輯正確性。
4. 驗證:驗證翻譯與執行是否存在錯誤。透過對比翻譯前後的語義資訊,去驗證翻譯過程中存在的錯誤並矯正,同時驗證執行過程中是否存在不符合邏輯推理規則的步驟。

以下結合具體的使用示例進行介紹。

  • 任務定義:
作者提出的 SymbCoT 來解決邏輯推理任務。該任務需要從一系列給定的前提中,判斷給定的宣告是否正確

圖片

  • 翻譯:
首先,SymbCoT 中的翻譯模組會將給定的前提 P,宣告 S,翻譯成對應的符號化表達 P' 和 S'

圖片

  • 規劃
結合翻譯前後的自然語言與符號化資訊,規劃模組會基於相關的邏輯規則去生成一個可執行的邏輯推理計劃

圖片

  • 執行:
根據翻譯前後結合的資訊,配合規劃模組生成的執行計劃,SymbCoT 會嚴密地遵守邏輯推理規則去執行計劃,對宣告的正確性得出一個初步結論

圖片

  • 驗證:
該模組主要有兩個功能。第一:透過比對翻譯前後的語義資訊,驗證翻譯中是否存在錯誤;第二:檢查執行過程中的每一步是否遵守了嚴謹的邏輯規則。若任何一個步驟中存在錯誤,驗證模組會更正發現的錯誤並給出正確的推理步驟與結果

圖片

B. 實驗結果

作者首先使用 First-order logic 的規則,在三個邏輯推理資料集上進行了測試。實驗證明 SymbCoT 在 GPT3.5-turbo 與 GPT-4 上均能大幅超越傳統 CoT 的效能,甚至超越了使用外部工具的框架(Logic-LM)。

圖片

為了驗證該框架的普適性,作者隨後使用 Constraint Optimization 符號表達的推理規則在另外兩個資料集上進行了測試。實驗證明使用不同的邏輯規則也能帶來更好的效能。

圖片

  • 複雜推理能力:
作者分析了不同方法在不同推理深度上的表現,發現隨著推理深度的增加,SymbCoT 相對於 CoT 的改進變得更加明顯,表明 SymbCoT 在處理更復雜問題上的優勢。

圖片

  • 魯棒性:
作者比較了完全基於 LLM 的推理器與依賴外部解析器的方法(如 Logic-LM)在執行符號表示式語法時的成功率,發現 SymbCoT 在語法執行上的成功率顯著提高,展示了對語法錯誤的顯著魯棒性。

圖片

  • 可信的邏輯推理:
傳統 CoT 在邏輯推理的時候有時候會基於錯誤的推理過程得到正確的答案,這種情況會誤導使用者從而造成不好的後果。SymbCoT 基於嚴密邏輯推理與驗證,有效消除了傳統 CoT 中過程不可信的缺陷。

圖片

  • 符號與自然語言混合表達的優勢:
作者分析了 LLM 從自然語言到符號語言的轉換過程中可能遺漏的關鍵資訊或引入的不準確性,發現 SymbCoT 透過結合符號和自然語言表達來糾正翻譯錯誤並增強邏輯推理的有效性。

圖片

  • 不同 LLM 的影響:
作者還比較了 GPT-3.5 和 GPT-4 在三個 FOL 資料集上的表現,發現在升級模型後,SymbCoT 方法的效能提升最為顯著,強調了 SymbCoT 方法與更先進模型之間的協同效應。

圖片

總體來說,SymbCoT 是一個更準確、更可信且更魯棒的邏輯推理框架,適合用於要求複雜且精確的邏輯推理任務。

相關文章