等不來OpenAI的Q*,華為諾亞探索LLM推理的秘密武器MindStar先來了

机器之心發表於2024-07-01
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本論文作者來自華為蒙特利爾諾亞方舟實驗室的康計堃,李信擇,陳熙, Amirreza Kazemi,陳博興。

人工智慧(AI)在過去十年裡取得了長足進步,特別是在自然語言處理和計算機視覺領域。然而,如何提升 AI 的認知能力和推理能力,仍然是一個巨大的挑戰。

近期,一篇題為《MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time》的論文提出了基於樹搜尋的推理時間能力提升方法 MindStar [1],該方法在開源模型 Llama-13-B 與 Mistral-7B 上達到了近似閉源大模型 GPT-3.5 與 Grok-1 在數學問題上的推理能力。

圖片

  • 論文標題:MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
  • 論文地址:https://arxiv.org/abs/2405.16265v2

MindStar 在數學問題上的應用效果:

圖片

圖 1 :不同大型語言模型的數學準確率。LLaMA-2-13B 在數學效能上與 GPT-3.5 (4-shot) 類似,但節省了大約 200 倍的計算資源。

1. 引言

隨著模型規模的快速增長,基於 Transformer 的大型語言模型(LLMs)在指令遵循 [1,2]、編碼輔助 [3,4] 和創意寫作 [5] 等領域展示了令人印象深刻的成果。然而,解鎖 LLMs 解決複雜推理任務的能力仍然是一大挑戰。最近的一些研究 [6,7] 嘗試透過監督微調(Supervised Fine-Tuning, SFT)來解決,透過將新的推理資料樣本與原始資料集混合,使 LLMs 學習這些樣本的底層分佈,並嘗試模仿所學邏輯來解決未見過的推理任務。儘管這種方法有效能提升,但它嚴重依賴於大量的訓練和額外的資料準備 [8,9]。

Llama-3 報告 [10] 強調了一個重要的觀察:當面對一個具有挑戰性的推理問題時,模型有時會生成正確的推理軌跡。這表明模型知道如何產生正確答案,但在選擇上存在困難。基於這一發現,我們提出了一個簡單的問題:我們能否透過幫助 LLMs 選擇正確的輸出來增強它們的推理能力?為探索這一點,我們進行了一項實驗,利用不同的獎勵模型進行 LLMs 輸出選擇。實驗結果表明,步驟級選擇顯著優於傳統的 CoT 方法。

2. MindStar 方法

圖片

圖 2 MindStar 的演算法架構圖

我們引入了一種新的推理搜尋框架 ——MindStar(M*),透過將推理任務視為搜尋問題,並利用過程監督的獎勵模型(Process-supervised Reward Model, PRM),M * 在推理樹空間中有效導航,識別近似最優路徑。結合束搜尋(Beam Search, BS)和 Levin 樹搜尋(Levin Tree Search, LevinTS)的思想,進一步增強了搜尋效率,並保證在有限計算複雜度內找到最佳推理路徑。

2.1 過程監督獎勵模型

過程監督獎勵模型 (PRM) 的設計目的是評估大語言模型 (LLM) 生成的中間步驟,以幫助選擇正確的推理路徑。這種方法借鑑了其他應用中 PRM 的成功經驗。具體而言,PRM 以當前推理路徑圖片和潛在的下一步圖片作為輸入,並返回獎勵值圖片

PRM 透過考慮整個當前推理軌跡來評估新步驟,鼓勵與整體路徑的一致性和忠實性。高獎勵值表明,新的步驟圖片)對於給定的推理路徑圖片可能是正確的,從而使擴充套件路徑值得進一步探索。相反,低獎勵值則表示新步驟可能不正確,這意味著遵循此路徑的解決方案也可能不正確。

M* 演算法包含兩個主要步驟,迭代直到找到正確的解決方案:

1. 推理路徑擴充套件:在每次迭代中,基礎 LLM 生成當前推理路徑的下一步。
2. 評估和選擇:使用 PRM 評估生成的步驟,並根據這些評估選擇下一次迭代的推理路徑。

2.2 推理路徑擴充套件

圖片

在選擇要擴充套件的推理路徑圖片後,我們設計了一個提示模板(Example 3.1),以從 LLM 中收集下一步。正如示例所示,LLM 將原始問題作為 {question},將當前推理路徑作為 {answer}。注意,在演算法的第一次迭代中,所選擇的節點是僅包含問題的根節點,因此 {answer} 為空。對於推理路徑圖片,LLM 生成 N 箇中間步驟,並將它們作為當前節點的子節點附加。在演算法的下一步中,將評估這些新生成的子節點,並選擇一個新的節點進行進一步擴充套件。我們還意識到,生成步驟的另一種方法是使用步驟標記對 LLM 進行微調。然而,這可能會降低 LLM 的推理能力,更重要的是,這與本文的重點 —— 在不修改權重的情況下增強 LLM 推理能力相悖。

2.3 推理路徑選擇

在擴充套件推理樹後,我們使用預訓練的過程監督獎勵模型(PRM)來評估每個新生成的步驟。正如前面提到的,PRM 採用路徑和步驟 ,並返回相應的獎勵值。在評估之後,我們需要一種樹搜尋演算法來選擇下一個要擴充套件的節點。我們的框架不依賴於特定的搜尋演算法,在這項工作中,我們例項化了兩種最佳優先搜尋方法,即 Beam Search 和 Levin Tree Search。

3. 結果與討論

在 GSM8K 和 MATH 資料集上的廣泛評估顯示,M * 顯著提升了開源模型(如 LLaMA-2)的推理能力,其表現可與更大規模的閉源模型(如 GPT-3.5 和 Grok-1)媲美,同時大幅減少了模型規模和計算成本。這些發現突顯了將計算資源從微調轉移到推理時間搜尋的潛力,為未來高效推理增強技術的研究開闢了新途徑。

圖片

表 1 展示了各種方案在 GSM8K 和 MATH 推理基準上的對比結果。每個條目的數字表示問題解決的百分比。符號 SC@32 表示在 32 個候選結果中的自一致性,而 n-shot 表示少樣本例子的結果。CoT-SC@16 指的是在 16 個思維鏈(CoT)候選結果中的自一致性。BS@16 代表束搜尋方法,即在每個步驟級別涉及 16 個候選結果,而 LevinTS@16 詳細說明了使用相同數量候選結果的 Levin 樹搜尋方法。值得注意的是,MATH 資料集上 GPT-4 的最新結果為 GPT-4-turbo-0409,我們特別強調這一點,因為它代表了 GPT-4 家族中的最佳效能。

圖片

圖 3 我們研究了 M * 效能如何隨著步驟級別候選數量的變化而變化。我們選擇 Llama-2-13B 作為基礎模型,並分別選擇束搜尋(BS)作為搜尋演算法。

圖片

圖 4 Llama-2 和 Llama-3 模型家族在 MATH 資料集上的尺度定律。所有結果均來自它們的原始資源。我們使用 Scipy 工具和對數函式來計算擬合曲線。

圖片

表 2 不同方法在回答問題時的平均 token 生產數量

4. 結論

本文介紹了 MindStar(M*),一種新穎的基於搜尋的推理框架,用於增強預訓練大型語言模型的推理能力。透過將推理任務視為搜尋問題並利用過程監督的獎勵模型,M* 在推理樹空間中有效導航,識別近似最優路徑。結合束搜尋和 Levin 樹搜尋的思想,進一步增強了搜尋效率,並保證在有限計算複雜度內找到最佳推理路徑。廣泛的實驗結果表明,M* 顯著提升了開源模型的推理能力,其表現可與更大規模的閉源模型媲美,同時大幅減少了模型規模和計算成本。

這些研究成果表明,將計算資源從微調轉移到推理時間搜尋具有巨大的潛力,為未來高效推理增強技術的研究開闢了新途徑。

參考文獻:
[1] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.
[2] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
[3] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023.
[4] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
[5] Carlos Gómez-Rodríguez and Paul Williams. A confederacy of models: A comprehensive evaluation of llms on creative writing. arXiv preprint arXiv:2310.08433, 2023.
[6] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023.
[7] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.
[8] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text. arXiv preprint arXiv:2310.06786, 2023.
[9] Peiyi Wang, Lei Li, Zhihong Shao, RX Xu, Damai Dai, Yifei Li, Deli Chen, Y Wu, and Zhifang Sui. Math-shepherd: Verify and reinforce llms step-by-step without human annotations. CoRR, abs/2312.08935, 2023.
[10] Meta AI. Introducing meta llama 3: The most capable openly available llm to date, April 2024. URL https://ai.meta.com/blog/meta-llama-3/. Accessed: 2024-04-30.

相關文章