等不來OpenAI的Q*，華為諾亞探索LLM推理的秘密武器MindStar先來了

机器之心發表於2024-07-01

原文網址 : https://www.jiqizhixin.com/articles/2024-07-01-9

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本論文作者來自華為蒙特利爾諾亞方舟實驗室的康計堃，李信擇，陳熙， Amirreza Kazemi，陳博興。

人工智慧（AI）在過去十年裡取得了長足進步，特別是在自然語言處理和計算機視覺領域。然而，如何提升 AI 的認知能力和推理能力，仍然是一個巨大的挑戰。

近期，一篇題為《MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time》的論文提出了基於樹搜尋的推理時間能力提升方法 MindStar [1]，該方法在開源模型 Llama-13-B 與 Mistral-7B 上達到了近似閉源大模型 GPT-3.5 與 Grok-1 在數學問題上的推理能力。

論文標題：MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
論文地址：https://arxiv.org/abs/2405.16265v2

MindStar 在數學問題上的應用效果：

^{圖 1 ：不同大型語言模型的數學準確率。LLaMA-2-13B 在數學效能上與 GPT-3.5 (4-shot) 類似，但節省了大約 200 倍的計算資源。}

1. 引言

隨著模型規模的快速增長，基於 Transformer 的大型語言模型（LLMs）在指令遵循 [1,2]、編碼輔助 [3,4] 和創意寫作 [5] 等領域展示了令人印象深刻的成果。然而，解鎖 LLMs 解決複雜推理任務的能力仍然是一大挑戰。最近的一些研究 [6,7] 嘗試透過監督微調（Supervised Fine-Tuning, SFT）來解決，透過將新的推理資料樣本與原始資料集混合，使 LLMs 學習這些樣本的底層分佈，並嘗試模仿所學邏輯來解決未見過的推理任務。儘管這種方法有效能提升，但它嚴重依賴於大量的訓練和額外的資料準備 [8,9]。

Llama-3 報告 [10] 強調了一個重要的觀察：當面對一個具有挑戰性的推理問題時，模型有時會生成正確的推理軌跡。這表明模型知道如何產生正確答案，但在選擇上存在困難。基於這一發現，我們提出了一個簡單的問題：我們能否透過幫助 LLMs 選擇正確的輸出來增強它們的推理能力？為探索這一點，我們進行了一項實驗，利用不同的獎勵模型進行 LLMs 輸出選擇。實驗結果表明，步驟級選擇顯著優於傳統的 CoT 方法。

2. MindStar 方法

^{圖 2 MindStar 的演算法架構圖}

我們引入了一種新的推理搜尋框架 ——MindStar（M*），透過將推理任務視為搜尋問題，並利用過程監督的獎勵模型（Process-supervised Reward Model, PRM），M * 在推理樹空間中有效導航，識別近似最優路徑。結合束搜尋（Beam Search, BS）和 Levin 樹搜尋（Levin Tree Search, LevinTS）的思想，進一步增強了搜尋效率，並保證在有限計算複雜度內找到最佳推理路徑。

2.1 過程監督獎勵模型

過程監督獎勵模型 (PRM) 的設計目的是評估大語言模型 (LLM) 生成的中間步驟，以幫助選擇正確的推理路徑。這種方法借鑑了其他應用中 PRM 的成功經驗。具體而言，PRM 以當前推理路徑

和潛在的下一步

作為輸入，並返回獎勵值

。

PRM 透過考慮整個當前推理軌跡來評估新步驟，鼓勵與整體路徑的一致性和忠實性。高獎勵值表明，新的步驟

）對於給定的推理路徑

可能是正確的，從而使擴充套件路徑值得進一步探索。相反，低獎勵值則表示新步驟可能不正確，這意味著遵循此路徑的解決方案也可能不正確。

M* 演算法包含兩個主要步驟，迭代直到找到正確的解決方案：

1. 推理路徑擴充套件：在每次迭代中，基礎 LLM 生成當前推理路徑的下一步。

2. 評估和選擇：使用 PRM 評估生成的步驟，並根據這些評估選擇下一次迭代的推理路徑。

2.2 推理路徑擴充套件

在選擇要擴充套件的推理路徑

後，我們設計了一個提示模板（Example 3.1），以從 LLM 中收集下一步。正如示例所示，LLM 將原始問題作為 {question}，將當前推理路徑作為 {answer}。注意，在演算法的第一次迭代中，所選擇的節點是僅包含問題的根節點，因此 {answer} 為空。對於推理路徑

，LLM 生成 N 箇中間步驟，並將它們作為當前節點的子節點附加。在演算法的下一步中，將評估這些新生成的子節點，並選擇一個新的節點進行進一步擴充套件。我們還意識到，生成步驟的另一種方法是使用步驟標記對 LLM 進行微調。然而，這可能會降低 LLM 的推理能力，更重要的是，這與本文的重點 —— 在不修改權重的情況下增強 LLM 推理能力相悖。

2.3 推理路徑選擇

在擴充套件推理樹後，我們使用預訓練的過程監督獎勵模型（PRM）來評估每個新生成的步驟。正如前面提到的，PRM 採用路徑和步驟，並返回相應的獎勵值。在評估之後，我們需要一種樹搜尋演算法來選擇下一個要擴充套件的節點。我們的框架不依賴於特定的搜尋演算法，在這項工作中，我們例項化了兩種最佳優先搜尋方法，即 Beam Search 和 Levin Tree Search。

3. 結果與討論

在 GSM8K 和 MATH 資料集上的廣泛評估顯示，M * 顯著提升了開源模型（如 LLaMA-2）的推理能力，其表現可與更大規模的閉源模型（如 GPT-3.5 和 Grok-1）媲美，同時大幅減少了模型規模和計算成本。這些發現突顯了將計算資源從微調轉移到推理時間搜尋的潛力，為未來高效推理增強技術的研究開闢了新途徑。

表 1 展示了各種方案在 GSM8K 和 MATH 推理基準上的對比結果。每個條目的數字表示問題解決的百分比。符號 SC@32 表示在 32 個候選結果中的自一致性，而 n-shot 表示少樣本例子的結果。CoT-SC@16 指的是在 16 個思維鏈（CoT）候選結果中的自一致性。BS@16 代表束搜尋方法，即在每個步驟級別涉及 16 個候選結果，而 LevinTS@16 詳細說明了使用相同數量候選結果的 Levin 樹搜尋方法。值得注意的是，MATH 資料集上 GPT-4 的最新結果為 GPT-4-turbo-0409，我們特別強調這一點，因為它代表了 GPT-4 家族中的最佳效能。

圖 3 我們研究了 M * 效能如何隨著步驟級別候選數量的變化而變化。我們選擇 Llama-2-13B 作為基礎模型，並分別選擇束搜尋（BS）作為搜尋演算法。

圖 4 Llama-2 和 Llama-3 模型家族在 MATH 資料集上的尺度定律。所有結果均來自它們的原始資源。我們使用 Scipy 工具和對數函式來計算擬合曲線。

表 2 不同方法在回答問題時的平均 token 生產數量

4. 結論

本文介紹了 MindStar（M*），一種新穎的基於搜尋的推理框架，用於增強預訓練大型語言模型的推理能力。透過將推理任務視為搜尋問題並利用過程監督的獎勵模型，M* 在推理樹空間中有效導航，識別近似最優路徑。結合束搜尋和 Levin 樹搜尋的思想，進一步增強了搜尋效率，並保證在有限計算複雜度內找到最佳推理路徑。廣泛的實驗結果表明，M* 顯著提升了開源模型的推理能力，其表現可與更大規模的閉源模型媲美，同時大幅減少了模型規模和計算成本。

這些研究成果表明，將計算資源從微調轉移到推理時間搜尋具有巨大的潛力，為未來高效推理增強技術的研究開闢了新途徑。

^{參考文獻：}

^{[1] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.}

^{[2] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.}

^{[3] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023.}

^{[4] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.}

^{[5] Carlos Gómez-Rodríguez and Paul Williams. A confederacy of models: A comprehensive evaluation of llms on creative writing. arXiv preprint arXiv:2310.08433, 2023.}

^{[6] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023.}

^{[7] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.}

^{[8] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text. arXiv preprint arXiv:2310.06786, 2023.}

^{[9] Peiyi Wang, Lei Li, Zhihong Shao, RX Xu, Damai Dai, Yifei Li, Deli Chen, Y Wu, and Zhifang Sui. Math-shepherd: Verify and reinforce llms step-by-step without human annotations. CoRR, abs/2312.08935, 2023.}

^{[10] Meta AI. Introducing meta llama 3: The most capable openly available llm to date, April 2024. URL https://ai.meta.com/blog/meta-llama-3/. Accessed: 2024-04-30.}

沒等來OpenAI，等來了Open-Sora全面開源
2024-03-18
OpenAISora
沒有等來OpenAI開源GPT-4o，等來了開源版VITA
2024-08-14
OpenAIGPT
華為諾亞頻域LLM「帝江」：僅需1/50訓練成本，7B模型媲美LLaMA，推理加速5倍
2024-04-03
模型
基於DiT，支援4K影像生成，華為諾亞0.6B文生圖模型PixArt-Σ來了
2024-03-11
模型
比亞迪越來越像華為？
2022-06-30
看來我是真的不適合華為系的。。。
2024-10-17
ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力，開源框架SymbCoT來了
2024-06-07
符號框架
主動放棄了華為的offer，等會兒再遺憾，先覆盤下華為大佬的技術拷問
2024-05-31
一文看懂LLM推理，UCL汪軍教授解讀OpenAI ο1的相關方法
2024-10-11
OpenAI
華為開發者大會來了：您想知道的亞洲誠信亮點在這裡！
2020-03-27
華為雲胡亞凡華為雲NoSQL資料庫的探索與實踐分享
2022-12-29
SQL資料庫
探索未知的未來
2022-06-23
來了，來了，你們要的Nginx教程來了
2020-07-21
Nginx
來了來了，CSS 版的冰墩墩來了……
2022-02-12
CSS
深度學習可以不要乘法，北大，華為諾亞：加法替代效果不變，延遲大降
2020-01-08
深度學習
為了未來的使用測試
2024-08-29
Mysql 8 來了，先談安裝
2018-10-18
MySql
80後的集體疑問：諾基亞後來到底怎麼了？（摘自《無線通訊簡史》第6章，諾基亞副總裁親述往事）
2020-05-13
SEO帶來的不僅是流量，也帶來了品牌和口碑
2023-04-09
探索新未來的未知
2022-06-23
諾基亞財報：2020年Q2諾基亞營收為50.92億歐元同比下滑11％
2020-07-31
營收
AI Agent框架（LLM Agent）：LLM驅動的智慧體如何引領行業變革，應用探索與未來展望
2024-07-05
AI框架智慧體行業
OpenAI 推出迄今為止最先進的推理模型 o3
2024-12-21
OpenAI模型
華為手機怎麼設定來電影片？華為EMUI來電影片秀的設定教程
2019-12-12
UI
【 Flutter 手勢探索】我的第二本小冊來了
2021-05-13
Flutter
直播預告：OpenAI 開始擁抱 RTC！為什麼 LLM+RTC 才是多模態 AI 的未來？丨 RTE Dev Talk
2024-12-18
OpenAIdev
谷歌雲遊戲來了？抱歉，香不起來
2019-11-20
谷歌遊戲
書單來了！大廠的技術牛人在讀什麼：華為篇
2020-10-24
華為不養豬，小米沒造車，“巨頭錯覺”是怎麼來的？
2021-03-10
房住不炒，來真的了？
2019-08-01
華為智慧安防放大招新品牌HoloSens來了
2019-08-09
華為諾亞方舟開源哪吒、TinyBERT模型，可直接下載使用
2019-12-05
模型
玩家苦等多年，《消逝的光芒2》終於要來了
2021-11-22
諾基亞財報：2021年Q4諾基亞淨銷售額為64.14億歐元同比下降2%
2022-02-04
LLM 推理 - Nvidia TensorRT-LLM 與 Triton Inference Server
2024-06-26
Server
華為手機怎麼設定來電視訊？華為EMUI來電視訊秀的設定教程
2019-12-12
UI
遊戲開發者的通關之旅，華為AGC for Games帶來了什麼？
2021-08-26
遊戲開發GCGAM
騰訊版Sora來了！我們搶先實測：最懂鏡頭的AI，有《花樣年華》那味了
2024-11-29
SoraAI

等不來OpenAI的Q*，華為諾亞探索LLM推理的秘密武器MindStar先來了

相關文章