AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文名稱:AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training 論文連結:https://arxiv.org/abs/2309.17179 程式碼連結:https://github.com/waterhorse1/LLM_Tree_Search
TSLLM 是一個普遍適用和可擴充套件的框架,透過學習價值函式可應用於幾乎任何任務,以及任何大小的語言模型。 TSLLM 在不同問題上驗證了樹搜尋能增強大語言模型推理階段表現的同時,也進一步驗證了其迭代增強語言模型作為一個語言模型訓練新正規化的潛力。 在設計上,TSLLM 支援逐句/詞元細粒度的搜尋。 使用可靠魯棒的價值函式作為狀態評估,TSLLM 支援包括簡單的 BFS/DFS,傳統 MCTS,AlphaZero 式的 MCTS-α,MCTS-Rollout 等演算法。 TSLLM進行了全面且公平的對比。例如,為了實現與非搜尋演算法(如 CoT/CoT-SC)的公平對比,TSLLM 透過統計總體計算量的方式衡量不同演算法的效果與效率。
演算法的合理對比。樹搜尋演算法天生會帶來更高的計算複雜度,合理的演算法對比應在相似的計算量上進行。 選擇合理基線和設定。例如,團隊發現一個經常被忽略的基線演算法:Majority-Vote + Outcome Reward Model。實驗中團隊發現其可以作為簡單卻非常強大的基線,在GSM8K上甚至可以超過樹搜尋演算法。同時團隊嚴格避免了不合理的實驗設定:如利用測試集的真值進行樹搜尋回溯。