突破!自然語言強化學習(NLRL):一個可處理語言反饋的強化學習框架

机器之心發表於2024-12-07

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本論文由倫敦大學學院、上海交通大學、布朗大學、布里斯托大學、新加坡國立大學以及薩里大學的研究者合作完成。

馮熙棟是論文第一作者,即將畢業於倫敦大學學院。目前是Google DeepMind的Research Scientist,主要研究方向包括強化學習與生成模型。劉博是本推文作者,新加坡國立大學二年級博士生,研究強化學習、推理及機器學習系統在複雜現實環境中的應用。
圖片
在人工智慧發展史上,強化學習 (RL) 憑藉其嚴謹的數學框架解決了眾多複雜的決策問題,從圍棋、國際象棋到機器人控制等領域都取得了突破性進展。

然而,隨著應用場景日益複雜,傳統強化學習過度依賴單一數值獎勵的侷限性日益凸顯。在現實世界中,反饋訊號往往是多維度、多模態的,例如教練的口頭指導、視覺示範,或是詳細的文字說明。

來自倫敦大學學院、上海交通大學、布朗大學、新加坡國立大學和布里斯托大學的聯合研究團隊提出了全新的自然語言強化學習(Natural Language Reinforcement Learning, NLRL)正規化,成功將強化學習的核心概念類比為基於自然語言的形式,開闢了一條通向更智慧、更自然的 AI 決策學習的新道路。
圖片
  • 論文題目: Natural Language Reinforcement Learning
  • 論文連結: https://arxiv.org/abs/2411.14251
  • 程式碼連結: https://github.com/waterhorse1/Natural-language-RL

從數值到語言:新正規化的萌芽

隨著大語言模型(LLM)在理解和生成自然語言方面的飛速發展,研究者們開始探索如何讓 AI 系統像人類一樣透過語言來理解任務、制定策略並解釋決策過程。論文第一作者的早期工作 ChessGPT(https://arxiv.org/abs/2306.09200)嘗試透過收集對局評論來訓練語言模型並取得了一定成功。然而,這種基於人類資料的學習方式很快遇到了瓶頸:網際網路資料質量參差不齊,高質量專家標註成本高昂,而對於全新任務更是無從獲取相關經驗資料。

這種困境促使研究團隊開始探索一個更具突破性的方向:能否設計一個框架,讓 AI 系統完全透過與環境的互動來學習,而不依賴任何人類標註資料?傳統強化學習為這個問題提供了靈感,但其單一數值獎勵的機制難以滿足複雜場景的需求。團隊意識到需要一個新正規化,既要繼承強化學習的數學嚴謹性,又要具備自然語言的表達豐富性。這個思路最終導向了 NLRL 的誕生。

自然語言強化學習

傳統強化學習雖然在數學上嚴謹優雅,但其單一數值反饋機制與人類學習方式存在巨大差距。研究團隊從象棋教練指導學生的場景獲得啟發:教練不會簡單說 “這步棋的價值是 0.7”,而是會詳細解釋 “這個走法控制了中心,限制了對手的機動性,同時為王翼進攻創造了條件”。這種觀察促使團隊思考:能否將豐富的語言反饋訊號整合進學習框架?

這個思路的關鍵突破來自對傳統強化學習本質的重新思考:既然傳統 RL 可以透過蒙特卡洛和時序差分等方法進行學習,這些方法是否可以擴充套件到語言空間?基於這一洞察,團隊提出了 NLRL 框架,將傳統 RL 中的數學概念類比為語言形式。以下是一個對應關係示意圖。
圖片
具體而言,NLRL 引入 “語言任務指令”(T_L)替代抽象的獎勵函式,並設計了度量函式 F 來評估軌跡描述 D_L (τ_π) 與任務指令的完成度。

語言化的決策框架

在 NLRL 中,MDP 的每個組成部分都被重新定義為文字形式。狀態變為包含完整上下文的自然語言描述,動作空間轉化為帶有推理過程的語言決策,而環境反饋則擴充套件為包含原因分析的詳細評估。例如,在迷宮環境中的狀態描述會包含位置、周圍環境、歷史探索等完整資訊。

語言策略與推理

NLRL 中的策略 π_L 被創新性地分解為兩個部分:π_L (a,c|s) = π_L (c|s)π_L (a|c,s),其中 c 代表思維過程。這種分解使得決策過程變得完全透明。以國際象棋為例,系統會先分析局勢(“白方控制中心點,黑方王翼薄弱”),提出計劃(“開展王翼進攻,同時固守中心”),最後給出具體建議(“Nf3-e5,威脅 f7 並加強中心控制”)。

語言價值評估

NLRL 將傳統的標量值函式 V (s) 和 Q (s,a) 擴充套件為語言價值函式 V^L_π 和 Q^L_π。這種擴充套件使得評估變得更加豐富和可解釋。評估結果不僅包含勝率,還涵蓋空間利用、子力配合等多個角度的分析,並提供具體的改進建議。

從理論到實踐

將強化學習的數學概念轉化為語言形式是一個優雅的構想,但如何在實踐中實現這種轉化卻是一個巨大的挑戰。研究團隊意識到,近年來大語言模型在自然語言處理和推理能力方面的突破,為 NLRL 的實現提供了關鍵工具。透過深入研究大語言模型的能力邊界,團隊發現 LLM 不僅能夠理解和生成自然語言,還具備 information synthesis(資訊綜合)、reasoning(推理)和 correlation analysis(相關性分析)等能力,這些能力恰好對應了傳統強化學習中的期望計算、價值估計和策略改進等核心操作。

基於這一洞察,研究團隊提出了三個關鍵技術創新,構建了完整的 NLRL 實現框架:

語言蒙特卡洛估計

在傳統強化學習中,蒙特卡洛方法透過取樣多條軌跡並取平均值來估計狀態價值。但在語言空間中,我們無法直接對文字描述進行算術平均。研究團隊利用大語言模型作為資訊聚合器 (aggregator)。

具體來說,當系統需要評估某個狀態時,它會:

1. 從該狀態開始取樣 K 條完整軌跡
2. 將每條軌跡轉化為詳細的文字描述
3. 使用專門設計的提示讓 LLM 扮演 “專家評估員” 的角色
4.LLM 分析所有軌跡描述,提取關鍵模式和見解
5. 生成一個綜合性的評估報告

例如,在國際象棋中,系統可能會分析說:“基於觀察到的 20 個可能發展,此位置對白方有利。在 80% 的變化中,白方能夠透過控制中心格和針對 f7 的戰術威脅獲得優勢。但需要注意的是,如果黑方成功完成王翼城堡,局勢可能趨於平衡。”
圖片
語言時序差分學習

傳統的時序差分學習基於貝爾曼方程,將長期價值分解為即時獎勵和未來狀態的折扣價值。NLRL 創新性地提出了語言貝爾曼方程,將這種時序關係擴充套件到語言空間。

在 NLRL 中,語言時序差分學習包含三個關鍵元件:

1. 文字描述生成器 d:將狀態轉換 (s,a,r,s') 轉化為自然語言描述
2. 資訊聚合函式 G1:綜合多個時間步的資訊
3. 語言組合函式 G2:將即時反饋與未來評估結合

這三個元件協同工作的方式如下:

  • 首先,d 將環境反饋轉化為詳細的文字描述,包括採取的動作、即時反饋和到達的新狀態
  • G2(通常是一個經過特殊提示的 LLM)將即時描述與對未來狀態的語言評估結合,生成一個整體性的分析
  • G1 聚合多個這樣的分析,得出最終的狀態評估

在實踐中,這種方法表現出了獨特的優勢:

  • 可以捕捉到難以量化的微妙因素
  • 評估結果具有很強的可解釋性
  • 能夠處理長期依賴關係
圖片
語言策略提升

在傳統強化學習中,策略提升通常透過梯度上升來最大化期望回報。但在語言空間中,我們需要一個全新的策略提升機制。研究團隊提出了基於語言相關性分析的策略提升方法。

這種提升機制的工作原理是:

1. 對當前狀態收集多個候選動作
2. 獲取每個動作的語言價值評估
3. 使用 LLM 分析這些評估與任務目標的相關性
4. 生成改進的決策鏈路,包括:

  • 詳細的推理過程
  • 對不同選項的權衡分析
  • 最終決策的依據

例如,在迷宮導航任務中,系統可能會這樣分析:“向右移動是最優選擇,因為:1)根據之前的探索經驗,右側路徑更可能通向目標 2)即使這條路不是最短路徑,也為我們保留了回退的選項 3)相比向上移動可能遇到的死衚衕,這個選擇風險更小。”

實驗驗證

研究團隊在三個具有代表性的環境中系統地驗證了 NLRL 的效果。這些實驗不僅展示了 NLRL 的效能優勢,更重要的是證明了該框架在不同型別任務中的普適性和可擴充套件性。

迷宮導航 - 基於 prompt 的自然語言策略迭代

在複雜的迷宮導航任務中,研究團隊測試了純基於 prompt 的自然語言策略迭代演算法。研究團隊選擇了兩種具有挑戰性的迷宮環境進行測試:雙 T 型迷宮和中等複雜度迷宮。在這些環境中,智慧體需要從隨機初始位置導航到目標位置,同時避免撞牆。透過語言 TD 估計,在雙 T 型迷宮中實現了 - 11.19±2.86 的平均獎勵,遠優於基線方法的 - 27.29±4.43。但 NLRL 真正的優勢不僅僅體現在數字上。系統能夠清晰地解釋每個決策的原因,例如:“選擇向南移動,因為:1)北邊是死衚衕,我們之前已經探索過 2)南向路徑似乎更接近目標位置 3)即使這條路不是最優解,我們仍保留了向東撤退的選項。” 實驗還發現,增加變化數量和前瞻步數能進一步提升效能。
圖片
突破棋 (Breakthrough)- 自然語言價值函式

在 5x5 突破棋(狀態空間達 10^8)這個幾乎沒有人類資料的任務中,NLRL 純依靠環境反饋訓練出了高質量的語言評估器。透過混合不同水平的 MCTS 策略資料構建訓練集,評估器達到了 0.85 的準確率,顯著超越 LLAMA-3.1-70b 的 0.61 以及 GPT-4o 的 0.58。更重要的是,這個評估器能提供專業級別的局勢分析。例如:“黑方略佔優勢,原因有三:1)在 d4 和 e4 形成了穩固的雙兵鏈 2)白方右翼的兵形成了薄弱點 3)黑方的推進速度比白方快半步。建議白方透過 c3-c4 來爭奪中心控制權。”
圖片
井字棋 - 自然語言 Actor-Critic

在井字棋環境中,團隊實現了完整的語言 Actor-Critic 系統。透過動作選擇掩碼防止幻覺、經驗緩衝區解決遺忘問題、持續的迭代最佳化等創新,系統在隨機對手下實現 90% 以上勝率,面對確定性策略甚至能保持 100% 的勝率,同時保持決策過程的清晰可解釋性。
圖片

相關文章