先別罵隊友,上交如何讓DeepSeek R1在分手廚房再也不糊鍋?

机器之心發表於2025-03-18

圖片

本文由上海交通大學SJTU-MARL實驗室與AGI-Eval評測社群聯合團隊撰寫,第一作者張劭為上海交通大學博士生(導師:溫穎副教授),研究方向為人智協同與多智慧體系統,共同第一作者王錫淮為上海交通大學博士生(導師:張偉楠教授),研究方向為強化學習與多智慧體系統。通訊作者溫穎為上海交通大學人工智慧學院副教授,其團隊SJTU-MARL實驗室研究方向涉及強化學習,多智慧體系統及決策大模型。AGI-Eval是上海交通大學、同濟大學、華東師範大學、DataWhale等高校和機構合作釋出的大模型評測社群。

在春節的 DeepSeek 大熱後,大模型也更多走進了大家的生活。我們越來越多看到各種模型在靜態的做題榜單擊敗人類,解決各種複雜推理問題。但這些靜態的測試與模型在現實中的應用還相去甚遠。模型除了能進行對話,還在許多更復雜的場景中以各種各樣的方式與人類產生互動。除了對話任務外,如何實現大模型與人的實時同步互動協作越來越重要。

像上週剛剛引爆社群的 Manus,就號稱能夠讓 LLM Agent 能夠與人實時協作互動完成任務。網上對 Manus 的吹捧很多,甚至 Manus 的一個內測碼的價格在閒魚上就被叫到了 6 萬。但在實測影片中,我們可以看到 Manus 更像是回合制協作,使用者輸入一個指令後,Manus 進行規劃,列出自己需要完成的任務,並逐步完成。使用者只能在 Manus 完成任務的過程中靜靜等待,也無法修改 Manus 的計劃,直到 Manus 完成它的計劃才能開始新的互動。

但在現實生活中,我們與同伴互動協作完成一個任務時,並不是回合制互動的,人與人之間存在著更多頻繁的互動以及對對方的觀察與輸入輸出,這些互動帶來了環境狀態的改變以及對人即時反應能力的要求。

Manus 的互動形式仍然無法解決對人類的實時響應問題。使用者在出現臨時的想法變化,或希望和模型協作共同工作時,Agent 仍然面臨無法快速響應,以及難以推斷使用者意圖的挑戰。

如何讓模型實現真正的人機實時同步協作?在 Claude-3.7-sonnet 遊玩寶可夢,模型在貪吃蛇中進行大比拼受到廣泛關注的時刻,我們發現多人協作遊戲或許是一個更合適的測試場景。

「鍋裡的牛排糊了!滅火器在哪?生菜還沒切完!!」—— 如果你玩過《Overcooked》,一定體驗過這種手忙腳亂的崩潰感。實時遊戲的突發狀況、瘋狂倒數計時的訂單,以及頻頻和你搶活幹的隊友,讓這款強調同步協作的遊戲既充滿歡樂又令人血壓飆升。

《Overcooked》是一款 Team 17 發行的以合作烹飪為主題的派對遊戲,玩家需在特別的廚房中與隊友實時配合完成切菜、煎牛肉餅、組裝漢堡以完成訂單,並時刻注意滅火。遊戲憑藉極具挑戰的實時協作機制和令人手忙腳亂的廚房佈局,迅速成為考驗團隊默契的「友情 / 愛情檢測器」,也因此得名「分手廚房」。
圖片
Overcooked遊戲畫面

有趣的是,這種高實時性、強互動的虛擬環境也吸引了多智慧體系統(Multi-Agent System, MAS)和多智慧體強化學習(Multi-agent Reinforcement Learning)研究者的目光。由於遊戲要求智慧體快速分工協作,解決合作中的協調問題,Overcooked 在 2019 年由 Stuart Russell 和 Pieter Abbeel 領銜的 Center for Human-Compatible AI ,透過簡化實現成人智協同的基準 overcooked-ai,開始被被廣泛用作探究智慧體與人類協作能力的測試平臺,尤其是和人類的零樣本協作(Zero-shot Coordination)。研究者透過訓練 AI 代理預測人類玩家的決策與溝通,探索分散式協作、應急策略最佳化等課題,其成果甚至為自動駕駛、工業機器人協作提供了靈感。在 overcooked-ai 的「虛擬後廚」,人機協作的邊界正被重新定義。
圖片
原始的overcooked-ai環境

當實時同步協作對人而言仍有巨大挑戰時,上海交大(共同第一作者為博士生張劭和王錫淮,導師為溫穎副教授和張偉楠教授)與 AGI-Eval 評測社群開發的 DPT-Agent 框架和基於 Overcooked-AI 重新升級的 Overcooked Challenge 實時同步協作評估環境,加入更復雜的菜譜以及還原遊戲的實時協作機制,讓大模型加入這場協作遊戲,直面同步實時協作挑戰:
  • 預判式協作:你切菜時,DPT-Agent 秒遞盤子;牛排燒焦了,它搶先滅火;

  • 動態分工:根據訂單優先順序,自動切換「主廚」與「幫工」角色,有效安排時間;

  • 讀心級配合:甚至能透過你的動作歷史,推測你想做漢堡還是沙拉。

圖片
  • 論文題目:Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration

  • 論文地址:https://arxiv.org/abs/2502.11882

  • 專案地址:https://github.com/sjtu-marl/DPT-Agent

DPT-Agent 和 Overcooked Challenge 環境現已開源,有興趣的朋友可以試試接入大模型和 DPT-Agent 一起玩 Overcooked。
圖片
看到這裡,你一定會問,平時話很多的 ChatGPT 輸出一次要好幾秒,還有在對話時要思考幾十秒的 DeepSeek-R1,雖然推理能力很強也很會思考,但似乎延遲巨大,如何做到和人實時同步協作?

答案就是雙過程理論(Dual Process Theory)—— 讓大模型學會邊煎牛排邊寫策略」!

人腦同款雙系統:快慢雙腦破解 AI 協作難題

大模型在實時同步協作中為何頻頻翻車?問題出在「大模型想得慢做的慢」「小模型做的快但做不對」的矛盾:

大模型往往生成一個決策至少需數秒,推理模型則可能達到驚人的幾分鐘,在分手廚房以秒計算的遊戲程序裡難以實施決策,而小模型響應的確很快,但往往由於能力不足,出現失誤決策。
圖片
左:Overcooked Challenge 的關卡1,同時支援單人和雙人遊戲;右:Overcooked Challenge 的關卡2

作者使用了一系列的大小模型在 Overcooked Challenge 單人遊戲上進行了測試,可以明顯的看到絕大多數非推理模型在直接決策(Act as System 1)以及推理模型先思考再決策(Long CoT + Act as System 2)的情況下都無法得分,即使強如 GPT-4o,也無法超越簡單的有限狀態機(FSM)。
圖片
橫軸為得分效率:正得分(即不含扣分)/有效宏操作,縱軸為每局遊戲平均得分,圓的大小代表模型每一次決策從輸入到輸出的平均延時(秒)

這使得我們思考一個問題,模型是否能像人一樣,一邊不間斷地做手上的工作,一邊思考更復雜的策略,而不是想一步做一步?

借鑑人類雙過程理論(Dual Process Theory),DPT-Agent 透過 System 1 和 System 2 的結合,為 Agent 裝上「人腦同款雙系統」:
  1. 「快腦」System 1—— 條件反射級響應

    • 程式碼即策略(Code-as-Policy):將高頻操作(滅火、遞食材)固化為有限狀態機(FSM)規則,最佳化初始 FSM 策略;

    • 持續輸出保障:即使 System 2 在後臺思考,System 1 也能按 FSM 中最新策略持續行動,杜絕 “當機卡頓”,原子動作響應延遲 < 0.1 秒。

  2. 「慢腦」System 2—— 戰略級讀心術

  • 心智理論(ToM):讓 LLM 透過分析玩家動作歷史,實時構建人類意圖模型(例:「TA 連續取牛肉→今晚主打牛肉漢堡」);

  • 非同步反思:在「快腦」指揮智慧體做菜的同時,「慢腦」根據遊戲歷史最佳化策略,如發現「生菜總是不夠」,自動調整備菜優先順序,邊協作邊進化。

圖片
DPT-Agent框架圖

硬核實驗:20 個模型 + 兩大主流框架與 DPT-Agent 的大比拼

在全新的難度加強 Overcooked Challenge 環境上,20 個主流模型(涵蓋 GPT-o3-mini、DeepSeek-R1 系列以及最新發布的 QwQ-32b 等)在 ReAct、Reflexion 和 DPT-Agent 的兩個版本(帶有 / 不帶有心智理論能力)上進行了單智慧體、多智慧體以及真實人類合作測試,證明了 DPT-Agent 在實時同步協作上的超強能力。

「單人遊戲實戰」:高延遲模型的逆襲

在單人遊戲中,DPT-Agent 在得分效率和得分上均優於 ReAct 和 Reflexion,而高延遲模型更是得到逆襲級別的表現。絕大多數高延遲模型在 DPT-Agent 框架的幫助下取得從有得分能力到能夠真正得分的轉變,相比 ReAct 和 Reflexion 取得大幅提升。DeepSeek-R1-70B 使用 DPT-Agent 框架後,在延遲基本不變的情況下,得分從使用 ReAct 的 -17.0 以及 Reflexion 的 -20.0 變為 +60.0,逆襲成「廚房戰神」。而其他非推理模型也有不同程度的提升。
圖片
軸為得分效率:正得分(即不含扣分)/有效宏操作,縱軸為每局遊戲平均得分,圓的大小代表模型每一次決策從輸入到輸出的平均延時(秒)

「智慧協作實戰」:當 DPT-Agent 遇上「偏科隊友」

在真實的協作場景中,AI 常需面對能力參差不齊的夥伴 —— 可能是隻會切菜的規則機器人,或是專注煎牛排卻絕不上菜的「一根筋」AI。DPT-Agent 如何應對?團隊設計了殘酷的多智慧體實驗:

極端測試:與「偏科 AI」組隊讓 DPT-Agent 搭檔三類規則 AI(專精切生菜 / 煎牛排 / 組裝漢堡)。

為了公平比較,ReAct 和 Reflexion 使用和 DPT-Agent 相同的 System 2 輸出方式與動作執行器來實現為 System 1 + System 2 框架。
圖片
  1. 推理模型戰勝高延遲:DeepSeek-R1 滿血版在 DPT-Agent 框架加持下,相比使用 ReAct 的 - 42.5 分有大幅提升,獲得 74.3 分的戰績,逆襲成 MVP, o3-mini-high 相比 o3-mini-medium 和 o3-mini-low 即使延遲增大,也一樣呈現能力上升趨勢。

  2. 非推理模型表現也亮眼:DeepSeek-V3 在 DPT_Agent 框架加持下表現與滿血 DeepSeek-R1 接近,展現不俗實力。

  3. ToM 模組的雙刃劍:

  • 神助攻案例:

    • 規則 AI 是專注取牛肉的 Agent 時,DeepSeek-R1-70b 驅動的 DPT-Agent 透過 ToM 推斷「玩家專注牛肉漢堡」,主動改變策略備好麵包 + 生菜

    • 人類持續傳遞牛肉表明其偏愛處理肉類,所以智慧體應專注於其他任務以最佳化團隊合作。

    • 當規則 AI 是專注組裝漢堡並上菜的 Agent 時,o3-mini-low 驅動的 DPT-Agent 透過 ToM 推斷 “玩家專注於組裝漢堡並上菜”,及時調整策略為準備所有的食材來進行配合

    • 人類玩家優先處理緊急的牛肉訂單並進行快速組裝,通常專注於組裝和提供即食食品。智慧體應透過準備熟透的牛肉並迅速傳遞完成的食材來支援這一點,以確保更順暢的協作。

  • 翻車現場:「ToM 模組是協作上限的鑰匙,但鎖眼必須匹配模型自身的心智推理能力」。

    • Llama3-70B 可能因自身 ToM 能力薄弱,搭載完整 DPT-Agent 後反而得分下降,沒有觀察到顯著的推斷現象

    • 關於 ToM 模組的更多研究,尤其是 Agent 和人的雙向 ToM 過程,可以參考團隊的另一篇工作「Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task」。

      論文連結:https://arxiv.org/abs/2409.08811

「真實人類協作」:主客觀均是協作王者

團隊在學校內招募了 68 位學生和多智慧體實驗中所有的 Agent 進行了協作實驗,並在先前實驗的基礎上增加了一個關卡。實驗參與者在完全未知 Agent 身份的情況下與所有 Agent 以隨機順序進行實驗,對 Agent 進行了協作能力和偏好程度的打分。

DPT-Agent 展現了超強協作能力,得分在兩個地圖上碾壓其他框架,主觀協作能力和人類主觀偏好得分最高。
圖片
DPT-Agent和人類玩家在關卡1的遊戲過程(藍色帽子為人類玩家,紅色帽子為DPT-Agent,影片為2倍速)
圖片
人類玩家藉助關卡2的中間操作檯無縫合作(藍色帽子為人類玩家,紅色帽子為DPT-Agent,影片為2倍速)

同時有趣的是,人類對 agent 的偏好和協作程度,可能與 agent 的得分貢獻率有關,人類會展現出更多的對貢獻率更高的模型的喜愛。
圖片
與人類協作遊戲得分與各Agent的得分貢獻率
圖片
人類主觀評價得分

開源評估框架

DPT-Agent 使用的 Overcooked Challenge 環境現已開源,支援 Act,ReAct,Reflexion,ReAct in DPT, Reflexion in DPT, DPT-Agent w/o ToM,DPT-Agent 多種框架下的模型評估,同時公開多達 34 個主流模型包含 DeepSeek-R1 在內的評估結果,評估結果現已在 AGI-Eval 平臺上線,未來計劃推出人機協作評估,請大家一起來和大模型玩分手廚房!

相關文章