

預判式協作:你切菜時,DPT-Agent 秒遞盤子;牛排燒焦了,它搶先滅火;
動態分工:根據訂單優先順序,自動切換「主廚」與「幫工」角色,有效安排時間;
讀心級配合:甚至能透過你的動作歷史,推測你想做漢堡還是沙拉。

論文題目:Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration
論文地址:https://arxiv.org/abs/2502.11882
專案地址:https://github.com/sjtu-marl/DPT-Agent



「快腦」System 1—— 條件反射級響應
程式碼即策略(Code-as-Policy):將高頻操作(滅火、遞食材)固化為有限狀態機(FSM)規則,最佳化初始 FSM 策略;
持續輸出保障:即使 System 2 在後臺思考,System 1 也能按 FSM 中最新策略持續行動,杜絕 “當機卡頓”,原子動作響應延遲 < 0.1 秒。
「慢腦」System 2—— 戰略級讀心術
心智理論(ToM):讓 LLM 透過分析玩家動作歷史,實時構建人類意圖模型(例:「TA 連續取牛肉→今晚主打牛肉漢堡」);
非同步反思:在「快腦」指揮智慧體做菜的同時,「慢腦」根據遊戲歷史最佳化策略,如發現「生菜總是不夠」,自動調整備菜優先順序,邊協作邊進化。



推理模型戰勝高延遲:DeepSeek-R1 滿血版在 DPT-Agent 框架加持下,相比使用 ReAct 的 - 42.5 分有大幅提升,獲得 74.3 分的戰績,逆襲成 MVP, o3-mini-high 相比 o3-mini-medium 和 o3-mini-low 即使延遲增大,也一樣呈現能力上升趨勢。
非推理模型表現也亮眼:DeepSeek-V3 在 DPT_Agent 框架加持下表現與滿血 DeepSeek-R1 接近,展現不俗實力。
ToM 模組的雙刃劍:
神助攻案例:
當規則 AI 是專注取牛肉的 Agent 時,DeepSeek-R1-70b 驅動的 DPT-Agent 透過 ToM 推斷「玩家專注牛肉漢堡」,主動改變策略備好麵包 + 生菜
人類持續傳遞牛肉表明其偏愛處理肉類,所以智慧體應專注於其他任務以最佳化團隊合作。
當規則 AI 是專注組裝漢堡並上菜的 Agent 時,o3-mini-low 驅動的 DPT-Agent 透過 ToM 推斷 “玩家專注於組裝漢堡並上菜”,及時調整策略為準備所有的食材來進行配合
人類玩家優先處理緊急的牛肉訂單並進行快速組裝,通常專注於組裝和提供即食食品。智慧體應透過準備熟透的牛肉並迅速傳遞完成的食材來支援這一點,以確保更順暢的協作。
翻車現場:「ToM 模組是協作上限的鑰匙,但鎖眼必須匹配模型自身的心智推理能力」。
Llama3-70B 可能因自身 ToM 能力薄弱,搭載完整 DPT-Agent 後反而得分下降,沒有觀察到顯著的推斷現象
關於 ToM 模組的更多研究,尤其是 Agent 和人的雙向 ToM 過程,可以參考團隊的另一篇工作「Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task」。
論文連結:https://arxiv.org/abs/2409.08811



