Agentic RL 推动大语言模型走向“会做”

原创 Bin 2025-09-10 11:57 浙江

从「会说」到「会做」。

2025 年，大语言模型的热潮仍在继续，但研究者们逐渐意识到，当前主流的训练范式已显现瓶颈。基于人类偏好反馈的强化学习（PBRFT）所训练出来的大语言模型（包括但不限于 GPT-4、Qwen-2.5 等）擅长生成高质量的单次回答，但在需要长期规划、与动态环境交互和持续自我学习的复杂任务面前却力不从心。LLM 似乎被困在了“会说”的阶段。

更多的工作与模型，开始关注如何让 LLM 与复杂环境交互的过程中更加“会做”。大家耳熟能详的实践包括最近半年爆火的 Qwen QwQ-32B、Kimi K2 等智能体模型（Large Agent Model）——它们的共通点是：利用强化学习，让 LLM 天然地变成原生的会反思、会使用工具的智能体（Agent）。

为了明确定义从“会说”到“会做”的进化路径，以此来构建下一代智能体，来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校，伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者，共同撰写并发布了长达百页的综述：《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

论文链接：https://arxiv.org/abs/2509.02547Github 链接：https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

以及，此综述也已经收录至特工宇宙 ima 知识库，读者可以在知识库中在线阅读/免费下载/AI 问答。

如果看不太懂的朋友可以在 ima 里问问 DeepSeek。

该综述系统性地回答了关于 Agentic RL 的三个核心问题：它是什么，它能做什么，以及它将走向何方。

在理论层面，它首次形式化定义了 Agentic RL，清晰地将其与传统的 PBRFT 范式从决策过程、动作空间到奖励机制上进行了区分。在结构上，论文构建了一个全面的双重分类法：一方面从模型核心能力（如规划、工具使用、记忆等）的视角，剖析 Agentic RL 如何重塑智能体的内在机制；另一方面则从任务应用（如搜索、代码、数学等）的视角，描绘了其在不同领域的演化路径和落地形态。在实践上，它整合了超过 500 篇前沿研究，并汇总了相关的开源环境、基准测试和框架，最后对未来的核心挑战进行了展望。

范式之变 - 从“文本对齐”到“决策智能”

这篇综述的核心，在于清晰定义了一种范式迁移。它指出，传统 LLM 的强化学习（LLM-RL）可以被看作一个退化的、单步的马尔可夫决策过程（MDP），其目标是优化一次性的文本输出。

而 Agentic RL 则完全不同，它将 LLM 置于一个持续的、多步的、部分可观测的决策过程（POMDP）中。在这个新范式下，LLM 不再是简单的文本生成器，而是一个需要与动态环境持续交互、做出系列决策的自主智能体 (Agent)。

这一转变的核心在于：

1. 马尔可夫决策过程 (Markov Decision Processes)：论文在理论上将 PBRFT 形式化为一个退化的、单步 MDP，整个过程只有一步；而 Agentic RL 则被建模为多步、部分可观测的 POMDP，更贴近真实世界决策。

2. 环境状态 (Environment State)：在 PBRFT 中，环境状态只是一个静态的初始 prompt，生成回答后即终止。而在 Agentic RL 中，环境是动态演化的，智能体的每一步行动都会导致世界状态的真实改变。

3. 行动空间 (Action Space)：PBRFT 的行动空间仅限于生成纯文本序列。Agentic RL 极大地扩展了这一点，引入了包含文本沟通和结构化操作（如工具调用）的复合行动空间，让智能体具备了改造环境的能力。

4. 状态转移 (Transition Dynamics)：PBRFT 的状态转移是确定性的，一个输入对应一个输出，过程简单明了。Agentic RL 的状态转移则是概率性的和不确定的，充满了真实世界的复杂性。

5. 奖励函数 (Reward Function)：PBRFT 依赖于对最终结果的单一标量奖励。Agentic RL 则采用步进式的奖励机制，能够对长序列中的关键中间步骤给予反馈，从而解决了稀疏奖励下的学习难题。

6. 学习目标 (Learning Objective)：PBRFT 的目标是最大化单次响应的期望奖励。Agentic RL 的目标是最大化长期视野下的累积折扣奖励，这本质上要求智能体具备规划和远见。

7. 强化学习算法 (RL Algorithms)：不同的目标需要不同的优化工具。PBRFT 更多采用 DPO 、PPO 等偏好优化算法，而 Agentic RL 则极大地依赖于新兴的 GRPO 及其各类变体（如 DAPO，GSPO，GMPO 等等），以支持在环境中的探索和时序信用分配。

Agent 的核心能力 – 六大能力，RL 一应支持

一个强大的 Agentic LLM 必然是一个复杂的系统，由多个相互协作的核心能力模块构成。其中的六个关键能力（推理（reasoning），记忆（memory），工具使用（tool-use），自进化（self-improvement），感知（perception）以及推理（reasoning），共同构成了 Agent 的认知架构。这些架构决定了Agent如何与环境交互，进行行动，并获得反馈的执行循环。

诚然，这些能力在 Agent 的早期探索中，可以通过精巧的提示词工程或启发式规则在一定程度上实现。然而，要将这些孤立的功能模块真正融合成一个能够自主学习、动态适应的有机整体，强化学习（RL）正成为当下最引人瞩目的范式。

它提供了一个统一的优化框架，将这些原本需要人工设计的启发式功能，转变为可端到端学习的、稳健的智能行为，是增强并整合这六大能力的关键机制。

1. 规划核心 (Planning Core)：这是 Agent 的“大脑”，负责为复杂目标进行任务分解和序列规划。Agentic RL 让规划能力从固定的提示工程（如 ReAct）进化为可根据环境反馈动态调整的策略。

对于 LLM Agent 的 Planning 能力，强化学习的核心贡献在于为原本静态的规划注入了经验学习的能力。文章观察到，当前研究沿着两条截然不同的技术路径演进：

一是将 RL 作为“外部向导”，用以训练一个独立的评估或奖励模型，从而指导蒙特卡洛树搜索（MCTS）等经典规划算法。在此模式下，LLM 主要扮演“行动提出者” (action proposer) 的角色，其自身的规划策略并未直接改变。

二是将 RL 作为“内部驱动”，直接将 LLM 视作一个完整的策略网络，通过与环境的直接交互和试错来端到端地优化其内在的规划能力。这使得 LLM 从一个静态的生成器，演变为一个自适应的决策策略本身。

未来的前沿或许在于融合这两种范式：即开发出能够将结构化搜索过程本身内化的智能体。最终的目标是让 Agent 通过强化学习学会一种元策略 (meta-policy)——自主决定何时依赖快速、直觉式的规划，何时启动深度的、审慎的内部搜索与规划。

2. 工具使用 (Tool Use)：Agentic RL 的核心在于将工具使用从“模仿”升级为“为了结果而优化”。智能体不再是简单复现工具调用模式，而是自主学习何时、如何以及组合使用哪些工具来最高效地完成任务。

在工具使用 (Tool Use) 的演进中，文章观察到了一条从模仿式调用到策略性优化的清晰轨迹。早期方法如 ReAct 依赖提示工程，而 Toolformer 等则通过 SFT 内化工具使用，但这些均受限于预定义模式，缺乏面对复杂和未知场景的适应性。

RL 的引入标志着这一领域的关键转折点：它将学习目标从“复制行为”转向“优化任务表现”。在 ReTool， ToolRL 等框架中，Agent 开始自主学习何时、如何以及组合使用工具，甚至能涌现出如代码自修正和自我创造工具的能力（譬如 PyVision，Alita，SkillWeaver 等工作）。

今天，ChatGLM Z1、Kimi K2 等先进的 Agentic LLM 已将 RL 驱动的工具集成推理作为核心功能，不断深化多模态交互和复杂任务求解的能力，为实现长程、鲁棒的智能体行为奠定了基础。

3. 记忆系统 (Memory System)：记忆是持续智能的基础。Agentic RL 将记忆模块从被动的外部数据库（如向量数据库）转变为一个由 RL 策略主动管理的动态系统，智能体可以学习存什么、取什么、忘什么。文章观察到该领域的演进分为几个阶段：

RL 赋能 RAG 风格记忆：如 Prospect Memory和 Memory-R1 探索了如何利用 RL 策略调整检索行为，以优化信息获取。然而，这些方法通常仍将记忆本身视为静态外部存储。

RL 驱动的 Token 级记忆：随后的进展更深入，允许 Agent 直接管理其内部记忆状态。这又可分为显式 Token（如 MemAgent、MEM1，通过 RL 策略决定哪些自然语言 Token 值得保留）和隐式 Token（如 MemoryLLM、M+，通过学习更新潜在嵌入表示，以维持长程上下文）。这些方法显著增强了 Agent 对长文本的理解、持续适应和自我改进能力。

RL 探索结构化记忆（前瞻）：展望未来，Agentic RL 的前沿在于将 RL 扩展到结构化记忆的管理。目前 Zep 的时序知识图谱或 G-Memory 的分层图记忆等系统，虽然能捕捉更丰富的关系依赖，但其插入、删除、抽象等管理操作仍主要依赖启发式规则。将 RL 引入这些复杂结构记忆的动态构建和演化，是提升 Agent 记忆能力的关键方向。

4.自进化 (Self-Improvement)：同样是目前 Agent 最热门的发展方向。在这一核心能力上，RL 的作用是赋予 Agent 持续从自身错误中学习并自进化的机制，贯穿于规划、推理、工具使用和记忆等各个环节。我们观察到这一领域正沿着三条主线递进发展：

RL 驱动的“言语自我纠正”：早期工作（如 Reflexion、Self-Refine）利用提示工程，让 Agent 在推理过程中通过语言进行自我反思、发现潜在错误并生成修正方案。这种“口头强化学习”虽然无需梯度更新，但已初步展现了多重采样、结构化工作流和外部工具引导（如 Self-Debugging 中的代码解释器）等多种提升效果的策略。

RL “内化”自我纠正能力：为了克服言语纠正的临时性，研究转向利用强化学习，将反射性反馈循环直接嵌入到模型参数中。例如，KnowSelf 结合 DPO/RPO 增强了 Agent 在文本游戏环境中的自反思能力，SWEET-RL 则通过外部批判模型提供高质量的修订建议。

RL 实现迭代自训练：我们认为这是迈向完全自主智能体的最前沿。这类方法将反思、推理和任务生成整合为自维持循环。R-Zero 通过 MCTS 探索推理树，从零开始迭代训练策略和价值 LLM；Absolute Zero 则让 Agent 自主创建问题、验证并学习。SiriuS 进一步通过聚合多 Agent 交互的成功轨迹来加速学习，标志着 Agent 内部反馈循环的持续自演进。

5. 推理能力 (Reasoning)：Agentic RL 旨在平衡“快思考”（直觉式、启发式）与“慢思考”（深思熟虑、多步推导）。通过奖励机制，模型可以学会在效率和准确性之间做出权衡。

6. 感知系统 (Perception System)：尤其在多模态场景下，Agentic RL 推动感知从“被动接收”走向“主动探索”。智能体可以学习主动地聚焦、探查和理解视觉或其他模态信息，以服务于其决策目标。

应用版图 - Agentic RL 的演进之路

当拥有了完善的认知架构，Agentic RL 便开始在各个垂直领域展现其巨大潜力。这篇综述系统性地梳理了其在多个任务领域的应用演化路径：

搜索与研究：Agent 不再是简单的信息检索器，而是进化为研究助理，通过 RL 学习深度研究策略，整合多源信息并形成综合报告。目前各种广受关注的深度研究（Deep Research）系统，如OpenAI o3/o4 Deep Research，Gemeni Deep Research 等均属于这一范畴。

代码与软件工程：利用编译和测试的反馈作为奖励信号，Agent 从“代码生成器”进化为能够自主调试、重构乃至完成整个软件工程任务的“虚拟开发者”。

数学推理：在非形式化数学中，通过过程奖励塑造解题思路；在形式化数学中，利用定理证明器的验证信号，Agent 可以在严谨的逻辑空间中探索和构建证明。

GUI 交互：无论是网页还是桌面应用，Agentic RL 让智能体能够通过试错学习真实的操作逻辑，从模仿静态轨迹走向在动态界面中完成复杂任务。

多智能体系统 (Multi-Agent Systems)：多智能体系统（MAS）在严格意义上并非一个独立的任务领域，但鉴于其在 Agentic RL 发展中的独特地位和初期探索阶段，我们在此进行重点讨论。RL 在 MAS 中的作用，是将这些系统从固定的、预设的协作模式，提升为可动态优化和学习的智能群体。早期 MAS 侧重于角色分工与辩论协作（如 CAMEL、MetaGPT），其行为模式主要由人工规则或提示工程决定。

然而，RL 技术的引入，使得 Agent 群体能够自主调整协调模式，并通过联合训练直接优化其个体推理和群体决策策略。这不仅体现在 MAGRPO 等通过多智能体 GRPO 实现去中心化训练的工作中，也体现在 MAPoRL 通过验证辩论响应来改进协作推理，以及 MLPO 提出的分层领导 Agent 学习评估同伴输出的范式。RL 赋予 MAS 从经验中学习、适应复杂动态环境、并涌现出更高级群体智能的关键能力。

环境与资源

1. 丰富的环境模拟器：构建 Agent 的“世界”

Agentic RL 的核心在于智能体与环境的交互，因此多样化、高逼真度的环境至关重要。当前环境主要包括：

网页环境 (Web Environments): 模拟真实世界的网页交互任务，如 WebShop 提供电商购物场景，Mind2Web 覆盖多样化网站操作，展现了 Agent 在复杂、长序列决策下的泛化能力。

图形界面环境 (GUI Environments): 专注于桌面或移动应用的交互，例如 AndroidWorld 和 OSWorld 提供了实时反馈和动态状态，考验 Agent 在复杂 GUI 中的导航和操作能力。

代码与软件工程环境 (Coding & Software Engineering Environments): 提供明确的执行语义和可验证的奖励信号，如 Debug-Gym 支持交互式调试，而 SWE-bench 和SWE-bench (verified) 则为端到端代码修复任务提供了基准。

模拟与游戏环境 (Simulated & Game Environments): 包含 Crafter 等开放世界生存游戏和 StarCraft II 等多智能体对战平台，为 Agent 探索、规划和多智能体协作提供了理想的测试场。

通用环境 (General-Purpose Environments): 旨在对 Agent 的通用能力进行广泛评估，如 AgentGym, GAIA ，xBench，AgentBoard 等整合了多种任务类型，推动 Agent 的泛化和自修正。

2. 灵活的强化学习框架：加速 Agentic RL 的研发

为了支撑 Agentic RL 的复杂训练需求，一系列高效、可扩展的 RL 框架应运而生。综述将这些框架分为三类：

Agentic RL 专属框架: 这类框架专为 Agentic RL 的端到端策略优化设计，例如 SkyRL 支持长程真实世界任务训练， AWorld 则通过分布式架构加速经验生成，而 MARTI 目前实现了针对 MoA 和 Multi-agent Debate 等多智能体框架的RL训练，各具特色。

RLHF 与 LLM 微调框架: 它们提供了对大型语言模型进行高效、可扩展对齐的能力，是 Agentic RL 的重要基石，代表作品如 OpenRLHF 和 Hugging Face 的 TRL。

通用 RL 框架: 提供了基础的 RL 算法和分布式执行引擎，如 RLlib 提供了生产级的可扩展库，Tianshou 提供了高性能的 PyTorch 平台。

这些环境与框架的不断演进与完善，是 Agentic RL 从概念走向实践、从实验室走向真实世界的关键支撑，极大地降低了研究门槛，加速了整个领域的创新进程。

讨论：一份通往通用人工智能的研究议程

这篇长篇综述不仅全面描绘了 Agentic RL 的现状，更重要的是，它为我们指明了从“会说”到“会做”的通用人工智能之路所面临的核心挑战。文章认为，要实现真正自主、可信、高效且能与人类和谐共存的 Agentic LLM，以下几个问题和方向值得我们深入思考：

1. 如何确保 Agentic 智能体的安全与可信？

Agentic LLM 具有规划、工具使用和记忆等多种自主能力，这大大拓宽了潜在的攻击面。既然强化学习可能让 Agent 学会“钻空子”（即 Reward Hacking），甚至做出危险或欺骗性行为，我们该如何应对？

我们能否为 Agent 设定更严格的“安全边界”，比如限制它调用不安全的工具或访问敏感信息？

如何设计多层次、更精细的奖励机制，让 Agent 不仅完成任务，还能保证整个决策过程是安全、透明和符合伦理的？

当 Agent 出现“幻觉”时，我们如何让它在不确定时勇于承认“不知道”，而不是一味地“胡说八道”？

Agent 可能会为了讨好用户而“谄媚”，即使那不是最好的解决方案。我们如何训练 Agent，让它坚持客观事实和原则，而不是一味迎合用户？

2. 怎样才能高效地训练大规模 Agentic 智能体？

Agentic LLM 的训练目前耗费巨大，包括高昂的算力成本和对高质量数据的需求。如何在资源有限的情况下，让 Agent 学得更快、更有效率，是亟待解决的问题。

我们能否开发出更“聪明”的训练方法，比如让 Agent 重点学习那些它还没掌握的难点，或者在不同任务之间进行高效的知识迁移？（这也是目前大量 RL 熵机制论文的关注重点）

当前强化学习算法需要大量试错和环境探索。有没有办法让 Agent 仅仅通过少量甚至单一的成功经验，就能实现显著的能力提升和泛化？

面对多领域、多模态任务，不同数据混合训练时可能出现互相干扰的情况。我们如何更有效地组织和利用这些数据，让 Agent 在不同能力之间协同发展，而不是此消彼长？异步训练、GPU 阻塞、大规模编排等工程问题该如何解决？

3. 未来的 Agentic 环境应该是什么样的？

目前的训练环境要么过于简单，要么难以捕捉真实世界的复杂性。为了训练出真正通用的 Agent，环境本身也需要进化。

既然 GAIA 这样的现实世界环境常常被吐槽不稳定、会变化，WebShop 这样简单的模拟 Web 环境又不足以生成真正复杂世界的环境，我们能不能让 Agent 自己生成训练环境呢？

如果 Agent 能自主创建训练任务和对应的奖励信号，甚至根据自己的学习进度动态调整难度，是不是就能加速它的学习效率？

是否可能构建一个 Agent 与环境“共同进化”的系统，让环境成为 Agent 的专属“教师”，提供定制化的挑战，从而持续推动 Agent 能力的提升？

这些问题构成了 Agentic LLM 领域未来几年最核心的探索方向。解决它们，将是我们从“会说”迈向“会做”，最终实现通用 Agentic 智能体的关键一步。

这篇综述为我们描绘了一幅清晰的图景：Agentic 强化学习正推动大语言模型从单一的文本生成器，转变为能与复杂、动态世界交互的自主智能体。通过在规划、工具使用、记忆和自我改进等核心能力上的深度融合，并辅以不断进化的环境与训练框架，我们相信 Agentic LLM 终将跨越“会说”的阶段，真正迈向“会做”的智能新纪元。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签