特工宇宙 09月11日
Agentic RL 推动大语言模型走向“会做”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大语言模型(LLM)的训练范式正从基于人类偏好反馈的强化学习(PBRFT)转向更具决策智能的代理强化学习(Agentic RL)。Agentic RL 将 LLM 置于持续的、多步的、部分可观测的决策过程中,使其能够与动态环境交互、做出系列决策,并具备规划、工具使用、记忆、自进化、推理和感知等核心能力。本文介绍了 Agentic RL 的核心概念、关键能力、应用版图以及面临的挑战,探讨了其推动 LLM 从“会说”走向“会做”的潜力。

🧠 规划核心:Agentic RL 将规划能力从固定的提示工程进化为可根据环境反馈动态调整的策略。强化学习为规划注入了经验学习的能力,使 LLM 能够自主进行任务分解和序列规划。

🛠️ 工具使用:Agentic RL 将工具使用从模仿升级为为了结果而优化。智能体自主学习何时、如何以及组合使用哪些工具来最高效地完成任务,并能涌现出如代码自修正和自我创造工具的能力。

🧠 记忆系统:Agentic RL 将记忆模块从被动的外部数据库转变为一个由 RL 策略主动管理的动态系统。智能体可以学习存什么、取什么、忘什么,从而增强对长文本的理解、持续适应和自我改进能力。

🔄 自进化:Agentic RL 赋予智能体持续从自身错误中学习并自进化的机制。研究正沿着言语自我纠正、内化自我纠正能力和迭代自训练三条主线发展,迈向完全自主智能体。

🤔 推理能力:Agentic RL 旨在平衡“快思考”与“慢思考”,通过奖励机制,模型可以学会在效率和准确性之间做出权衡。

👁️ 感知系统:尤其在多模态场景下,Agentic RL 推动感知从“被动接收”走向“主动探索”。智能体可以学习主动地聚焦、探查和理解视觉或其他模态信息,以服务于其决策目标。

原创 Bin 2025-09-10 11:57 浙江

从「会说」到「会做」。

2025 年,大语言模型的热潮仍在继续,但研究者们逐渐意识到,当前主流的训练范式已显现瓶颈。基于人类偏好反馈的强化学习(PBRFT)所训练出来的大语言模型(包括但不限于 GPT-4Qwen-2.5 等)长生成高质量的单次回答,但在需要长期规划、与动态环境交互和持续自我学习的复杂任务面前却力不从心。LLM 似乎被困在了“会说”的阶段。

更多的工作与模型,开始关注如何让 LLM 与复杂环境交互的过程中更加“会做”。大家耳熟能详的实践包括最近半年爆火的 Qwen QwQ-32B、Kimi K等智能体模型(Large Agent Model)——它们的共通点是:利用强化学习,让 LLM 天然地变成原生的会反思、会使用工具的智能体(Agent)。

为了明确定义从“会说”到“会做”的进化路径,以此来构建下一代智能体,来自津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者,共同撰写并发布了长达百页的综述:《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

论文链接:https://arxiv.org/abs/2509.02547Github 链接:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

以及,此综述也已经收录至特工宇宙 ima 知识库,读者可以在知识库中在线阅读/免费下载/AI 问答。

如果看不太懂的朋友可以在 ima 里问问 DeepSeek。


该综述系统性地回答了关于 Agentic RL 的三个核心问题:它是什么,它能做什么,以及它将走向何方

在理论层面,它首次形式化定义了 Agentic RL,清晰地将其与传统的 PBRFT 范式从决策过程、动作空间到奖励机制上进行了区分。在结构上,论文构建了一个全面的双重分类法:一方面从模型核心能力(如规划、工具使用、记忆等)的视角,剖析 Agentic RL 如何重塑智能体的内在机制;另一方面则从任务应用(如搜索、代码、数学等)的视角,描绘了其在不同领域的演化路径和落地形态。在实践上,它整合了超过 500 篇前沿研究,并汇总了相关的开源环境、基准测试和框架,最后对未来的核心挑战进行了展望。 

范式之变 - 从“文本对齐”到“决策智能”

这篇综述的核心,在于清晰定义了一种范式迁移。它指出,传统 LLM 的强化学习(LLM-RL)可以被看作一个退化的、单步的马尔可夫决策过程(MDP),其目标是优化一次性的文本输出。

而 Agentic RL 则完全不同,它将 LLM 置于一个持续的、多步的、部分可观测的决策过程(POMDP)中。在这个新范式下,LLM 不再是简单的文本生成器,而是一个需要与动态环境持续交互、做出系列决策的自主智能体 (Agent) 

这一转变的核心在于:

1. 马尔可夫决策过程 (Markov Decision Processes):论文在理论上将 PBRFT 形式化为一个退化的、单步 MDP,整个过程只有一步;而 Agentic RL 则被建模为多步、部分可观测的 POMDP,更贴近真实世界决策。

2. 环境状态 (Environment State):在 PBRFT 中,环境状态只是一个静态的初始 prompt,生成回答后即终止。而在 Agentic RL 中,环境是动态演化的,智能体的每一步行动都会导致世界状态的真实改变。

3. 行动空间 (Action Space):PBRFT 的行动空间仅限于生成纯文本序列Agentic RL 极大地扩展了这一点,引入了包含文本沟通和结构化操作(如工具调用)的复合行动空间,让智能体具备了改造环境的能力。

4. 状态转移 (Transition Dynamics):PBRFT 的状态转移是确定性的,一个输入对应一个输出,过程简单明了。Agentic RL 的状态转移则是概率性的和不确定的,充满了真实世界的复杂性。

5. 奖励函数 (Reward Function):PBRFT 依赖于对最终结果的单一标量奖励Agentic RL 则采用步进式的奖励机制,能够对长序列中的关键中间步骤给予反馈,从而解决了稀疏奖励下的学习难题。

6. 学习目标 (Learning Objective):PBRFT 的目标是最大化单次响应的期望奖励Agentic RL 的目标是最大化长期视野下的累积折扣奖励,这本质上要求智能体具备规划和远见。

7. 强化学习算法 (RL Algorithms):不同的目标需要不同的优化工具。PBRFT 更多采用 DPO PPO 等偏好优化算法,而 Agentic RL 极大地依赖于新兴的 GRPO 及其各类变体(如 DAPOGSPOGMPO 等等),以支持在环境中的探索和时序信用分配

Agent 的核心能力 – 六大能力,RL 一应支持

一个强大的 Agentic LLM 必然是一个复杂的系统,由多个相互协作的核心能力模块构成。其中的六个关键能力(推理(reasoning),记忆(memory),工具使用(tool-use),自进化(self-improvement),感知(perception)以及推理(reasoning),共同构成了 Agent 的认知架构。这些架构决定了Agent如何与环境交互,进行行动,并获得反馈的执行循环。 

诚然,这些能力在 Agent 的早期探索中,可以通过精巧的提示词工程或启发式规则在一定程度上实现。然而,要将这些孤立的功能模块真正融合成一个能够自主学习、动态适应的有机整体,强化学习(RL)正成为当下最引人瞩目的范式

它提供了一个统一的优化框架,将这些原本需要人工设计的启发式功能,转变为可端到端学习的、稳健的智能行为,是增强并整合这六大能力的关键机制。

1. 规划核心 (Planning Core):这是 Agent 的“大脑”,负责为复杂目标进行任务分解和序列规划。Agentic RL 让规划能力从固定的提示工程(如 ReAct)进化为可根据环境反馈动态调整的策略

对于 LLM Agent 的 Planning 能力,强化学习的核心贡献在于为原本静态的规划注入了经验学习的能力。文章观察到,当前研究沿着两条截然不同的技术路径演进:

一是将 RL 作为外部向导,用以训练一个独立的评估或奖励模型,从而指导蒙特卡洛树搜索(MCTS)等经典规划算法。在此模式下,LLM 主要扮演行动提出者” (action proposer) 的角色,其自身的规划策略并未直接改变。

二是将 RL 作为内部驱动,直接将 LLM 视作一个完整的策略网络,通过与环境的直接交互和试错来端到端地优化其内在的规划能力。这使得 LLM 从一个静态的生成器,演变为一个自适应的决策策略本身。

未来的前沿或许在于融合这两种范式:即开发出能够将结构化搜索过程本身内化的智能体。最终的目标是让 Agent 通过强化学习学会一种元策略 (meta-policy)——自主决定何时依赖快速、直觉式的规划,何时启动深度的、审慎的内部搜索与规划

2. 工具使用 (Tool Use):Agentic RL 的核心在于将工具使用从“模仿”升级为“为了结果而优化”。智能体不再是简单复现工具调用模式,而是自主学习何时、如何以及组合使用哪些工具来最高效地完成任务。

在工具使用 (Tool Use) 的演进中,文章观察到了一条从模仿式调用策略性优化的清晰轨迹。早期方法如 ReAct 依赖提示工程,而 Toolformer 等则通过 SFT 内化工具使用,但这些均受限于预定义模式,缺乏面对复杂和未知场景的适应性。

RL 的引入标志着这一领域的关键转折点:它将学习目标从复制行为转向优化任务表现在 ReTool ToolRL 等框架Agent 开始自主学习何时、如何以及组合使用工具,甚至能涌现出如代码自修正和自我创造工具的能力(譬如 PyVisionAlitaSkillWeaver 等工作)

今天,ChatGLM Z1Kimi K2 等先进 Agentic LLM 已将 RL 驱动的工具集成推理作为核心功能,不断深化多模态交互和复杂任务求解的能力,为实现长程、鲁棒的智能体行为奠定了基础。

3. 记忆系统 (Memory System):记忆是持续智能的基础。Agentic RL 将记忆模块从被动的外部数据库(如向量数据库)转变为一个由 RL 策略主动管理的动态系统,智能体可以学习存什么、取什么、忘什么。文章观察到该领域的演进分为几个阶段:

4.进化 (Self-Improvement):同样是目前 Agent 最热门的发展方向。这一核心能力上,RL 的作用是赋予 Agent 持续从自身错误中学习并自进化的机制,贯穿于规划、推理、工具使用和记忆等各个环节。我们观察到这一领域正沿着三条主线递进发展:

5. 推理能力 (Reasoning):Agentic RL 旨在平衡“快思考”(直觉式、启发式)与“慢思考”(深思熟虑、多步推导)。通过奖励机制,模型可以学会在效率和准确性之间做出权衡。

6. 感知系统 (Perception System)尤其在多模态场景下,Agentic RL 推动感知从“被动接收”走向“主动探索”。智能体可以学习主动地聚焦、探查和理解视觉或其他模态信息,以服务于其决策目标。

应用版图 - Agentic RL 的演进之路

当拥有了完善的认知架构,Agentic RL 便开始在各个垂直领域展现其巨大潜力。这篇综述系统性地梳理了其在多个任务领域的应用演化路径:

搜索与研究Agent 不再是简单的信息检索器,而是进化为研究助理,通过 RL 学习深度研究策略,整合多源信息并形成综合报告。目前各种广受关注的深度研究(Deep Research)系统,如OpenAI o3/o4 Deep Research,Gemeni Deep Research 等均属于这一范畴。

代码与软件工程利用编译和测试的反馈作为奖励信号,Agent 从“代码生成器”进化为能够自主调试、重构乃至完成整个软件工程任务“虚拟开发者”。

数学推理在非形式化数学中,通过过程奖励塑造解题思路;在形式化数学中,利用定理证明器的验证信号,Agent 可以在严谨的逻辑空间中探索和构建证明

GUI 交互无论是网页还是桌面应用,Agentic RL 让智能体能够通过试错学习真实的操作逻辑,从模仿静态轨迹走向在动态界面中完成复杂任务。 

多智能体系统 (Multi-Agent Systems)多智能体系统(MAS)在严格意义上并非一个独立的任务领域,但鉴于其在 Agentic RL 发展中的独特地位和初期探索阶段,我们在此进行重点讨论。RL 在 MAS 中的作用,是将这些系统从固定的、预设的协作模式,提升为可动态优化和学习的智能群体。早期 MAS 侧重于角色分工与辩论协作(如 CAMELMetaGPT),其行为模式主要由人工规则或提示工程决定。

然而,RL 技术的引入,使得 Agent 群体能够自主调整协调模式,并通过联合训练直接优化其个体推理和群体决策策略。这不仅体现在 MAGRPO 等通过多智能体 GRPO 实现去中心化训练的工作中,也体现在 MAPoRL 通过验证辩论响应来改进协作推理,以及 MLPO 提出的分层领导 Agent 学习评估同伴输出范式。RL 赋予 MAS 从经验中学习、适应复杂动态环境、并涌现出更高级群体智能的关键能力。 

环境与资源

1. 丰富的环境模拟器:构建 Agent 世界

Agentic RL 的核心在于智能体与环境的交互,因此多样化、高逼真度的环境至关重要。当前环境主要包括:

2. 灵活的强化学习框架:加速 Agentic RL 的研发

为了支撑 Agentic RL 的复杂训练需求,一系列高效、可扩展的 RL 框架应运而生。综述将这些框架分为三类:

这些环境与框架的不断演进与完善,是 Agentic RL 从概念走向实践、从实验室走向真实世界的关键支撑,极大地降低了研究门槛,加速了整个领域的创新进程。

讨论:一份通往通用人工智能的研究议程

这篇长篇综述不仅全面描绘了 Agentic RL 的现状,更重要的是,它为我们指明了从会说会做的通用人工智能之路所面临的核心挑战。文章认为,要实现真正自主、可信、高效且能与人类和谐共存的 Agentic LLM,以下几个问题和方向值得我们深入思考:

1. 如何确保 Agentic 智能体的安全与可信?

Agentic LLM 具有规划、工具使用和记忆等多种自主能力,这大大拓宽了潜在的攻击面。既然强化学习可能让 Agent 学会钻空子(即 Reward Hacking),甚至做出危险或欺骗性行为,我们该如何应对?

我们能否为 Agent 设定更严格的安全边界,比如限制它调用不安全的工具或访问敏感信息?

如何设计多层次、更精细的奖励机制,让 Agent 不仅完成任务,还能保证整个决策过程是安全、透明和符合伦理的?

 Agent 出现幻觉时,我们如何让它在不确定时勇于承认不知道,而不是一味地胡说八道

Agent 可能会为了讨好用户而谄媚,即使那不是最好的解决方案。我们如何训练 Agent,让它坚持客观事实和原则,而不是一味迎合用户?

2. 怎样才能高效地训练大规模 Agentic 智能体?

Agentic LLM 的训练目前耗费巨大,包括高昂的算力成本和对高质量数据的需求。如何在资源有限的情况下,让 Agent 学得更快、更有效率,是亟待解决的问题。

我们能否开发出聪明的训练方法,比如让 Agent 重点学习那些它还没掌握的难点,或者在不同任务之间进行高效的知识迁移?(这也是目前大量 RL 熵机制论文的关注重点)

当前强化学习算法需要大量试错和环境探索。有没有办法让 Agent 仅仅通过少量甚至单一的成功经验,就能实现显著的能力提升和泛化?

面对多领域、多模态任务,不同数据混合训练时可能出现互相干扰的情况。我们如何更有效地组织和利用这些数据,让 Agent 在不同能力之间协同发展,而不是此消彼长?异步训练、GPU 阻塞、大规模编排等工程问题该如何解决?

3. 未来的 Agentic 环境应该是什么样的?

目前的训练环境要么过于简单,要么难以捕捉真实世界的复杂性。为了训练出真正通用的 Agent,环境本身也需要进化。

既然 GAIA 这样的现实世界环境常常被吐槽不稳定会变化,WebShop 这样简单的模拟 Web 环境又不足以生成真正复杂世界的环境,我们能不能让 Agent 自己生成训练环境呢?

如果 Agent 自主创建训练任务和对应的奖励信号,甚至根据自己的学习进度动态调整难度,是不是就能加速它的学习效率?

是否可能构建一个 Agent 与环境共同进化的系统,让环境成为 Agent 的专属教师,提供定制化的挑战,从而持续推动 Agent 能力的提升?

这些问题构成了 Agentic LLM 领域未来几年最核心的探索方向。解决它们,将是我们从会说迈向会做,最终实现通用 Agentic 智能体的关键一步。

这篇综述为我们描绘了一幅清晰的图景:Agentic 强化学习正推动大语言模型从单一的文本生成器,转变为能与复杂、动态世界交互的自主智能体。通过在规划、工具使用、记忆和自我改进等核心能力上的深度融合,并辅以不断进化的环境与训练框架,我们相信 Agentic LLM 终将跨越会说的阶段,真正迈向会做的智能新纪元。

图片

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

代理强化学习 大语言模型 决策智能 规划 工具使用 记忆 自进化 推理 感知
相关文章