PaperWeekly 08月19日
教会7B模型“自我思考”!腾讯RLVMR刷新智能体认知,长程任务表现直追GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了腾讯混元AI数字人团队提出的RLVMR框架,该框架旨在解决当前长程智能体在强化学习中“只会蒙答案”的瓶颈。RLVMR将认知科学中的“元认知”理论引入强化学习,通过奖励智能体的“思考过程”而非仅仅“结果”,实现了对智能体推理过程的端到端强化学习。该框架通过引入元推理标签(规划、探索、反思)和可验证的过程奖励,引导智能体进行“三思而后行”,有效解决了低效探索和泛化脆弱的问题。实验结果显示,RLVMR训练的7B模型在 ALFWorld 和 ScienceWorld 等基准测试中表现出色,成功率和效率均大幅提升,为构建更鲁棒、更高效的通用智能体提供了新路径。

🎯 **RLVMR框架革新智能体训练范式:** 腾讯混元AI团队提出的RLVMR(Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架,将“元认知”理论引入强化学习,核心在于奖励智能体的“思考过程”而非仅仅“结果”,从而解决长程智能体在任务执行中“只会蒙答案”的问题,实现对推理过程的端到端强化学习。

🧠 **智能体学会“三思而后行”:** RLVMR通过引入“元推理标签”(规划、探索、反思)赋予智能体“自我意识”,使其在行动前明确当前认知阶段。同时,通过设计轻量级验证规则,对智能体的思考质量进行实时评估并给予即时奖励(奖励高效思考,惩罚低效行为),从根本上杜绝“瞎蒙”行为,引导智能体优化决策路径。

🚀 **显著提升智能体性能与泛化能力:** RLVMR框架使智能体在 ALFWorld 和 ScienceWorld 等长程任务基准上展现出统治级性能。经过RLVMR训练的7B模型在从未见过的任务上成功率高达83.6%,远超SOTA模型,并显著减少了解决任务所需的动作数量(最多28.1%),有效缓解了低效探索问题,展现了强大的泛化能力。

💡 **“冷启动SFT + 强化学习RL”的成长阶梯:** RLVMR采用“冷启动SFT + 强化学习RL”的两阶段训练流程,符合认知规律。SFT阶段让智能体快速掌握元推理概念的基本表达,RL阶段则通过过程奖励将其内化为真实能力。这种“先教会思考,再放手成长”的策略,比单一训练范式更高效,为构建能理解世界、应对未知的下一代AI指明了方向。

让你更懂AI的 2025-08-18 13:37 北京

从蒙答案到深度推理

自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学生」,其成功往往依赖于运气和低效的试错,而非真正高效、可泛化的推理能力。一旦环境稍作改变,它们便漏洞百出。

这种「结果正确,但过程混乱」的现象,是当前长程智能体(Long-Horizon Agents)强化学习(RL)范式的一大瓶颈。

智能体在探索中,只因最终能完成任务便获得奖励,而其间大量的冗余操作、无效探索,甚至错误的推理路径,都被无意中 「强化」 和固化。这导致了两个核心难题:

1. 低效探索难题:智能体容易陷入「无效内卷」,反复尝试无意义的动作,训练成本高,推理效率低下。

2. 泛化脆弱难题:靠「蒙对」学会的策略缺乏逻辑基础,在新任务面前不堪一击,难以实现真正的鲁棒性。

如何让智能体不仅「知其然」,更能「知其所以然」?

面对这些难题,腾讯混元 AI 数字人团队提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架。这项工作开创性地将认知科学中的「元认知」(即 「思考自己的思考」)理论引入 RL,通过奖励「好的思考过程」而非仅仅奖励「好的结果」,首次实现了对智能体推理过程的端到端强化学习,成功解决了长程任务中的低效探索与泛化难题。

论文标题:

RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents

论文地址:

https://arxiv.org/pdf/2507.22844

代码地址:

https://github.com/Tencent/digitalhuman/tree/main/RLVMR

RLVMR:如何教会智能体「思考」,而不仅是「做事」?

传统方法要么依赖僵化的专家数据(SFT),要么依赖稀疏的结果奖励(RL),都无法有效塑造智能体高质量的「思维习惯」。RLVMR 的破局点在于:为智能体的「思考过程」本身,设计一套可验证、可优化的奖励机制。

1. 智能体学会「三思而后行」:引入元推理状态

RLVMR 赋予智能体「自我意识」的能力。在行动前,智能体需要先思考并给自己贴上一个「元推理标签」,明确自己当前处于哪个认知阶段:

这套机制让智能体的「内心戏」变得明确、可追踪,为奖励其「优质思考」提供了抓手。

2. 奖励「好思路」,惩罚「坏习惯」:可验证的过程奖励

光有标签还不够,RLVMR 设计了一套轻量级的验证规则,实时评估智能体的思考质量,并给予即时奖励:

这种「过程奖励」机制,像一位贴身教练,不断引导智能体优化其思考与决策路径,从根本上杜绝「瞎蒙」行为。

3. 从「结果导向」到「过程与结果并重」

RLVMR 将「过程奖励」与最终的「任务成功奖励」相结合,通过策略梯度方法进行端到端优化。这使得智能体在追求最终目标的同时,必须学会如何更聪明、更高效地达成目标。

核心实验成果:7B模型比肩「巨头旗舰」

在极具挑战性的 ALFWorld 和 ScienceWorld 两大长程任务基准上,RLVMR 展现了统治级的性能。

经过 RLVMR 训练的 7B 模型,在难度最高、从未见过的任务(L2 泛化等级)上,成功率高达 83.6%,不仅远超此前所有 SOTA 模型,更证明了其强大的泛化能力。

此外,我们的方法训练出的智能体更「聪明」,解决任务的路径更直接,在 ALFWorld 和 ScienceWorld 的 L2 复杂环境中,所需动作数最高减少 28.1%。

此外,训练过程本身也告别了「反复横跳」式的低效学习,收敛速度更快、策略更稳定,显著缓解了无效探索问题。

超越分数:RLVMR实验中的深度洞察

洞察一:智能体学会「反思」,告别「无效内卷」

传统 RL 智能体像一个埋头刷题但从不复盘的学生,容易在错误路径上反复挣扎。RLVMR 的核心贡献在于教会了智能体「反思」(Reflecting)。

实验数据显示,引入「反思」机制后,智能体在遇到困难时,不再是盲目重试,而是能够主动识别问题、调整策略。这正是其重复动作率大幅降低、任务成功率飙升的根本原因。它揭示了一个关键点:对于复杂任务,教会智能体如何从失败中学习,比单纯「喂」给它成功的经验更重要。

洞察二:好的推理习惯,是泛化能力的基石

为什么 RLVMR 在未见任务上表现如此出色?

我们发现,通过奖励「好的思考过程」,RLVMR 帮助智能体建立了一套通用的、不依赖于特定任务的「元问题解决框架」(如何规划、如何探索、如何反思)。当面对新环境(L2)时,智能体调用的不再是某个僵化的「解题模板」,而是这套灵活的「思维方法论」。

这证实了一个重要猜想:真正的泛化能力,源自于对问题解决过程的深刻理解,而非对问题答案的机械记忆。RLVMR 正是通往这条道路的有效路径。

洞察三:先 「冷启动」 再 「强化」—— 智能体的成长阶梯设计

RLVMR 采用了「冷启动 SFT + 强化学习 RL」的两阶段训练流程。这并非简单的流程拼接,而是一种符合认知规律的「成长曲线」设计。

这一策略启示我们:在训练高级智能体时,「先教会它如何思考,再放手让它去犯错成长」,可能是比单一训练范式更高效的路径。

总结与展望

RLVMR 的提出,为智能体训练带来了从「结果导向」到「过程导向」的范式革新。它证明了,通过对智能体「思考过程」的直接建模与奖励,我们能够有效破解长程任务中的「低效探索」与「泛化脆弱」两大难题。

我们对 AGI 的终极期待,是一个能够独立思考、理性决策的伙伴,而不是一个只会寻找捷径的「做题家」。RLVMR 的工作,正是鼓励大模型从偶然涌现的能力,走向特定思维模式的强化,为构建更鲁棒、更高效、更可解释的通用智能体迈出了坚实的一步。

这项研究不仅为长程智能体训练提供了新思路,也为我们探索能真正理解世界、应对未知的下一代 AI 带来了新的曙光。

关于作者:

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」,旨在为用户提供高度拟人、可信赖的数字伙伴,进而实现富有温度与信任的情感交互。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RLVMR 强化学习 长程任务 元认知 智能体
相关文章