PaperWeekly 10月14日 22:42
强化学习在大模型上的成本革命
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

传统强化学习(RL)训练大模型成本高昂,动辄上万美元,且泛化能力受限。腾讯优图实验室提出的Training-Free GRPO,通过冻结模型参数,仅积累“经验知识”即可实现低成本(约8-18美元)高效优化,对齐Sutton的超级智能体发展思路。该方法在数学推理和网页搜索任务上均展现出显著性能提升,并教会模型更高效地使用工具。Training-Free GRPO有望开启大模型RL低成本、高效率的新时代,让强化学习不再是巨头的专属。

💡 **成本效益的突破**:Training-Free GRPO 极大地降低了强化学习训练大模型的成本,从传统 RL 的数万美元降至约 8-18 美元。这使得过去因高昂算力门槛而难以实现的强化学习优化,如今对于个人开发者、中小企业和研究机构也变得触手可及。

🧠 **经验驱动的学习范式**:该方法的核心在于不修改模型参数,而是通过多轮探索、奖励反馈、语义优势提炼和经验库优化,让智能体从自身经验中学习。这与强化学习之父 Richard Sutton 提出的,智能体应主要通过经验学习而非仅依赖人类数据监督的观点不谋而合。

🚀 **性能与泛化能力的显著提升**:在数学推理和网页搜索等任务中,Training-Free GRPO 证明了其在不增加模型参数更新成本的前提下,能够有效提升模型的性能和泛化能力。例如,在 AIME 榜单上实现了 OOD 可迁移提升,并显著减少了工具调用次数,表明模型学习到了更智能的工具使用策略。

🌐 **应对大模型在专业领域的挑战**:大模型在专业领域常表现不尽如人意,传统解决方案(如监督微调)成本高且泛化性差。Training-Free GRPO 提供了一种全新的、更经济高效的替代方案,能够适配长尾细分场景和需要快速迭代的应用,解决了算力黑洞、泛化困境和数据稀缺等痛点。

让你更懂AI的 2025-10-14 13:48 北京

RL在大模型上终于“平民化”

强化学习之父、图灵奖得主 Richard Sutton 认为:新一代的智能体将主要通过从经验中学习来获得超人类的能力,而不是仅靠人类数据的监督学习。

传统 RL 训练在 32B 模型上动辄上万美元,现在只要 8 美元就能对 671B 的最新 DeepSeek-V3.2 进行强化学习!这一切只需通过 GRPO 在实践中学习经验,而非传统 GRPO 中对模型参数进行昂贵的调整。

在 DeepSeek-V3.1-Terminus上,Training-Free GRPO 仅需 100 条 DAPO-Math 训练数据和 18 美元,即可实现 AIME 榜单的 OOD 可迁移提升!

强化学习的天价训练成本,却带来与之不匹配的泛化能力

大模型虽强,但在专业领域表现往往不尽如人意。常见的解决方案是通过监督微调或者强化学习更新模型参数,但这背后是高昂的代价与新的局限:

面对这些痛点,我们不禁要问:面向实际落地场景,有没有既高效又便宜的替代方案?

革命性突破:Training-Free GRPO

腾讯优图实验室提出的 Training-Free GRPO 给出了肯定答案!这种方法的核心思想是:不修改模型参数,而是通过反复积累和迭代“经验知识”来指导模型行为。这也对齐了是强化学习之父 Richard Sutton 倡议的超级人工智能发展思路:让智能体从自身的经验中持续学习,而非仅仅模仿人类偏好。

如上图所示,传统 GRPO 需要更新模型参数,而 Training-Free GRPO 冻结了模型参数,通过多轮强化学习不断更新优化经验库,在推理时注入学习到的经验知识,实现了零参数更新的强化学习效果。

四步详解:如何不用训练也能“调教”大模型

第一步:多路径探索(Rollout)

如上图左侧所示,对于每个问题,模型会生成多个不同的解答路径。就像让学生用不同方法解同一道题,我们能够观察各种可能的解题思路。

比如在数学题中,有的路径可能选择复杂的坐标几何法,有的可能发现更巧妙的几何性质法。这种多路径探索帮助我们发现最优策略。

第二步:强化学习奖励(Reward)

奖励只需提供少量样本及其参考答案,提供一个优化的方向即可。每个生成的解答都会获得一个客观评分。这个评分可以是:

第三步:语义优势提炼(Group Advantage)

如上图右侧所示,模型会自我反思:比较同一组内的不同解答,总结出:“为什么A方法得分高?B方法哪里出错了?”。比如在案例中,模型发现:

这种语义层面的洞察比单纯的数值评分更有指导意义。

第四步:经验库优化(Optimization)

基于提炼出的语义优势,模型会动态更新经验知识库

整个过程就像一位学生在不断更新学习笔记,积累沉淀学到的经验

惊人效果:小成本大提升

在数学推理上,仅用 100 个训练样本,花费约 8-18 美元,就能在已经足够强大的 671B 模型上继续提升性能。如下表所示,无论是否采用代码工具(CI,code interpreter)帮助解题,在 AIME 榜单上的 Mean@32 指标都能实现提升。

训练仅需要三个轮次,下方左侧子图中训练集 Reward 指标(橙色)和样本外AIME榜单上 Mean@32 指标(绿色和蓝色)都在稳步提升。

右侧子图展现了训练中和样本外的平均工具调用次数均有所减少。这表明Training-Free GRPO 不仅能够鼓励正确的推理和行动,还能教会代理找捷径,更高效明智地使用工具。

而在下表所示的网页搜索场景中,Training-Free GRPO 同样无需更新模型参数,即可在 DeepSeek-V3.1-Terminus 强悍水平之上,实现了 4.6% 的 Pass@1 显著提升。

成本对比:降维打击传统方法

与传统强化学习(RL)方法相比,Training-Free GRPO 实现了训练成本的数量级降低

同时,对于大多数非密集调用型的实际应用,专门准备 GPU 提供训练好的 32B 模型推理服务也带来一定的固定成本。而 Training-Free GRPO 无论训练和推理都仅需 API,随用随付!

这种方法特别适合:

结语

Training-Free GRPO 的提出,将强化学习在超大规模 LLM 及复杂 Agent 系统上的训练成为可能,启动了低成本、高效率的强化学习新时代。从此,强化学习不再是巨头的专属游戏,每个开发者的小业务都能用得起、用得好。

8 美元就能做强化学习,你还等什么?

本文方法已开源,欢迎 Star 和试用!GitHub 地址:

https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

arXiv 链接:

https://arxiv.org/abs/2510.08191

预告:Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中,帮助开发者们进一步提升各种自定义场景的效果。

注:成本计算基于 DeepSeek API 官方定价,实际可能因使用情况而有所波动

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 大模型 Training-Free GRPO 低成本 AI Reinforcement Learning Large Language Models LLMs Cost-Effective AI Optimization
相关文章