Datawhale 10月04日 23:48
大模型强化学习新框架:细粒度奖励提升推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大语言模型在强化学习中常因奖励信号粗糙而面临优化瓶颈。本文提出的动态熵加权框架,通过GTPO(token级)和GRPO-S(序列级)算法,在更细粒度上分配奖励,将信号集中于推理关键节点,实现过程导向的改进。实验表明,新算法在多个推理基准上显著优于现有方法,证明了引导模型不确定性是开发下一代强大AI系统的有前景方向。该框架通过奖励加成或惩罚来引导模型在成功序列中探索,在失败序列中抑制自信错误,从而提升推理准确性和稳定性。

🎯 **细粒度奖励信号解决粗粒度信用分配问题**:现有大模型强化学习方法(如GRPO、DAPO)常面临奖励信号过于粗糙的问题,仅能区分“答案对/错”,无法识别推理链中的具体错误。本文提出的动态熵加权框架,通过GTPO(token级别)和GRPO-S(序列级别)算法,将奖励信号分配到更细粒度的token或序列层面,使模型能够准确识别推理过程中的关键节点,从而实现更有效的“过程导向”的推理改进。

🚀 **动态熵加权引导模型探索与规避错误**:该框架的核心思想是将策略熵(衡量不确定性)作为“认知努力”的启发式指标。对于成功序列,高熵token会获得奖励加成,鼓励模型进行有价值的探索;而对于失败序列,低熵(高自信)token则会受到更重的惩罚,以抑制模型自信但错误的推理。这种双重信用分配策略能有效地将策略梯度聚焦于推理过程中信息最丰富的步骤。

📈 **GTPO与GRPO-S实验验证显著性能提升**:通过在AIME数学推理数据集上的大量实验,GTPO和GRPO-S在Mean@32和Pass@k等多个评价指标上均显著优于GRPO和DAPO等主流基线方法。尤其在小规模模型上,性能增益更为显著,表明该框架能为模型提供关键的引导信号,弥补参数规模的不足,并有效避免策略崩溃,实现性能与探索的平衡。

💡 **引导模型不确定性是未来AI发展方向**:研究结果表明,利用并引导模型的不确定性是开发下一代强大且可靠人工智能系统的有前景的前沿方向。通过精细化的奖励塑造,模型能够更有效地学习复杂的推理过程,从而生成更准确、更鲁棒的输出。

原创 论文作者解读的 2025-10-04 23:05 上海

 Datawhale干货 

作者:Talk_Is_Cheap,Datawhale成员

大语言模型在强化学习对齐中,长期面临一个根本挑战:奖励过于粗糙

现有方法(如GRPO、DAPO)往往只给出“答案对/错”的整体奖励,无法分辨推理链条中哪些步骤做对了、哪些地方出错。结果就是:模型既可能因为一个小失误被全盘否定,也可能因为蒙对结果而“错误地被奖励”。这让长链推理任务的优化始终存在瓶颈。

论文地址: https://arxiv.org/abs/2508.04349

字节、港科、北邮联合提出了以动态熵加权为核心的新颖框架(其中引入了两种新算法:用于实现精确 token 级监督GTPO算法,以及类似的序列级算法 GRPO-S),就是要解决这个问题 —— 通过在 更细粒度(token/序列级别) 上分配奖励,把奖励信号集中到推理中的关键节点,从而让模型真正学会“过程导向的推理改进”。

该团队通过大量实验表明,GTPO和GRPO-S在多个推理基准测试中,持续优于DAPO 和 GRPO 基准方法,证实了所提出的熵加权机制的有效性。

这项研究结果也表明:利用并引导模型不确定性是开发 “下一代强大且可靠的人工智能系统” 的一个有前景的前沿方向。

下面将从 GTPO 到 GRPO-S 逐步介绍,看看这个新的框架究竟是如何炼成的。

作者带你读懂新方法:用于策略优化的动态熵加权

论文提出了动态熵加权(Dynamic Entropy Weighting)框架,该框架通过将策略熵重新用于细粒度奖励塑造,很大程度上解决了粗粒度信用分配问题,其设计灵感源于组相对策略优化(GRPO)在统计层面的局限性(论文2.1节)。该项工作给出了两种相似的算法:Token-Level的组策略优化(GTPO)(论文2.2节)以及Sequence-Level的GRPO变体(GRPO-S)(论文2.3节)。这两种算法在数学上的构造是对称的,只不过GTPO关注点在token处,GRPO-S聚焦在sequence整体上。文章中还分析了算法的实现细节与收敛性(论文2.4节)。

从粗粒度信用分配到动态熵加权

背景:GRPO及其局限性

该项研究基于组相对策略优化(GRPO)框架展开,该框架是一种无价值函数的算法,可简化LLM的策略优化过程。给定提示词,GRPO从某一策略中采样得到一组序列。每个序列会获得一个结果奖励(例如,推理正确时为1,错误时为0)。序列中所有token的优势函数定义为该序列奖励相对于组平均奖励的标准化结果,公式如下:

GRPO的目标函数会在PPO风格的裁剪损失函数中,将这种统一的优势估计回传应用于序列中的每个token。尽管这种方法简洁有效,但对优势的统一应用既是GRPO的核心机制,也是引发本研究的核心局限性,即“粗粒度credit分配”。这种方法不仅在概念上不够精准,在数学层面也并非最优。

动机:更细粒度优势估计的数学依据

转向token-level目标函数GTPO的关键动机,源于对优势函数中各个构成项的方差降低修正。以奖励值(Reward)为例,当序列长度不相等时,对奖励值的估计主要有两种方式:

尽管token级奖励估计已被证明能降低方差,从而实现更稳定的梯度(,详见附录B.1的正式证明,还有关于其他构成项的分析证明),但仅具备这种统计合理性还不够。 要充分利用这种粒度优势,必须对奖励信号本身进行系统性的重塑。这一目标可通过动态熵加权实现,如下图所示,该方法能将策略梯度聚焦于关键决策点,从而生成比传统方法更具指导意义的细粒度学习信号。

解决方案:动态熵加权框架

该框架基于以下假设:推理序列中的高熵时刻并非噪声,而是关键节点的标志。策略熵(传统上用于衡量不确定性)被重新用作“认知努力”的启发式指标,将稀疏的二进制奖励转化为密集的细粒度学习信号。该框架根据终端奖励将序列划分为成功序列集()与失败序列集(),从而实现双重信用分配策略:成功序列()中的高熵token会获得奖励加成,以强化有价值的探索行为;反之,失败序列()中的低熵token会被施加更重的惩罚,以抑制自信但错误的推理。这种精准的调节能让策略梯度聚焦于推理过程中信息最丰富的步骤。

Token-Level组策略优化:GTPO

组token策略优化(GTPO)是该框架最直接、粒度最细的实现方式。它引入了一种细粒度的、基于熵加权的信用分配机制,可在单个token层面运行。

Token级奖励塑造

对于个成功序列中的任意token,以及个失败序列中的任意token,定义如下两组Reward。

For 成功序列

定义如下基于熵加权的奖励:

该奖励由原始二进制成功信号(其中)和动态熵加成构成,二者通过超参数实现平衡。熵加成与token生成熵成正比,其中。关键在于,该熵会在时间步对所有个成功序列进行对比,从而生成一种相对信号,以奖励有价值的探索行为,即与其他成功路径相比,生成时不确定性更高的token会被奖励(若序列的长度小于,则其视为0)。随后,这种相对加成会乘以(长度≥的成功序列数量),动态调整奖励幅度,以应对推理过程中有效路径数量逐渐减少的情况。

For 失败序列

目标是对“自信型错误”施加相对更重的惩罚。因此,其奖励依赖于熵的倒数,对低熵(即高自信)token施加更大惩罚:

其中,是长度≥的失败序列数量。该公式鼓励模型在推理错误时保持不确定性,推动模型探索远离失败模式的路径。基于这两组重塑后的奖励,分别为成功序列集和失败序列集计算优势函数,并在整个批次的所有token上进行归一化,以确保尺度一致性:

其中,和分别表示批次中所有成功序列和失败序列的重塑后token奖励集合。

GTPO目标函数

GTPO的最终目标函数将上述组件整合为统一的token级的损失函数:

其中,是标准的重要性采样权重。

Sequence-Level组策略优化:GRPO-S(GRPO的序列级变体)

尽管GTPO具备最高的粒度,但计算量稍大。此外,部分任务更注重结果导向,因此有必要遵循GTPO的设计思路,开发对应的序列级算法并进一步优化。基于此,论文提出GRPO-S作为同类方法,将熵加权原理应用于序列层面。其核心思想是:根据整个序列的探索价值(以平均熵衡量),调节该序列的整体奖励。

序列级奖励塑造

对于任意序列,奖励塑造基于序列的平均token熵。对于成功序列(),奖励会基于熵的加成增加,以强化有价值的探索行为;反之,对于失败序列(),会施加与平均逆熵成正比的额外惩罚,从而对“自信型错误”施加更严厉的处罚。其形式化定义如下:

其中,为超参数。该公式对平均探索性更强的成功序列给予奖励,同时对自信但错误的序列施加惩罚。

GRPO-S目标函数

优势函数和的计算方式与GRPO中的优势函数类似,但使用的是序列级重塑奖励,并在组内个序列上进行归一化。GRPO-S的最终目标函数与原始GRPO损失函数结构相似,但采用了重塑后的优势函数:

其中,序列级重要性权重是token级权重的平均值:

实现细节与理论保障

实现细节
基于几何均值的稳健概念定义

在聚合序列级重要性采样权重时,算术均值可能导致训练不稳定。这是因为基于比值的权重分布存在偏态,使得算术均值对异常值较为敏感,文中选择算术均值是因为计算成本较低。为缓解这一问题,作者说明可以利用几何均值来定义熵和重要性权重的平均值:

除此之外,GRPO-S中关于Reward的定义也可以利用几何均值:

完全相同地,GTPO中关于Reward的定义同样可以利用几何均值:

算法流程

理论保障

作者通过理论分析证明,论文中提出的奖励塑造机制能保留基线算法的期望策略梯度方向,这是确保收敛性的关键条件。GTPO通过重新分配奖励,生成更细粒度的、token感知的学习信号。由于在梯度计算中已剥离熵项,分析表明:尽管这些修改会改变训练动态,但能保持期望梯度方向不变,从而引导优化过程趋向有效的策略最优解。

Token级目标函数(GTPO)分析

论文中提出的token级目标函数修改了GRPO基线的奖励结构。由于奖励塑造对于成功序列(原始奖励)和失败序列的塑造方式是对称的,因此关于数学部分的分析重点围绕成功序列展开。通过构造可知,这种塑造具有“保守性”:对成功序列token级奖励的加权重新分配,能保留总奖励“不变”:

该等式成立的原因是已设置总奖励的守恒性直接推导得出:期望平均奖励保持不变:

其中,。这种等价性进一步表明:本文提出的奖励塑造方法下,优势函数的期望近似等于基线优势函数的期望,其中。该近似关系的来源及均值的详细定义详见论文附录B.4。

由于对于熵项采取梯度分离,期望策略梯度近似等于GRPO基线的期望策略梯度(即)。这一特性确保了期望梯度方向的一致性,使优化过程趋向相同的理论最优解。这种修改主要通过改变梯度估计量的方差来影响训练动态:奖励的重新分配提供了细粒度的token级信号,可能生成方差更低的估计量,从而稳定并加速收敛(详见论文附录B.2)。

对于GRPO-S的平行分析,详见论文附录B.3。

实验部分

该项研究的实验围绕动态熵加权框架下的GTPO与GRPO-S展开,通过多维度实验验证两款算法在长链推理任务中的有效性,重点对比其与GRPO、DAPO等主流基线算法的性能差异,同时分析训练动态、超参数敏感性等关键特性,全面论证熵加权奖励塑造机制的价值。

实验设置

实验从任务数据集、评价指标、模型与基线、实现细节四个维度搭建严谨验证体系,确保结果的可靠性与可比性。

任务与数据集

实验选择**AIME 2024**与**AIME 2025**作为核心测试基准。这两个数据集均为高难度数学推理任务集,要求模型完成长时程、多步骤的链式推理(如复杂方程求解、逻辑推导等),能有效检验算法在细粒度信用分配与推理稳定性上的表现,是评估先进对齐技术的严苛测试床。

评价指标

为全面衡量模型推理能力,实验采用两类核心指标:

Mean@32:计算32个生成结果的平均正确率,作为整体性能的衡量标准;

Pass@k(k∈{2,4,8,16,32}):相比更保守的Pass@1,该指标更注重“推理多样性”——统计模型生成的top-k个结果中至少有一个正确的概率,能反映算法对多路径推理的鼓励效果。

此外,实验通过**绝对性能增益(APG)** 与**相对性能增益(RPG)** 量化算法相较于DAPO基线的提升幅度,确保性能差异的直观性。

模型与基线

实验基于两款主流大模型展开,覆盖不同参数规模以验证算法通用性:

小规模模型:Qwen2.5-7B

大规模模型:Qwen2.5-32B

基线算法选择当前无价值函数RL领域的代表性方法,确保对比的“强基准”属性:

GRPO(组相对策略优化):无价值函数算法的经典方案,以组平均奖励为优势基线,计算效率高;

DAPO(解耦裁剪与动态采样策略优化):开源社区中GRPO风格训练的当前最优方法,通过裁剪范围调整、动态采样等技术提升性能与稳定性,是实验的核心对比基线。

实现细节

实验在硬件、超参数、生成配置上保持一致性,避免无关变量干扰:

硬件与批次设置:使用64块GPU进行训练,全局批次大小(global batch size)为128,组大小(group size)为16;

学习率与生成参数:学习率设为1×10⁻⁶;生成阶段采用温度系数1.0、top-p=1.0的采样策略,提示词最大长度2048token,响应最大长度4096token;

奖励塑造超参数:关键超参数统一设置为α₁=β₁=1(原始奖励权重)、α₂=β₂=0.1(熵加成权重),熵值裁剪范围为ε_low=0.2至ε_high=0.28,确保熵信号的有效性与稳定性。

性能对比分析

实验结果(如下表所示)表明,GTPO与GRPO-S在所有配置下均显著超越GRPO与DAPO基线,建立了新的性能基准,且成功解决了传统方法的“效率-探索”权衡问题。

核心性能优势

    全指标碾压基线:无论是小规模的Qwen2.5-7B还是大规模的Qwen2.5-32B,GTPO与GRPO-S在Mean@32及所有Pass@k指标上均表现更优。以AIME 2025数据集的Qwen2.5-7B模型为例:

GRPO-S的Pass@32达0.2333,较DAPO相对提升40.0%;

在AIME 2024数据集的Qwen2.5-32B模型上,GTPO的Pass@32达0.6891,较DAPO(0.5902)绝对提升0.0989,相对提升16.8%,GRPO-S也实现13.8%的相对提升。

兼顾性能与探索传统基线存在明显短板——DAPO虽稳定性强,但损失函数过度聚焦稳定,限制了模型探索能力,导致部分场景(如AIME 2025)的Pass@k指标偏低;而GTPO与GRPO-S通过熵加权奖励,既提升了Mean@32等整体性能指标,又强化了探索敏感性(Pass@k),实现“性能与探索”的双重提升。

小模型增益更显著算法在小规模模型上的性能提升幅度远超大规模模型。例如,AIME 2025数据集上,GTPO在Qwen2.5-7B上的RPG(60.0%)是Qwen2.5-32B(37.5%)的1.6倍。这一现象表明,熵加权机制为小模型提供了关键的“引导信号”——小模型更易陷入过早收敛,而熵加权能鼓励其探索复杂推理路径,弥补参数规模带来的能力差距。

奖励轨迹与样本效率

实验通过分析测试集的平均奖励轨迹,进一步验证算法的样本效率与性能天花板优势,核心结论如下:

更高的奖励天花板在所有数据集与模型配置下,GTPO或GRPO-S始终能达到最高的最终奖励水平,二者均显著高于DAPO基线。以AIME 2025的Qwen2.5-32B模型为例,GTPO的测试集Mean@32最终稳定在0.2689,而DAPO仅为0.2167,差距持续保持至收敛阶段。

优异的样本效率所有模型(包括基线与本文算法)均在约210个训练步骤内实现大致收敛,且GTPO与GRPO-S的收敛速度未因“高探索性”而放缓。训练集奖励曲线(详见论文附录D.4)进一步证明,本文算法的性能提升并非源于更长的训练时间,而是得益于熵加权带来的“更高效学习信号”——模型能在更少的样本交互中捕捉关键推理节点,加速收敛并提升最终性能。

避免策略崩溃:对比奖励轨迹可见,DAPO的奖励曲线后期存在“平台期提前到来”的问题,反映其策略逐渐收敛到狭窄的局部最优(即“策略崩溃”);而GTPO与GRPO-S的奖励曲线能持续上升至更高水平,且后期无明显下降,证明熵加权机制有效维持了模型的探索能力,避免陷入僵化的推理模式。

超参数敏感性分析

为验证算法的鲁棒性,实验针对GTPO与GRPO-S的核心奖励塑造超参数(尤其是熵加成权重β₂)展开敏感性分析,结果如图3所示,关键发现如下:

整体鲁棒性强在所有测试的超参数配置下,GTPO与GRPO-S均能显著超越DAPO基线,未出现“超参数微调失效”的情况,证明动态熵加权框架的稳定性——即使超参数存在小幅波动,算法仍能发挥优势。

GRPO-S稳定性更优相较于GTPO,GRPO-S在不同超参数设置下的性能波动更小。例如,当熵加成权重β₂从0.1增至0.2时,GRPO-S的Mean@32虽有下降,但仍远高于DAPO,而GTPO的波动幅度略大,这也符合二者的设计定位——GRPO-S作为序列级算法,计算粒度更粗,对超参数的敏感性更低,适合对稳定性要求高的场景。

熵加成需适度实验发现,当熵加成权重(β₂)超过0.1后,GRPO-S的性能出现明显下滑。这一结果验证了“探索与任务目标平衡”的重要性——适度的熵加成能鼓励有效探索,但过度强调熵会让模型偏离“正确推理”的核心目标,导致性能下降,为超参数调优提供了关键指导(建议β₂设为0.1左右)。

图片

一起“三连

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 强化学习 模型对齐 动态熵加权 GTPO GRPO-S 推理能力 LLMs Reinforcement Learning Model Alignment Dynamic Entropy Weighting Reasoning Capabilities
相关文章