原创论文作者解读的 2025-10-04 23:05 上海

Datawhale干货
作者：Talk_Is_Cheap，Datawhale成员

大语言模型在强化学习对齐中，长期面临一个根本挑战：奖励过于粗糙。

现有方法（如GRPO、DAPO）往往只给出“答案对/错”的整体奖励，无法分辨推理链条中哪些步骤做对了、哪些地方出错。结果就是：模型既可能因为一个小失误被全盘否定，也可能因为蒙对结果而“错误地被奖励”。这让长链推理任务的优化始终存在瓶颈。

论文地址: https://arxiv.org/abs/2508.04349

字节、港科、北邮联合提出了以动态熵加权为核心的新颖框架（其中引入了两种新算法：用于实现精确 token 级监督GTPO算法，以及类似的序列级算法 GRPO-S），就是要解决这个问题 —— 通过在 更细粒度（token/序列级别） 上分配奖励，把奖励信号集中到推理中的关键节点，从而让模型真正学会“过程导向的推理改进”。

该团队通过大量实验表明，GTPO和GRPO-S在多个推理基准测试中，持续优于DAPO 和 GRPO 基准方法，证实了所提出的熵加权机制的有效性。

这项研究结果也表明：利用并引导模型不确定性是开发 “下一代强大且可靠的人工智能系统” 的一个有前景的前沿方向。

下面将从 GTPO 到 GRPO-S 逐步介绍，看看这个新的框架究竟是如何炼成的。

作者带你读懂新方法：用于策略优化的动态熵加权

论文提出了动态熵加权（Dynamic Entropy Weighting）框架，该框架通过将策略熵重新用于细粒度奖励塑造，很大程度上解决了粗粒度信用分配问题，其设计灵感源于组相对策略优化（GRPO）在统计层面的局限性（论文2.1节）。该项工作给出了两种相似的算法：Token-Level的组策略优化（GTPO）（论文2.2节）以及Sequence-Level的GRPO变体（GRPO-S）（论文2.3节）。这两种算法在数学上的构造是对称的，只不过GTPO关注点在token处，GRPO-S聚焦在sequence整体上。文章中还分析了算法的实现细节与收敛性（论文2.4节）。

从粗粒度信用分配到动态熵加权

背景：GRPO及其局限性

该项研究基于组相对策略优化（GRPO）框架展开，该框架是一种无价值函数的算法，可简化LLM的策略优化过程。给定提示词，GRPO从某一策略中采样得到一组序列。每个序列会获得一个结果奖励（例如，推理正确时为1，错误时为0）。序列中所有token的优势函数定义为该序列奖励相对于组平均奖励的标准化结果，公式如下：

GRPO的目标函数会在PPO风格的裁剪损失函数中，将这种统一的优势估计回传应用于序列中的每个token。尽管这种方法简洁有效，但对优势的统一应用既是GRPO的核心机制，也是引发本研究的核心局限性，即“粗粒度credit分配”。这种方法不仅在概念上不够精准，在数学层面也并非最优。

动机：更细粒度优势估计的数学依据

转向token-level目标函数GTPO的关键动机，源于对优势函数中各个构成项的方差降低修正。以奖励值（Reward）为例，当序列长度不相等时，对奖励值的估计主要有两种方式：

尽管token级奖励估计已被证明能降低方差，从而实现更稳定的梯度（，详见附录B.1的正式证明，还有关于其他构成项的分析证明），但仅具备这种统计合理性还不够。要充分利用这种粒度优势，必须对奖励信号本身进行系统性的重塑。这一目标可通过动态熵加权实现，如下图所示，该方法能将策略梯度聚焦于关键决策点，从而生成比传统方法更具指导意义的细粒度学习信号。

解决方案：动态熵加权框架

该框架基于以下假设：推理序列中的高熵时刻并非噪声，而是关键节点的标志。策略熵（传统上用于衡量不确定性）被重新用作“认知努力”的启发式指标，将稀疏的二进制奖励转化为密集的细粒度学习信号。该框架根据终端奖励将序列划分为成功序列集（）与失败序列集（），从而实现双重信用分配策略：成功序列（）中的高熵token会获得奖励加成，以强化有价值的探索行为；反之，失败序列（）中的低熵token会被施加更重的惩罚，以抑制自信但错误的推理。这种精准的调节能让策略梯度聚焦于推理过程中信息最丰富的步骤。

Token-Level组策略优化：GTPO

组token策略优化（GTPO）是该框架最直接、粒度最细的实现方式。它引入了一种细粒度的、基于熵加权的信用分配机制，可在单个token层面运行。

Token级奖励塑造

对于个成功序列中的任意token，以及个失败序列中的任意token，定义如下两组Reward。

For 成功序列

定义如下基于熵加权的奖励：

该奖励由原始二进制成功信号（其中）和动态熵加成构成，二者通过超参数实现平衡。熵加成与token生成熵成正比，其中。关键在于，该熵会在时间步对所有个成功序列进行对比，从而生成一种相对信号，以奖励有价值的探索行为，即与其他成功路径相比，生成时不确定性更高的token会被奖励（若序列的长度小于，则其视为0）。随后，这种相对加成会乘以（长度≥的成功序列数量），动态调整奖励幅度，以应对推理过程中有效路径数量逐渐减少的情况。

For 失败序列

目标是对“自信型错误”施加相对更重的惩罚。因此，其奖励依赖于熵的倒数，对低熵（即高自信）token施加更大惩罚：

其中，是长度≥的失败序列数量。该公式鼓励模型在推理错误时保持不确定性，推动模型探索远离失败模式的路径。基于这两组重塑后的奖励，分别为成功序列集和失败序列集计算优势函数，并在整个批次的所有token上进行归一化，以确保尺度一致性：

其中，和分别表示批次中所有成功序列和失败序列的重塑后token奖励集合。

GTPO目标函数

GTPO的最终目标函数将上述组件整合为统一的token级的损失函数：

其中，是标准的重要性采样权重。

Sequence-Level组策略优化：GRPO-S（GRPO的序列级变体）

尽管GTPO具备最高的粒度，但计算量稍大。此外，部分任务更注重结果导向，因此有必要遵循GTPO的设计思路，开发对应的序列级算法并进一步优化。基于此，论文提出GRPO-S作为同类方法，将熵加权原理应用于序列层面。其核心思想是：根据整个序列的探索价值（以平均熵衡量），调节该序列的整体奖励。

序列级奖励塑造

对于任意序列，奖励塑造基于序列的平均token熵。对于成功序列（），奖励会基于熵的加成增加，以强化有价值的探索行为；反之，对于失败序列（），会施加与平均逆熵成正比的额外惩罚，从而对“自信型错误”施加更严厉的处罚。其形式化定义如下：

其中，为超参数。该公式对平均探索性更强的成功序列给予奖励，同时对自信但错误的序列施加惩罚。

GRPO-S目标函数

优势函数和的计算方式与GRPO中的优势函数类似，但使用的是序列级重塑奖励，并在组内个序列上进行归一化。GRPO-S的最终目标函数与原始GRPO损失函数结构相似，但采用了重塑后的优势函数：

其中，序列级重要性权重是token级权重的平均值：

实现细节与理论保障

实现细节

基于几何均值的稳健概念定义

在聚合序列级重要性采样权重时，算术均值可能导致训练不稳定。这是因为基于比值的权重分布存在偏态，使得算术均值对异常值较为敏感，文中选择算术均值是因为计算成本较低。为缓解这一问题，作者说明可以利用几何均值来定义熵和重要性权重的平均值：

除此之外，GRPO-S中关于Reward的定义也可以利用几何均值：

完全相同地，GTPO中关于Reward的定义同样可以利用几何均值：

算法流程

理论保障

作者通过理论分析证明，论文中提出的奖励塑造机制能保留基线算法的期望策略梯度方向，这是确保收敛性的关键条件。GTPO通过重新分配奖励，生成更细粒度的、token感知的学习信号。由于在梯度计算中已剥离熵项，分析表明：尽管这些修改会改变训练动态，但能保持期望梯度方向不变，从而引导优化过程趋向有效的策略最优解。

Token级目标函数（GTPO）分析

论文中提出的token级目标函数修改了GRPO基线的奖励结构。由于奖励塑造对于成功序列（原始奖励）和失败序列的塑造方式是对称的，因此关于数学部分的分析重点围绕成功序列展开。通过构造可知，这种塑造具有“保守性”：对成功序列token级奖励的加权重新分配，能保留总奖励“不变”：

该等式成立的原因是已设置总奖励的守恒性直接推导得出：期望平均奖励保持不变：

其中，。这种等价性进一步表明：本文提出的奖励塑造方法下，优势函数的期望近似等于基线优势函数的期望，其中。该近似关系的来源及均值的详细定义详见论文附录B.4。

由于对于熵项采取梯度分离，期望策略梯度近似等于GRPO基线的期望策略梯度（即）。这一特性确保了期望梯度方向的一致性，使优化过程趋向相同的理论最优解。这种修改主要通过改变梯度估计量的方差来影响训练动态：奖励的重新分配提供了细粒度的token级信号，可能生成方差更低的估计量，从而稳定并加速收敛（详见论文附录B.2）。

对于GRPO-S的平行分析，详见论文附录B.3。

实验部分

该项研究的实验围绕动态熵加权框架下的GTPO与GRPO-S展开，通过多维度实验验证两款算法在长链推理任务中的有效性，重点对比其与GRPO、DAPO等主流基线算法的性能差异，同时分析训练动态、超参数敏感性等关键特性，全面论证熵加权奖励塑造机制的价值。

实验设置

实验从任务数据集、评价指标、模型与基线、实现细节四个维度搭建严谨验证体系，确保结果的可靠性与可比性。

任务与数据集

实验选择**AIME 2024**与**AIME 2025**作为核心测试基准。这两个数据集均为高难度数学推理任务集，要求模型完成长时程、多步骤的链式推理（如复杂方程求解、逻辑推导等），能有效检验算法在细粒度信用分配与推理稳定性上的表现，是评估先进对齐技术的严苛测试床。

评价指标

为全面衡量模型推理能力，实验采用两类核心指标：

Mean@32：计算32个生成结果的平均正确率，作为整体性能的衡量标准；

Pass@k（k∈{2,4,8,16,32}）：相比更保守的Pass@1，该指标更注重“推理多样性”——统计模型生成的top-k个结果中至少有一个正确的概率，能反映算法对多路径推理的鼓励效果。

此外，实验通过**绝对性能增益（APG）** 与**相对性能增益（RPG）** 量化算法相较于DAPO基线的提升幅度，确保性能差异的直观性。

模型与基线

实验基于两款主流大模型展开，覆盖不同参数规模以验证算法通用性：

小规模模型：Qwen2.5-7B

大规模模型：Qwen2.5-32B

基线算法选择当前无价值函数RL领域的代表性方法，确保对比的“强基准”属性：

GRPO（组相对策略优化）：无价值函数算法的经典方案，以组平均奖励为优势基线，计算效率高；

DAPO（解耦裁剪与动态采样策略优化）：开源社区中GRPO风格训练的当前最优方法，通过裁剪范围调整、动态采样等技术提升性能与稳定性，是实验的核心对比基线。

实现细节

实验在硬件、超参数、生成配置上保持一致性，避免无关变量干扰：

硬件与批次设置：使用64块GPU进行训练，全局批次大小（global batch size）为128，组大小（group size）为16；

学习率与生成参数：学习率设为1×10⁻⁶；生成阶段采用温度系数1.0、top-p=1.0的采样策略，提示词最大长度2048token，响应最大长度4096token；

奖励塑造超参数：关键超参数统一设置为α₁=β₁=1（原始奖励权重）、α₂=β₂=0.1（熵加成权重），熵值裁剪范围为ε_low=0.2至ε_high=0.28，确保熵信号的有效性与稳定性。

性能对比分析

实验结果（如下表所示）表明，GTPO与GRPO-S在所有配置下均显著超越GRPO与DAPO基线，建立了新的性能基准，且成功解决了传统方法的“效率-探索”权衡问题。

核心性能优势

全指标碾压基线：无论是小规模的Qwen2.5-7B还是大规模的Qwen2.5-32B，GTPO与GRPO-S在Mean@32及所有Pass@k指标上均表现更优。以AIME 2025数据集的Qwen2.5-7B模型为例：

GTPO的Pass@32达0.2667，较DAPO（0.1667）绝对提升0.1，相对提升60.0%；

GRPO-S的Pass@32达0.2333，较DAPO相对提升40.0%；

在AIME 2024数据集的Qwen2.5-32B模型上，GTPO的Pass@32达0.6891，较DAPO（0.5902）绝对提升0.0989，相对提升16.8%，GRPO-S也实现13.8%的相对提升。

兼顾性能与探索：传统基线存在明显短板——DAPO虽稳定性强，但损失函数过度聚焦稳定，限制了模型探索能力，导致部分场景（如AIME 2025）的Pass@k指标偏低；而GTPO与GRPO-S通过熵加权奖励，既提升了Mean@32等整体性能指标，又强化了探索敏感性（Pass@k），实现“性能与探索”的双重提升。

小模型增益更显著：算法在小规模模型上的性能提升幅度远超大规模模型。例如，AIME 2025数据集上，GTPO在Qwen2.5-7B上的RPG（60.0%）是Qwen2.5-32B（37.5%）的1.6倍。这一现象表明，熵加权机制为小模型提供了关键的“引导信号”——小模型更易陷入过早收敛，而熵加权能鼓励其探索复杂推理路径，弥补参数规模带来的能力差距。

奖励轨迹与样本效率

实验通过分析测试集的平均奖励轨迹，进一步验证算法的样本效率与性能天花板优势，核心结论如下：

更高的奖励天花板：在所有数据集与模型配置下，GTPO或GRPO-S始终能达到最高的最终奖励水平，二者均显著高于DAPO基线。以AIME 2025的Qwen2.5-32B模型为例，GTPO的测试集Mean@32最终稳定在0.2689，而DAPO仅为0.2167，差距持续保持至收敛阶段。

优异的样本效率：所有模型（包括基线与本文算法）均在约210个训练步骤内实现大致收敛，且GTPO与GRPO-S的收敛速度未因“高探索性”而放缓。训练集奖励曲线（详见论文附录D.4）进一步证明，本文算法的性能提升并非源于更长的训练时间，而是得益于熵加权带来的“更高效学习信号”——模型能在更少的样本交互中捕捉关键推理节点，加速收敛并提升最终性能。

避免策略崩溃：对比奖励轨迹可见，DAPO的奖励曲线后期存在“平台期提前到来”的问题，反映其策略逐渐收敛到狭窄的局部最优（即“策略崩溃”）；而GTPO与GRPO-S的奖励曲线能持续上升至更高水平，且后期无明显下降，证明熵加权机制有效维持了模型的探索能力，避免陷入僵化的推理模式。

超参数敏感性分析

为验证算法的鲁棒性，实验针对GTPO与GRPO-S的核心奖励塑造超参数（尤其是熵加成权重β₂）展开敏感性分析，结果如图3所示，关键发现如下：

整体鲁棒性强：在所有测试的超参数配置下，GTPO与GRPO-S均能显著超越DAPO基线，未出现“超参数微调失效”的情况，证明动态熵加权框架的稳定性——即使超参数存在小幅波动，算法仍能发挥优势。

GRPO-S稳定性更优：相较于GTPO，GRPO-S在不同超参数设置下的性能波动更小。例如，当熵加成权重β₂从0.1增至0.2时，GRPO-S的Mean@32虽有下降，但仍远高于DAPO，而GTPO的波动幅度略大，这也符合二者的设计定位——GRPO-S作为序列级算法，计算粒度更粗，对超参数的敏感性更低，适合对稳定性要求高的场景。

熵加成需适度：实验发现，当熵加成权重（β₂）超过0.1后，GRPO-S的性能出现明显下滑。这一结果验证了“探索与任务目标平衡”的重要性——适度的熵加成能鼓励有效探索，但过度强调熵会让模型偏离“正确推理”的核心目标，导致性能下降，为超参数调优提供了关键指导（建议β₂设为0.1左右）。

一起“点赞”三连↓

阅读原文

跳转微信打开

Datawhale干货
作者：Talk_Is_Cheap，Datawhale成员

从粗粒度信用分配到动态熵加权

背景：GRPO及其局限性

动机：更细粒度优势估计的数学依据

Token-Level组策略优化：GTPO

Sequence-Level组策略优化：GRPO-S（GRPO的序列级变体）

实现细节与理论保障

基于几何均值的稳健概念定义

算法流程

Token级目标函数（GTPO）分析

实验部分

实验设置

性能对比分析

奖励轨迹与样本效率

超参数敏感性分析

为验证算法的鲁棒性，实验针对GTPO与GRPO-S的核心奖励塑造超参数（尤其是熵加成权重β₂）展开敏感性分析，结果如图3所示，关键发现如下：

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

Datawhale干货 作者：Talk_Is_Cheap，Datawhale成员

从粗粒度信用分配到动态熵加权

背景：GRPO及其局限性

动机：更细粒度优势估计的数学依据

Token-Level组策略优化：GTPO

Sequence-Level组策略优化：GRPO-S（GRPO的序列级变体）

实现细节与理论保障

基于几何均值的稳健概念定义

算法流程

Token级目标函数（GTPO）分析

实验部分

实验设置

性能对比分析

奖励轨迹与样本效率

超参数敏感性分析

为验证算法的鲁棒性，实验针对GTPO与GRPO-S的核心奖励塑造超参数（尤其是熵加成权重β₂）展开敏感性分析，结果如图3所示，关键发现如下：

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

Datawhale干货
作者：Talk_Is_Cheap，Datawhale成员