用分位数基线优化强化学习训练，实现“双区间安全”

PaperWeekly 8小时前

本文提出了一种名为分位数优势估计（QAE）的简洁强化学习基线改进方法。QAE 使用K分位数基线替代传统的均值基线，在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。理论上，QAE可同时抑制熵爆炸和防止熵坍塌，实现“双区间熵安全”。在Qwen3-8B/14B等模型上，QAE在数学推理基准中带来了持续的pass@1提升，表明RLVR训练中的熵调节可被重述为基线设计问题。

💡 **分位数基线替代均值基线：** QAE 提出使用 K 分位数基线来取代传统的经验均值基线，以应对强化学习（RL）训练中奖励异常值带来的不稳定性。这种改变使得基线更加鲁棒，并能更好地控制策略熵。

🎯 **双门控机制实现“双区间安全”：** QAE 通过将基线设置为问题难度阈值，形成了两种模式：在难题模式下，基线为0，模型强化罕见的正确响应；在易题模式下，基线为1，模型抑制剩余的错误响应。这种机制在理论上能够同时防止策略熵的过早收缩（熵坍塌）和无节制的增长（熵爆炸），将策略熵维持在一个稳定且有利于学习的区间。

📈 **持续性能提升与高效探索：** 实验表明，QAE 在 Qwen3-8B/14B 等模型上，于 AIME’24/’25 和 AMC’23 等数学推理基准中带来了持续的 pass@1 提升，而 pass@16 性能基本保持不变。这表明 QAE 能够更有效地利用样本，实现更精准的探索和利用平衡，从而提高模型在复杂推理任务上的表现。

🔧 **简洁的集成与可解释性：** QAE 作为一种简洁的模块，可以轻松集成到现有的 RLVR 系统中，只需替换基线即可。其核心思想——将熵调节视为基线设计问题——提供了对 RLVR 训练稳定性的新视角，增强了方法的可解释性。

原创让你更懂AI的 2025-10-21 12:34 北京

用一个分位数基线，让RLVR训练进入“双区间安全区”

强化学习总是“要么坍塌要么炸”？QAE 用分位数取代均值，一步让训练稳回安全区。

本文提出了一种简洁的强化学习基线改进方法——分位数优势估计（Quantile Advantage Estimation，QAE）。QAE 使用K分位数基线替代传统的均值基线，在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。

QAE 在理论上可同时抑制熵爆炸并防止熵坍塌（“双区间熵安全”）；在 Qwen3-8B/14B 等模型上，于 AIME’24/’25 与 AMC’23 等数学推理基准中带来持续的 pass@1 提升（pass@16 基本保持不变）。

该工作表明：RLVR 训练中的熵调节，可被重述为一个基线设计问题。

论文标题：

Quantile Advantage Estimation for Entropy-Safe Reasoning

论文链接：

https://arxiv.org/pdf/2509.22611

Github地址：

https://github.com/junkangwu/QAE

引言

RLVR（Reinforcement Learning from Verifiable Rewards）通过奖励可验证的正确性增强大型语言模型（LLM）的推理能力，但这种奖励驱动的优化过程往往会导致“熵坍塌”——策略分布过早收缩、探索受限，从而限制最终性能。

既有工作主要聚焦于防止熵坍塌，例如提升低概率 token 的权重 [6]、对导致坍塌的 token 进行惩罚 [4] 等。

然而，这些方法侧重于问题的一侧，往往忽视了其对称的另一侧：熵爆炸（entropy explosion）。无节制的熵增长同样不利于训练，会导致低效的探索与学习停滞。

▲ 图1：DAPO 与 QAE 在 Qwen3-8B-Base 上的熵—性能动态对比

如图 1 左侧所示，DAPO [3] 在训练早期出现显著的熵峰值；尽管短期内性能有所提升，但随后熵长期维持在较高且不稳定的水平，最终性能进入平台期。

这一现象表明，仅仅避免熵坍塌并不充分。有效的 RLVR 训练应将策略熵维持在稳定且有助于学习的区间。

为解决上述问题，本文提出分位数优势估计（QAE）：在组级别以K 分位数替代传统的均值奖励基线，从而动态调节策略熵。核心思想是，基线的选择直接决定正/负优势的分配比例，进而影响探索行为：

较低 K：更多样本获得正优势，鼓励模型“利用”已有成功模式，降低熵；

较高 K：更少样本获得正优势，促使模型“探索”新行为，提高熵。

如图 1 右侧所示，QAE 将训练引导至更稳定的熵区间，并带来持续的性能改进。

预备知识

2.1 PPO、GRPO 和 DAPO

PPO（Proximal Policy Optimization）[1]：通过最大化一个裁剪的替代目标函数来稳定训练。

GRPO（Group Relative Policy Optimization）[2]：为了消除对价值网络的依赖，GRPO 提出了一个相对优势估计方法。该方法对每个问题采样一组响应，并基于组内统计特征对奖励进行标准化，以计算优势。

DAPO（Dynamic Sampling Policy Optimization）[3]：作为本文的基线，DAPO 是 GRPO 的改进版本。它移除了 KL 散度惩罚，引入非对称裁剪范围，并采用动态采样约束，以确保每个训练批次包含正负样本，从而稳定梯度更新。

RL扩展中的熵困境：从坍塌到爆炸

策略熵是强化学习（RL）的核心概念，决定了探索与利用之间的平衡。在 RLVR 中，这种平衡尤为脆弱。

熵坍塌：策略过早变得过于确定，探索不足，导致训练陷入局部最优；

熵爆炸：策略过于随机，梯度被噪声淹没，信用分配受损，学习不稳定且低效。

既有工作多聚焦于前者，但实证分析显示，用于防坍塌的技术（如 DAPO 中的 Clip-Higher 机制）可能诱发熵爆炸。

3.1 对RLVR中熵爆炸的分析

以 DAPO 为例，深入分析了熵爆炸的驱动因素。

▲ 图2：DAPO 在 Qwen3-8B 上的训练动态

▲ 图3：DAPO下高熵 token 的使用演变

观察 1：Token 级控制不保证持续的推理增益。如图 2 所示，DAPO 的 Clip-Higher 机制在训练早期（20-80 步）确实引发了“拟人化 token”（如 “wait”，“perhaps”，被认为是“灵光一闪”的标志）的飙升，并伴随着 pass@1 的快速提升。

但 150 步后，这些 token 的频率回落，性能也陷入了平台期。这表明，虽然避免了早期坍塌，但其代价是引发了最终限制性能的熵爆炸。

观察 2：Token 级控制导致了同质化、低质量的探索。如图 3 所示，在训练初期，模型会使用多样化的探索性词汇（如 “wait”，“perhaps”）。

但到了后期，高熵 token 的使用集中到了少数几个刻板的、公式化的词汇上（如 “so”，“let”）。这反映了探索多样性的丧失，与观察到的性能平台期相符。

观察 3：熵爆炸主要由负优势样本驱动。如图 4（左）所示，作者将熵动态分解为正、负优势样本的贡献。

结果清晰地表明，熵的增长主要由负优势样本主导。这揭示了在训练早期，由负优势样本引起的过度探索，以及后期利用不足的问题。

▲ 图4：分位数基线重塑了权重和熵动态

观察 4：调整 token 级超参数是治标不治本。如表 1 所示，简单地调整裁剪阈值并不能解决核心的探索-利用张力。

▲ 表1：DAPO 中不同的值

结论：细粒度的 token 级控制仅能暂时缓解问题，同时可能引入额外的不稳定因素。熵爆炸的根源在于优势基线的设计缺陷，它系统性地错误处理了奖励异常值下的负优势样本。因此，问题出在基线设计，而非 token 级的超参数调整。

方法：基于分位数的优势估计（QAE）

基于上述分析，本文将矛头指向了 RLVR 中不稳定的根源优势基线。GRPO [2] 和 DAPO [3] 等方法使用的经验均值基线对奖励异常值非常敏感。

QAE 的核心就是用分布的分位数取代均值，从而得到一个既鲁棒又可控的基线。

4.1 公式与直觉

对于一个问题 q，采样 G 个响应，其经验成功率为。QAE 定义的 K- 分位数基线为：

在二元奖励（0 或 1）的情况下，这个基线可以简化为一个关于成功率的阈值判断：

由此可自然地得到一个以难度阈值为界的双模式训练机制:

难题模式：此时基线为 0。对于错误的响应，优势为 0，不进行更新；对于罕见的正确响应，优势 > 0，进行正向强化。该机制聚焦于利用（exploitation），旨在巩固难题上的有效策略。

简单题模式：此时基线为 1。对于正确的响应，优势为 0；对于仍然存在的错误响应，优势 < 0，进行负向抑制。该机制聚焦于探索（exploration），用于纠正已知问题中的剩余错误。

因此，超参数 K 直接在“强化罕见成功”与“抑制剩余错误”之间调节，进而调控策略熵。

4.2 梯度分析

从判别式优化的角度分析了 QAE 的目标函数。与 GRPO/DAPO 对称的、形如的钟形权重不同（如图 4 中/右所示），QAE 的目标函数可以被重写为一个非对称的形式。

命题 4.1（分位数调节的目标函数）：QAE 的目标函数等价于:

与 GRPO 相比，QAE 的关键变化包括：

（1）根据问题难度对判别项进行单侧掩码（难题保留正样本，易题保留负样本）；

（2）使用非对称且单调的权重函数替代原有的对称权重。

4.3 理论分析：双区间熵安全

对于一个 softmax 策略，单步熵变与基线选择相关（参考 Cui et al. [4]）：

我们进一步从理论上证明了 QAE 的熵安全性命题 4.2（双区间熵安全）：

1. 低成功率（防爆炸）：如果，则此时，对于任意基线，都有。这意味着 QAE 选择了最小化熵增的更新，从而抑制熵爆炸。

2. 高成功率（防坍塌）：如果，则。此时，对于任意基线，都有。这意味着 QAE 选择了最大化熵增的更新，从而防止熵坍塌。

现有的 token 级控制方法无法实现这种双向的、在响应层面上的熵安全保证。

实验

评估协议：在 AIME'24，AIME'25，AMC'23 三个数学推理基准上进行零样本评估。报告 pass@1 和 pass@16.

超参数：所有实验中，QAE 与基线方法使用完全相同的超参数，唯一的改动就是将基线从均值替换为 K- 分位数（由于默认使用了 Clip-Higher 机制，本文默认 K=0.4 以防范熵爆炸的风险）。

5.1 跨模型和方法的整体性能

▲ 表2：在 AIME 和 AMC 基准上的整体性能

如表所示，QAE 作为一个可直接集成的模块，在多模型实验中均取得稳定增益。

跨模型尺寸的增益：在 Qwen3-8B 和 30B 模型上，将 DAPO [3] 或 GSPO [5] 的基线替换为 QAE，都带来了一致的 pass@1 增益，同时 pass@16 性能保持相当。

与强方法的兼容性：QAE 与 CLIP-COV、KL-COV [4] 等 token 级控制方法，以及 GSPO 等序列级优化方法是正交的。将 QAE 叠加在这些方法之上,能在不修改它们超参数的情况下，带来进一步的性能提升。

5.2 训练动态与熵安全

▲ 图5：训练动态与稀疏性

pass@1 提升、pass@16 基本不变：如图 5（a）所示，DAPO 在约 100 步后 pass@1 停滞，而 QAE 持续提升，表明样本利用效率更高。

负优势主导的熵增长得到抑制：如图 5（b）所示，QAE 在难题模式下掩蔽负样本更新，降低了由负优势样本引起的熵增长，使整体熵维持在稳定区间。

响应级稀疏性（约 80% 零优势）：如图 5（c）所示，训练期间约 80% 的响应获得零优势，更新集中于信息量更高的样本子集。

5.3 消融与组合研究

▲ 图6：性能与消融研究

我们设计了只掩码正样本（POS-MASK）或负样本（NEG-MASK）的消融实验，以解耦 QAE 的作用。结果表明:

在容易发生熵爆炸的弱裁剪设置下（较大），抑制负优势的 NEG-MASK 起主要作用。

在容易发生熵坍塌的强裁剪设置下（较小），抑制正优势的 POS-MASK 起主要作用。

这与 QAE 的双向熵安全理论分析完全吻合。

思考与展望

QAE 以简洁的形式与清晰的洞见，为理解与改进大模型强化学习提供了新的视角。

1. 从启发式到基线设计

相较于复杂的 token 级启发式控制，QAE 将熵调节回归到优势估计中的基线这一基本组件，以简洁的替换实现稳定化与可解释性。

2. 稀疏更新与样本效率

训练期间约 80% 的响应被赋零优势，更新集中于信息密度更高的样本子集，体现出响应级稀疏性与算力聚焦的特征。

3. 分位数统计的潜力

作为对异常值更鲁棒的统计量，分位数在高噪声 RL 设置中提供了稳定的归一化信号。该思路有望推广至价值函数估计、奖励归一化等模块，以构建更稳定、可控的系统。

总体而言，QAE 不仅在算法层面提供了简洁的改进方案，也揭示了 RLVR 训练稳定性的机制基础，为更高效、更可扩展的大模型推理优化提供了方向。

参考文献

[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).

[2] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024).

[3] Yu, Qiying, et al. "Dapo: An open-source llm reinforcement learning system at scale." arXiv preprint arXiv:2503.14476 (2025).

[4] Cui, Ganqu, et al. "The entropy mechanism of reinforcement learning for reasoning language models." arXiv preprint arXiv:2505.22617 (2025).

[5] Zheng, Chujie, et al. "Group sequence policy optimization." arXiv preprint arXiv:2507.18071 (2025).

[6] Zhu, Xinyu, et al. "The surprising effectiveness of negative reinforcement in LLM reasoning." arXiv preprint arXiv:2506.01347 (2025).

更多阅读