index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文提出分位数优势估计(QAE),一种简洁的RLVR训练改进方法。QAE使用K分位数基线替代传统均值基线,在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。这在理论上实现了“双区间熵安全”,既能防止熵爆炸,也能避免熵坍塌。在Qwen3-8B/14B模型上,QAE在数学推理基准上带来了持续的pass@1提升,表明RLVR训练中的熵调节可重述为基线设计问题。
💡 **QAE提出分位数基线,解决RLVR训练中的“熵坍塌”与“熵爆炸”难题**:文章核心提出了一种名为分位数优势估计(QAE)的新方法,它用K分位数基线取代了传统的均值基线。这种改变在响应层面创造了一个精妙的双重控制机制:对于难题,它能强化那些罕见的正确答案;对于易题,它则能有效抑制仍然存在的错误。这种设计旨在将策略熵稳定在一个学习更有效的“双区间安全区”内,从而避免了强化学习训练中常见的两种极端情况——熵坍塌(探索不足)和熵爆炸(训练不稳定)。
🚀 **理论与实践双重验证“双区间熵安全”**:QAE在理论上被证明能够实现“双区间熵安全”。在低成功率(即难题)的情况下,QAE能够最小化熵的增加,从而有效防止熵爆炸;而在高成功率(即易题)的情况下,它又能最大化熵的增加,从而防止策略过早收缩导致的熵坍塌。实验结果也印证了这一点,在Qwen3-8B/14B等模型上,QAE在AIME’24/’25和AMC’23等数学推理基准上带来了持续的pass@1性能提升,而pass@16的性能基本保持不变,显示了其在提升模型精确推理能力上的有效性。
🧠 **基线设计是熵调节的关键**:研究表明,强化学习从可验证奖励(RLVR)训练中的熵调节问题,可以被有效地重述为一个关于如何设计优势估计基线的问题。QAE通过将基线设计为对奖励异常值更鲁棒的分位数,而非敏感的均值,从而实现了对训练过程的稳定控制。这种从token级控制转向基线设计的思路,为理解和改进大模型强化学习训练提供了新的视角,并有望推广到其他RL模块,构建更稳定、可控的系统。
原创 让你更懂AI的 2025-10-21 12:34 北京

用一个分位数基线,让RLVR训练进入“双区间安全区”

强化学习总是“要么坍塌要么炸”?QAE 用分位数取代均值,一步让训练稳回安全区。
本文提出了一种简洁的强化学习基线改进方法——分位数优势估计(Quantile Advantage Estimation,QAE)。QAE 使用K分位数基线替代传统的均值基线,在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。
QAE 在理论上可同时抑制熵爆炸并防止熵坍塌(“双区间熵安全”);在 Qwen3-8B/14B 等模型上,于 AIME’24/’25 与 AMC’23 等数学推理基准中带来持续的 pass@1 提升(pass@16 基本保持不变)。该工作表明:RLVR 训练中的熵调节,可被重述为一个基线设计问题。论文标题:Quantile Advantage Estimation for Entropy-Safe Reasoning论文链接:https://arxiv.org/pdf/2509.22611Github地址:https://github.com/junkangwu/QAE引言RLVR(Reinforcement Learning from Verifiable Rewards)通过奖励可验证的正确性增强大型语言模型(LLM)的推理能力,但这种奖励驱动的优化过程往往会导致“熵坍塌”——策略分布过早收缩、探索受限,从而限制最终性能。既有工作主要聚焦于防止熵坍塌,例如提升低概率 token 的权重 [6]、对导致坍塌的 token 进行惩罚 [4] 等。
然而,这些方法侧重于问题的一侧,往往忽视了其对称的另一侧:熵爆炸(entropy explosion)。无节制的熵增长同样不利于训练,会导致低效的探索与学习停滞。▲ 图1:DAPO 与 QAE 在 Qwen3-8B-Base 上的熵—性能动态对比如图 1 左侧所示,DAPO [3] 在训练早期出现显著的熵峰值;尽管短期内性能有所提升,但随后熵长期维持在较高且不稳定的水平,最终性能进入平台期。这一现象表明,仅仅避免熵坍塌并不充分。有效的 RLVR 训练应将策略熵维持在稳定且有助于学习的区间。为解决上述问题,本文提出分位数优势估计(QAE):在组级别以K 分位数替代传统的均值奖励基线,从而动态调节策略熵。核心思想是,基线的选择直接决定正/负优势的分配比例,进而影响探索行为:
较低 K:更多样本获得正优势,鼓励模型“利用”已有成功模式,降低熵;较高 K:更少样本获得正优势,促使模型“探索”新行为,提高熵。如图 1 右侧所示,QAE 将训练引导至更稳定的熵区间,并带来持续的性能改进。预备知识2.1 PPO、GRPO 和 DAPOPPO(Proximal Policy Optimization)[1]:通过最大化一个裁剪的替代目标函数来稳定训练。GRPO(Group Relative Policy Optimization)[2]:为了消除对价值网络的依赖,GRPO 提出了一个相对优势估计方法。该方法对每个问题采样一组响应,并基于组内统计特征对奖励进行标准化,以计算优势。DAPO(Dynamic Sampling Policy Optimization)[3]:作为本文的基线,DAPO 是 GRPO 的改进版本。它移除了 KL 散度惩罚,引入非对称裁剪范围,并采用动态采样约束,以确保每个训练批次包含正负样本,从而稳定梯度更新。
RL扩展中的熵困境:从坍塌到爆炸策略熵是强化学习(RL)的核心概念,决定了探索与利用之间的平衡。在 RLVR 中,这种平衡尤为脆弱。熵坍塌:策略过早变得过于确定,探索不足,导致训练陷入局部最优;熵爆炸:策略过于随机,梯度被噪声淹没,信用分配受损,学习不稳定且低效。既有工作多聚焦于前者,但实证分析显示,用于防坍塌的技术(如 DAPO 中的 Clip-Higher 机制)可能诱发熵爆炸。3.1 对RLVR中熵爆炸的分析以 DAPO 为例,深入分析了熵爆炸的驱动因素。▲ 图2:DAPO 在 Qwen3-8B 上的训练动态▲ 图3:DAPO下高熵 token 的使用演变观察 1:Token 级控制不保证持续的推理增益。如图 2 所示,DAPO 的 Clip-Higher 机制在训练早期(20-80 步)确实引发了“拟人化 token”(如 “wait”,“perhaps”,被认为是“灵光一闪”的标志)的飙升,并伴随着 pass@1 的快速提升。但 150 步后,这些 token 的频率回落,性能也陷入了平台期。这表明,虽然避免了早期坍塌,但其代价是引发了最终限制性能的熵爆炸。观察 2:Token 级控制导致了同质化、低质量的探索。如图 3 所示,在训练初期,模型会使用多样化的探索性词汇(如 “wait”,“perhaps”)。但到了后期,高熵 token 的使用集中到了少数几个刻板的、公式化的词汇上(如 “so”,“let”)。这反映了探索多样性的丧失,与观察到的性能平台期相符。观察 3:熵爆炸主要由负优势样本驱动。如图 4(左)所示,作者将熵动态分解为正、负优势样本的贡献。结果清晰地表明,熵的增长主要由负优势样本主导。这揭示了在训练早期,由负优势样本引起的过度探索,以及后期利用不足的问题。▲ 图4:分位数基线重塑了权重和熵动态观察 4:调整 token 级超参数是治标不治本。如表 1 所示,简单地调整裁剪阈值 并不能解决核心的探索-利用张力。▲ 表1:DAPO 中不同的 值结论:细粒度的 token 级控制仅能暂时缓解问题,同时可能引入额外的不稳定因素。熵爆炸的根源在于优势基线的设计缺陷,它系统性地错误处理了奖励异常值下的负优势样本。因此,问题出在基线设计,而非 token 级的超参数调整。方法:基于分位数的优势估计(QAE)基于上述分析,本文将矛头指向了 RLVR 中不稳定的根源优势基线。GRPO [2] 和 DAPO [3] 等方法使用的经验均值基线对奖励异常值非常敏感。QAE 的核心就是用分布的分位数取代均值,从而得到一个既鲁棒又可控的基线。4.1 公式与直觉对于一个问题 q,采样 G 个响应,其经验成功率为 。QAE 定义的 K- 分位数基线 为:在二元奖励(0 或 1)的情况下,这个基线可以简化为一个关于成功率 的阈值判断:由此可自然地得到一个以难度阈值 为界的双模式训练机制:难题模式:此时基线为 0。对于错误的响应 ,优势为 0,不进行更新;对于罕见的正确响应 ,优势 > 0,进行正向强化。该机制聚焦于利用(exploitation),旨在巩固难题上的有效策略。
简单题模式:此时基线为 1。对于正确的响应 ,优势为 0;对于仍然存在的错误响应 ,优势 < 0,进行负向抑制。该机制聚焦于探索(exploration),用于纠正已知问题中的剩余错误。
因此,超参数 K 直接在“强化罕见成功”与“抑制剩余错误”之间调节,进而调控策略熵。4.2 梯度分析从判别式优化的角度分析了 QAE 的目标函数。与 GRPO/DAPO 对称的、形如 的钟形权重不同(如图 4 中/右所示),QAE 的目标函数可以被重写为一个非对称的形式。命题 4.1(分位数调节的目标函数):QAE 的目标函数等价于:与 GRPO 相比,QAE 的关键变化包括: (1)根据问题难度对判别项进行单侧掩码(难题保留正样本,易题保留负样本); (2)使用非对称且单调的权重函数替代原有的对称权重。 4.3 理论分析:双区间熵安全对于一个 softmax 策略,单步熵变 与基线选择相关(参考 Cui et al. [4]):我们进一步从理论上证明了 QAE 的熵安全性命题 4.2(双区间熵安全):1. 低成功率(防爆炸):如果 ,则 此时,对于任意基线 ,都有 。这意味着 QAE 选择了最小化熵增的更新,从而抑制熵爆炸。2. 高成功率(防坍塌):如果 ,则 。此时,对于任意基线 ,都有 。这意味着 QAE 选择了最大化熵增的更新,从而防止熵坍塌。现有的 token 级控制方法无法实现这种双向的、在响应层面上的熵安全保证。实验评估协议:在 AIME'24,AIME'25,AMC'23 三个数学推理基准上进行零样本评估。报告 pass@1 和 pass@16.超参数:所有实验中,QAE 与基线方法使用完全相同的超参数,唯一的改动就是将基线从均值替换为 K- 分位数(由于默认使用了 Clip-Higher 机制,本文默认 K=0.4 以防范熵爆炸的风险)。5.1 跨模型和方法的整体性能▲ 表2:在 AIME 和 AMC 基准上的整体性能如表所示,QAE 作为一个可直接集成的模块,在多模型实验中均取得稳定增益。跨模型尺寸的增益:在 Qwen3-8B 和 30B 模型上,将 DAPO [3] 或 GSPO [5] 的基线替换为 QAE,都带来了一致的 pass@1 增益,同时 pass@16 性能保持相当。与强方法的兼容性:QAE 与 CLIP-COV、KL-COV [4] 等 token 级控制方法,以及 GSPO 等序列级优化方法是正交的。将 QAE 叠加在这些方法之上,能在不修改它们超参数的情况下,带来进一步的性能提升。5.2 训练动态与熵安全▲ 图5:训练动态与稀疏性pass@1 提升、pass@16 基本不变:如图 5(a)所示,DAPO 在约 100 步后 pass@1 停滞,而 QAE 持续提升,表明样本利用效率更高。负优势主导的熵增长得到抑制:如图 5(b)所示,QAE 在难题模式下掩蔽负样本更新,降低了由负优势样本引起的熵增长,使整体熵维持在稳定区间。响应级稀疏性(约 80% 零优势):如图 5(c)所示,训练期间约 80% 的响应获得零优势,更新集中于信息量更高的样本子集。5.3 消融与组合研究▲ 图6:性能与消融研究我们设计了只掩码正样本(POS-MASK)或负样本(NEG-MASK)的消融实验,以解耦 QAE 的作用。结果表明:在容易发生熵爆炸的弱裁剪设置下( 较大),抑制负优势的 NEG-MASK 起主要作用。在容易发生熵坍塌的强裁剪设置下( 较小),抑制正优势的 POS-MASK 起主要作用。
这与 QAE 的双向熵安全理论分析完全吻合。思考与展望QAE 以简洁的形式与清晰的洞见,为理解与改进大模型强化学习提供了新的视角。1. 从启发式到基线设计相较于复杂的 token 级启发式控制,QAE 将熵调节回归到优势估计中的基线这一基本组件,以简洁的替换实现稳定化与可解释性。2. 稀疏更新与样本效率训练期间约 80% 的响应被赋零优势,更新集中于信息密度更高的样本子集,体现出响应级稀疏性与算力聚焦的特征。3. 分位数统计的潜力作为对异常值更鲁棒的统计量,分位数在高噪声 RL 设置中提供了稳定的归一化信号。该思路有望推广至价值函数估计、奖励归一化等模块,以构建更稳定、可控的系统。总体而言,QAE 不仅在算法层面提供了简洁的改进方案,也揭示了 RLVR 训练稳定性的机制基础,为更高效、更可扩展的大模型推理优化提供了方向。参考文献[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017). [2] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024). [3] Yu, Qiying, et al. "Dapo: An open-source llm reinforcement learning system at scale." arXiv preprint arXiv:2503.14476 (2025). [4] Cui, Ganqu, et al. "The entropy mechanism of reinforcement learning for reasoning language models." arXiv preprint arXiv:2505.22617 (2025). [5] Zheng, Chujie, et al. "Group sequence policy optimization." arXiv preprint arXiv:2507.18071 (2025). [6] Zhu, Xinyu, et al. "The surprising effectiveness of negative reinforcement in LLM reasoning." arXiv preprint arXiv:2506.01347 (2025).更多阅读#投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·阅读原文
跳转微信打开