PaperWeekly 7小时前
用分位数基线稳健RLVR训练
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出分位数优势估计(QAE),一种简洁的RLVR训练改进方法。QAE使用K分位数基线替代传统均值基线,在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。这在理论上实现了“双区间熵安全”,既能防止熵爆炸,也能避免熵坍塌。在Qwen3-8B/14B模型上,QAE在数学推理基准上带来了持续的pass@1提升,表明RLVR训练中的熵调节可重述为基线设计问题。

💡 **QAE提出分位数基线,解决RLVR训练中的“熵坍塌”与“熵爆炸”难题**:文章核心提出了一种名为分位数优势估计(QAE)的新方法,它用K分位数基线取代了传统的均值基线。这种改变在响应层面创造了一个精妙的双重控制机制:对于难题,它能强化那些罕见的正确答案;对于易题,它则能有效抑制仍然存在的错误。这种设计旨在将策略熵稳定在一个学习更有效的“双区间安全区”内,从而避免了强化学习训练中常见的两种极端情况——熵坍塌(探索不足)和熵爆炸(训练不稳定)。

🚀 **理论与实践双重验证“双区间熵安全”**:QAE在理论上被证明能够实现“双区间熵安全”。在低成功率(即难题)的情况下,QAE能够最小化熵的增加,从而有效防止熵爆炸;而在高成功率(即易题)的情况下,它又能最大化熵的增加,从而防止策略过早收缩导致的熵坍塌。实验结果也印证了这一点,在Qwen3-8B/14B等模型上,QAE在AIME’24/’25和AMC’23等数学推理基准上带来了持续的pass@1性能提升,而pass@16的性能基本保持不变,显示了其在提升模型精确推理能力上的有效性。

🧠 **基线设计是熵调节的关键**:研究表明,强化学习从可验证奖励(RLVR)训练中的熵调节问题,可以被有效地重述为一个关于如何设计优势估计基线的问题。QAE通过将基线设计为对奖励异常值更鲁棒的分位数,而非敏感的均值,从而实现了对训练过程的稳定控制。这种从token级控制转向基线设计的思路,为理解和改进大模型强化学习训练提供了新的视角,并有望推广到其他RL模块,构建更稳定、可控的系统。

原创 让你更懂AI的 2025-10-21 12:34 北京

用一个分位数基线,让RLVR训练进入“双区间安全区”

强化学习总是“要么坍塌要么炸”?QAE 用分位数取代均值,一步让训练稳回安全区。

本文提出了一种简洁的强化学习基线改进方法——分位数优势估计(Quantile Advantage Estimation,QAE)。QAE 使用K分位数基线替代传统的均值基线,在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。

QAE 在理论上可同时抑制熵爆炸并防止熵坍塌(“双区间熵安全”);在 Qwen3-8B/14B 等模型上,于 AIME’24/’25 与 AMC’23 等数学推理基准中带来持续的 pass@1 提升(pass@16 基本保持不变)。

该工作表明:RLVR 训练中的熵调节,可被重述为一个基线设计问题

论文标题:

Quantile Advantage Estimation for Entropy-Safe Reasoning

论文链接:

https://arxiv.org/pdf/2509.22611

Github地址:

https://github.com/junkangwu/QAE

引言

RLVR(Reinforcement Learning from Verifiable Rewards)通过奖励可验证的正确性增强大型语言模型(LLM)的推理能力,但这种奖励驱动的优化过程往往会导致“熵坍塌”——策略分布过早收缩、探索受限,从而限制最终性能。

既有工作主要聚焦于防止熵坍塌,例如提升低概率 token 的权重 [6]、对导致坍塌的 token 进行惩罚 [4] 等。

然而,这些方法侧重于问题的一侧,往往忽视了其对称的另一侧:熵爆炸(entropy explosion)。无节制的熵增长同样不利于训练,会导致低效的探索与学习停滞。

▲ 图1:DAPO 与 QAE 在 Qwen3-8B-Base 上的熵—性能动态对比

如图 1 左侧所示,DAPO [3] 在训练早期出现显著的熵峰值;尽管短期内性能有所提升,但随后熵长期维持在较高且不稳定的水平,最终性能进入平台期。

这一现象表明,仅仅避免熵坍塌并不充分。有效的 RLVR 训练应将策略熵维持在稳定且有助于学习的区间。

为解决上述问题,本文提出分位数优势估计(QAE):在组级别以K 分位数替代传统的均值奖励基线,从而动态调节策略熵。核心思想是,基线的选择直接决定正/负优势的分配比例,进而影响探索行为:

较低 K:更多样本获得正优势,鼓励模型“利用”已有成功模式,降低熵;

较高 K:更少样本获得正优势,促使模型“探索”新行为,提高熵。

如图 1 右侧所示,QAE 将训练引导至更稳定的熵区间,并带来持续的性能改进。

预备知识

2.1 PPO、GRPO 和 DAPO

PPO(Proximal Policy Optimization)[1]:通过最大化一个裁剪的替代目标函数来稳定训练。

GRPO(Group Relative Policy Optimization)[2]:为了消除对价值网络的依赖,GRPO 提出了一个相对优势估计方法。该方法对每个问题采样一组响应,并基于组内统计特征对奖励进行标准化,以计算优势。

DAPO(Dynamic Sampling Policy Optimization)[3]:作为本文的基线,DAPO 是 GRPO 的改进版本。它移除了 KL 散度惩罚,引入非对称裁剪范围,并采用动态采样约束,以确保每个训练批次包含正负样本,从而稳定梯度更新。

RL扩展中的熵困境:从坍塌到爆炸

策略熵是强化学习(RL)的核心概念,决定了探索与利用之间的平衡。在 RLVR 中,这种平衡尤为脆弱。

熵坍塌:策略过早变得过于确定,探索不足,导致训练陷入局部最优;

熵爆炸:策略过于随机,梯度被噪声淹没,信用分配受损,学习不稳定且低效。

既有工作多聚焦于前者,但实证分析显示,用于防坍塌的技术(如 DAPO 中的 Clip-Higher 机制)可能诱发熵爆炸。

3.1 对RLVR中熵爆炸的分析

以 DAPO 为例,深入分析了熵爆炸的驱动因素。

▲ 图2:DAPO 在 Qwen3-8B 上的训练动态

▲ 图3:DAPO下高熵 token 的使用演变

观察 1:Token 级控制不保证持续的推理增益。如图 2 所示,DAPO 的 Clip-Higher 机制在训练早期(20-80 步)确实引发了“拟人化 token”(如 “wait”,“perhaps”,被认为是“灵光一闪”的标志)的飙升,并伴随着 pass@1 的快速提升。

但 150 步后,这些 token 的频率回落,性能也陷入了平台期。这表明,虽然避免了早期坍塌,但其代价是引发了最终限制性能的熵爆炸。

观察 2:Token 级控制导致了同质化、低质量的探索。如图 3 所示,在训练初期,模型会使用多样化的探索性词汇(如 “wait”,“perhaps”)。

但到了后期,高熵 token 的使用集中到了少数几个刻板的、公式化的词汇上(如 “so”,“let”)。这反映了探索多样性的丧失,与观察到的性能平台期相符。

观察 3:熵爆炸主要由负优势样本驱动。如图 4(左)所示,作者将熵动态分解为正、负优势样本的贡献。

结果清晰地表明,熵的增长主要由负优势样本主导。这揭示了在训练早期,由负优势样本引起的过度探索,以及后期利用不足的问题。

▲ 图4:分位数基线重塑了权重和熵动态

观察 4:调整 token 级超参数是治标不治本。如表 1 所示,简单地调整裁剪阈值  并不能解决核心的探索-利用张力。

▲ 表1:DAPO 中不同的  值

结论:细粒度的 token 级控制仅能暂时缓解问题,同时可能引入额外的不稳定因素。熵爆炸的根源在于优势基线的设计缺陷,它系统性地错误处理了奖励异常值下的负优势样本。因此,问题出在基线设计,而非 token 级的超参数调整。

方法:基于分位数的优势估计(QAE)

基于上述分析,本文将矛头指向了 RLVR 中不稳定的根源优势基线。GRPO [2] 和 DAPO [3] 等方法使用的经验均值基线对奖励异常值非常敏感。

QAE 的核心就是用分布的分位数取代均值,从而得到一个既鲁棒又可控的基线。

4.1 公式与直觉

对于一个问题 q,采样 G 个响应,其经验成功率为  。QAE 定义的 K- 分位数基线  为:

在二元奖励(0 或 1)的情况下,这个基线可以简化为一个关于成功率  的阈值判断:

由此可自然地得到一个以难度阈值  为界的双模式训练机制:

因此,超参数 K 直接在“强化罕见成功”与“抑制剩余错误”之间调节,进而调控策略熵。

4.2 梯度分析

从判别式优化的角度分析了 QAE 的目标函数。与 GRPO/DAPO 对称的、形如  的钟形权重不同(如图 4 中/右所示),QAE 的目标函数可以被重写为一个非对称的形式。

命题 4.1(分位数调节的目标函数):QAE 的目标函数等价于:

与 GRPO 相比,QAE 的关键变化包括:  

(1)根据问题难度对判别项进行单侧掩码(难题保留正样本,易题保留负样本);  

(2)使用非对称且单调的权重函数替代原有的对称权重。  

4.3 理论分析:双区间熵安全

对于一个 softmax 策略,单步熵变  与基线选择相关(参考 Cui et al. [4]):

我们进一步从理论上证明了 QAE 的熵安全性命题 4.2(双区间熵安全):

1. 低成功率(防爆炸):如果 ,则  此时,对于任意基线 ,都有 。这意味着 QAE 选择了最小化熵增的更新,从而抑制熵爆炸。

2. 高成功率(防坍塌):如果 ,则 。此时,对于任意基线 ,都有 。这意味着 QAE 选择了最大化熵增的更新,从而防止熵坍塌。

现有的 token 级控制方法无法实现这种双向的、在响应层面上的熵安全保证。

实验

评估协议:在 AIME'24,AIME'25,AMC'23 三个数学推理基准上进行零样本评估。报告 pass@1 和 pass@16.

超参数:所有实验中,QAE 与基线方法使用完全相同的超参数,唯一的改动就是将基线从均值替换为 K- 分位数(由于默认使用了 Clip-Higher 机制,本文默认 K=0.4 以防范熵爆炸的风险)。

5.1 跨模型和方法的整体性能

▲ 表2:在 AIME 和 AMC 基准上的整体性能

如表所示,QAE 作为一个可直接集成的模块,在多模型实验中均取得稳定增益。

跨模型尺寸的增益:在 Qwen3-8B 和 30B 模型上,将 DAPO [3] 或 GSPO [5] 的基线替换为 QAE,都带来了一致的 pass@1 增益,同时 pass@16 性能保持相当。

与强方法的兼容性:QAE 与 CLIP-COV、KL-COV [4] 等 token 级控制方法,以及 GSPO 等序列级优化方法是正交的。将 QAE 叠加在这些方法之上,能在不修改它们超参数的情况下,带来进一步的性能提升。

5.2 训练动态与熵安全

▲ 图5:训练动态与稀疏性

pass@1 提升、pass@16 基本不变:如图 5(a)所示,DAPO 在约 100 步后 pass@1 停滞,而 QAE 持续提升,表明样本利用效率更高。

负优势主导的熵增长得到抑制:如图 5(b)所示,QAE 在难题模式下掩蔽负样本更新,降低了由负优势样本引起的熵增长,使整体熵维持在稳定区间。

响应级稀疏性(约 80% 零优势):如图 5(c)所示,训练期间约 80% 的响应获得零优势,更新集中于信息量更高的样本子集。

5.3 消融与组合研究

▲ 图6:性能与消融研究

我们设计了只掩码正样本(POS-MASK)或负样本(NEG-MASK)的消融实验,以解耦 QAE 的作用。结果表明:

这与 QAE 的双向熵安全理论分析完全吻合。

思考与展望

QAE 以简洁的形式与清晰的洞见,为理解与改进大模型强化学习提供了新的视角。

1. 从启发式到基线设计

相较于复杂的 token 级启发式控制,QAE 将熵调节回归到优势估计中的基线这一基本组件,以简洁的替换实现稳定化与可解释性。

2. 稀疏更新与样本效率

训练期间约 80% 的响应被赋零优势,更新集中于信息密度更高的样本子集,体现出响应级稀疏性与算力聚焦的特征。

3. 分位数统计的潜力

作为对异常值更鲁棒的统计量,分位数在高噪声 RL 设置中提供了稳定的归一化信号。该思路有望推广至价值函数估计、奖励归一化等模块,以构建更稳定、可控的系统。

总体而言,QAE 不仅在算法层面提供了简洁的改进方案,也揭示了 RLVR 训练稳定性的机制基础,为更高效、更可扩展的大模型推理优化提供了方向。

参考文献

[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).  

[2] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024).  

[3] Yu, Qiying, et al. "Dapo: An open-source llm reinforcement learning system at scale." arXiv preprint arXiv:2503.14476 (2025).  

[4] Cui, Ganqu, et al. "The entropy mechanism of reinforcement learning for reasoning language models." arXiv preprint arXiv:2505.22617 (2025).  

[5] Zheng, Chujie, et al. "Group sequence policy optimization." arXiv preprint arXiv:2507.18071 (2025).  

[6] Zhu, Xinyu, et al. "The surprising effectiveness of negative reinforcement in LLM reasoning." arXiv preprint arXiv:2506.01347 (2025).

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 RLVR 分位数优势估计 QAE 熵安全 大模型训练 数学推理 Reinforcement Learning RLVR Quantile Advantage Estimation QAE Entropy Safety LLM Training Math Reasoning
相关文章