PaperWeekly 8小时前
用分位数基线优化强化学习训练,实现“双区间安全”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种名为分位数优势估计(QAE)的简洁强化学习基线改进方法。QAE 使用K分位数基线替代传统的均值基线,在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。理论上,QAE可同时抑制熵爆炸和防止熵坍塌,实现“双区间熵安全”。在Qwen3-8B/14B等模型上,QAE在数学推理基准中带来了持续的pass@1提升,表明RLVR训练中的熵调节可被重述为基线设计问题。

💡 **分位数基线替代均值基线:** QAE 提出使用 K 分位数基线来取代传统的经验均值基线,以应对强化学习(RL)训练中奖励异常值带来的不稳定性。这种改变使得基线更加鲁棒,并能更好地控制策略熵。

🎯 **双门控机制实现“双区间安全”:** QAE 通过将基线设置为问题难度阈值,形成了两种模式:在难题模式下,基线为0,模型强化罕见的正确响应;在易题模式下,基线为1,模型抑制剩余的错误响应。这种机制在理论上能够同时防止策略熵的过早收缩(熵坍塌)和无节制的增长(熵爆炸),将策略熵维持在一个稳定且有利于学习的区间。

📈 **持续性能提升与高效探索:** 实验表明,QAE 在 Qwen3-8B/14B 等模型上,于 AIME’24/’25 和 AMC’23 等数学推理基准中带来了持续的 pass@1 提升,而 pass@16 性能基本保持不变。这表明 QAE 能够更有效地利用样本,实现更精准的探索和利用平衡,从而提高模型在复杂推理任务上的表现。

🔧 **简洁的集成与可解释性:** QAE 作为一种简洁的模块,可以轻松集成到现有的 RLVR 系统中,只需替换基线即可。其核心思想——将熵调节视为基线设计问题——提供了对 RLVR 训练稳定性的新视角,增强了方法的可解释性。

原创 让你更懂AI的 2025-10-21 12:34 北京

用一个分位数基线,让RLVR训练进入“双区间安全区”

强化学习总是“要么坍塌要么炸”?QAE 用分位数取代均值,一步让训练稳回安全区。

本文提出了一种简洁的强化学习基线改进方法——分位数优势估计(Quantile Advantage Estimation,QAE)。QAE 使用K分位数基线替代传统的均值基线,在响应层面形成“难题强化罕见成功、易题抑制剩余错误”的双门控机制。

QAE 在理论上可同时抑制熵爆炸并防止熵坍塌(“双区间熵安全”);在 Qwen3-8B/14B 等模型上,于 AIME’24/’25 与 AMC’23 等数学推理基准中带来持续的 pass@1 提升(pass@16 基本保持不变)。

该工作表明:RLVR 训练中的熵调节,可被重述为一个基线设计问题

论文标题:

Quantile Advantage Estimation for Entropy-Safe Reasoning

论文链接:

https://arxiv.org/pdf/2509.22611

Github地址:

https://github.com/junkangwu/QAE

引言

RLVR(Reinforcement Learning from Verifiable Rewards)通过奖励可验证的正确性增强大型语言模型(LLM)的推理能力,但这种奖励驱动的优化过程往往会导致“熵坍塌”——策略分布过早收缩、探索受限,从而限制最终性能。

既有工作主要聚焦于防止熵坍塌,例如提升低概率 token 的权重 [6]、对导致坍塌的 token 进行惩罚 [4] 等。

然而,这些方法侧重于问题的一侧,往往忽视了其对称的另一侧:熵爆炸(entropy explosion)。无节制的熵增长同样不利于训练,会导致低效的探索与学习停滞。

▲ 图1:DAPO 与 QAE 在 Qwen3-8B-Base 上的熵—性能动态对比

如图 1 左侧所示,DAPO [3] 在训练早期出现显著的熵峰值;尽管短期内性能有所提升,但随后熵长期维持在较高且不稳定的水平,最终性能进入平台期。

这一现象表明,仅仅避免熵坍塌并不充分。有效的 RLVR 训练应将策略熵维持在稳定且有助于学习的区间。

为解决上述问题,本文提出分位数优势估计(QAE):在组级别以K 分位数替代传统的均值奖励基线,从而动态调节策略熵。核心思想是,基线的选择直接决定正/负优势的分配比例,进而影响探索行为:

如图 1 右侧所示,QAE 将训练引导至更稳定的熵区间,并带来持续的性能改进。

预备知识

2.1 PPO、GRPO 和 DAPO

PPO(Proximal Policy Optimization)[1]:通过最大化一个裁剪的替代目标函数来稳定训练。

GRPO(Group Relative Policy Optimization)[2]:为了消除对价值网络的依赖,GRPO 提出了一个相对优势估计方法。该方法对每个问题采样一组响应,并基于组内统计特征对奖励进行标准化,以计算优势。

DAPO(Dynamic Sampling Policy Optimization)[3]:作为本文的基线,DAPO 是 GRPO 的改进版本。它移除了 KL 散度惩罚,引入非对称裁剪范围,并采用动态采样约束,以确保每个训练批次包含正负样本,从而稳定梯度更新。

RL扩展中的熵困境:从坍塌到爆炸

策略熵是强化学习(RL)的核心概念,决定了探索与利用之间的平衡。在 RLVR 中,这种平衡尤为脆弱。

既有工作多聚焦于前者,但实证分析显示,用于防坍塌的技术(如 DAPO 中的 Clip-Higher 机制)可能诱发熵爆炸。

3.1 对RLVR中熵爆炸的分析

以 DAPO 为例,深入分析了熵爆炸的驱动因素。

▲ 图2:DAPO 在 Qwen3-8B 上的训练动态

▲ 图3:DAPO下高熵 token 的使用演变

观察 1:Token 级控制不保证持续的推理增益。如图 2 所示,DAPO 的 Clip-Higher 机制在训练早期(20-80 步)确实引发了“拟人化 token”(如 “wait”,“perhaps”,被认为是“灵光一闪”的标志)的飙升,并伴随着 pass@1 的快速提升。

但 150 步后,这些 token 的频率回落,性能也陷入了平台期。这表明,虽然避免了早期坍塌,但其代价是引发了最终限制性能的熵爆炸。

观察 2:Token 级控制导致了同质化、低质量的探索。如图 3 所示,在训练初期,模型会使用多样化的探索性词汇(如 “wait”,“perhaps”)。

但到了后期,高熵 token 的使用集中到了少数几个刻板的、公式化的词汇上(如 “so”,“let”)。这反映了探索多样性的丧失,与观察到的性能平台期相符。

观察 3:熵爆炸主要由负优势样本驱动。如图 4(左)所示,作者将熵动态分解为正、负优势样本的贡献。

结果清晰地表明,熵的增长主要由负优势样本主导。这揭示了在训练早期,由负优势样本引起的过度探索,以及后期利用不足的问题。

▲ 图4:分位数基线重塑了权重和熵动态

观察 4:调整 token 级超参数是治标不治本。如表 1 所示,简单地调整裁剪阈值  并不能解决核心的探索-利用张力。

▲ 表1:DAPO 中不同的  值

结论:细粒度的 token 级控制仅能暂时缓解问题,同时可能引入额外的不稳定因素。熵爆炸的根源在于优势基线的设计缺陷,它系统性地错误处理了奖励异常值下的负优势样本。因此,问题出在基线设计,而非 token 级的超参数调整。

方法:基于分位数的优势估计(QAE)

基于上述分析,本文将矛头指向了 RLVR 中不稳定的根源优势基线。GRPO [2] 和 DAPO [3] 等方法使用的经验均值基线对奖励异常值非常敏感。

QAE 的核心就是用分布的分位数取代均值,从而得到一个既鲁棒又可控的基线。

4.1 公式与直觉

对于一个问题 q,采样 G 个响应,其经验成功率为  。QAE 定义的 K- 分位数基线  为:

在二元奖励(0 或 1)的情况下,这个基线可以简化为一个关于成功率  的阈值判断:

由此可自然地得到一个以难度阈值  为界的双模式训练机制:

因此,超参数 K 直接在“强化罕见成功”与“抑制剩余错误”之间调节,进而调控策略熵。

4.2 梯度分析

从判别式优化的角度分析了 QAE 的目标函数。与 GRPO/DAPO 对称的、形如  的钟形权重不同(如图 4 中/右所示),QAE 的目标函数可以被重写为一个非对称的形式。

命题 4.1(分位数调节的目标函数):QAE 的目标函数等价于:

与 GRPO 相比,QAE 的关键变化包括:  

(1)根据问题难度对判别项进行单侧掩码(难题保留正样本,易题保留负样本);  

(2)使用非对称且单调的权重函数替代原有的对称权重。  

4.3 理论分析:双区间熵安全

对于一个 softmax 策略,单步熵变  与基线选择相关(参考 Cui et al. [4]):

我们进一步从理论上证明了 QAE 的熵安全性命题 4.2(双区间熵安全):

1. 低成功率(防爆炸):如果 ,则  此时,对于任意基线 ,都有 。这意味着 QAE 选择了最小化熵增的更新,从而抑制熵爆炸。

2. 高成功率(防坍塌):如果 ,则 。此时,对于任意基线 ,都有 。这意味着 QAE 选择了最大化熵增的更新,从而防止熵坍塌。

现有的 token 级控制方法无法实现这种双向的、在响应层面上的熵安全保证。

实验

5.1 跨模型和方法的整体性能

▲ 表2:在 AIME 和 AMC 基准上的整体性能

如表所示,QAE 作为一个可直接集成的模块,在多模型实验中均取得稳定增益。

5.2 训练动态与熵安全

▲ 图5:训练动态与稀疏性

5.3 消融与组合研究

▲ 图6:性能与消融研究

我们设计了只掩码正样本(POS-MASK)或负样本(NEG-MASK)的消融实验,以解耦 QAE 的作用。结果表明:

这与 QAE 的双向熵安全理论分析完全吻合。

思考与展望

QAE 以简洁的形式与清晰的洞见,为理解与改进大模型强化学习提供了新的视角。

1. 从启发式到基线设计

相较于复杂的 token 级启发式控制,QAE 将熵调节回归到优势估计中的基线这一基本组件,以简洁的替换实现稳定化与可解释性。

2. 稀疏更新与样本效率

训练期间约 80% 的响应被赋零优势,更新集中于信息密度更高的样本子集,体现出响应级稀疏性与算力聚焦的特征。

3. 分位数统计的潜力

作为对异常值更鲁棒的统计量,分位数在高噪声 RL 设置中提供了稳定的归一化信号。该思路有望推广至价值函数估计、奖励归一化等模块,以构建更稳定、可控的系统。

总体而言,QAE 不仅在算法层面提供了简洁的改进方案,也揭示了 RLVR 训练稳定性的机制基础,为更高效、更可扩展的大模型推理优化提供了方向。

参考文献

[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).  

[2] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024).  

[3] Yu, Qiying, et al. "Dapo: An open-source llm reinforcement learning system at scale." arXiv preprint arXiv:2503.14476 (2025).  

[4] Cui, Ganqu, et al. "The entropy mechanism of reinforcement learning for reasoning language models." arXiv preprint arXiv:2505.22617 (2025).  

[5] Zheng, Chujie, et al. "Group sequence policy optimization." arXiv preprint arXiv:2507.18071 (2025).  

[6] Zhu, Xinyu, et al. "The surprising effectiveness of negative reinforcement in LLM reasoning." arXiv preprint arXiv:2506.01347 (2025).

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 RLVR 分位数优势估计 QAE 熵安全 数学推理 大型语言模型 LLM Reinforcement Learning Quantile Advantage Estimation Entropy Safety Mathematical Reasoning Large Language Models
相关文章