index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
大语言模型在复杂推理任务中面临“能力边界塌缩”的挑战,难以获得全新推理能力。本文提出RL-PLUS框架,创新性地融合监督学习(“学”)与强化学习(“思”),通过多重重要性采样解决外部数据分布不匹配问题,并利用基于探索的优势函数引导模型发现低概率但高质量的推理路径。RL-PLUS在多个数学推理基准测试中显著优于现有方法,并展现出卓越的域外泛化能力,为大模型的持续自我进化开辟了新途径。
💡 **能力边界塌缩与RL-PLUS的解决方案**:大语言模型在复杂推理任务中常陷入“能力边界塌缩”的困境,即模型仅在已有知识范围内优化,难以获得全新推理能力。RL-PLUS创新性地融合了监督学习(“学”)与强化学习(“思”),旨在打破这一局限。通过结合外部知识学习与内部推理优化,RL-PLUS能够引导模型突破其基础能力边界,实现真正的能力提升。
🚀 **多重重要性采样(MIS)解决分布不匹配**:在融合外部数据时,目标策略与行为策略之间的分布偏移是关键挑战。RL-PLUS采用多重重要性采样(MIS)技术,通过结合来自多个策略的信息,构建了一个低偏差、低方差的估计器。这有效解决了标准重要性采样在处理在线策略时的系统性偏差和离线策略时的高方差问题,使得模型能够更稳定地从外部数据中学习。
🧭 **基于探索的优势函数(EBAF)促进新知识发现**:模型倾向于利用高概率的token,但新知识往往蕴含在低概率的正确推理路径中。RL-PLUS引入了基于探索的优势函数(EBAF),其灵感来源于Focal Loss。EBAF通过优先考虑那些高质量但模型难以探索到的(即低概率的)推理路径的优势,重塑学习目标,从而高效地引导模型发现和吸收“新知识”,克服了传统方法中探索能力丧失的问题。
📈 **RL-PLUS的卓越性能与稳定性**:在六个复杂数学推理基准测试中,RL-PLUS相较于主流的SFT+GRPO方法平均得分高出5.2个点,并在域外任务上展现出更强的泛化能力。实验表明,RL-PLUS在训练过程中表现出极佳的稳定性和持续的性能提升,其策略熵始终保持在健康的非零范围,证明了模型在利用已有知识的同时,仍保留了重要的探索能力,成功解决了能力边界塌缩问题。
原创 董益宏 2025-10-26 20:05 北京

学思合一,重塑推理边界

“学而不思则罔,思而不学则殆。”仅依赖 GRPO 类探索,会导致大模型出现能力塌缩。
RL-PLUS 创新性地融合监督学习(“学”)与强化学习(“思”),在 6 个复杂数学推理基准(如 AIME25 等)上,相较于 GRPO 平均得分高出 5.2 个点,实现了显著突破。
近年来,大语言模型(LLM)在复杂推理任务上取得了令人瞩目的进展,但要让它们真正实现持续的能力提升,还面临一个核心挑战:如何让模型突破自身的能力边界,获得全新的推理能力。
目前主要瓶颈在于一个被称为“能力边界塌缩”(Capability Boundary Collapse)的现象:无论如何优化,模型似乎总是在已有知识的范围内打转,无法真正获得新的推理能力。
本文提出了一条全新的路径:通过创新性地融合监督学习(“学”)与强化学习(“思”),让语言模型能够既吸收外部知识,又保持内部推理的优化。
基于该方法训练的 RL-PLUS 模型,在多项权威测试中实现了对基础模型能力边界的真正突破,为大模型的持续自我进化打开了新的可能性。

论文链接:
https://arxiv.org/pdf/2508.00222
代码链接:
https://github.com/YihongDong/RL-PLUS
接下来,我们将深入解读这项研究是如何实现这一目标的。

研究背景与动机:大模型的能力边界塌缩,以及如何突破能力边界?近期,基于可验证奖励的强化学习(RLVR)已成为提升大语言模型复杂推理能力的主流范式。
然而,研究界发现了一个令人深思的现象:无论如何优化,模型似乎始终无法突破其基础能力的边界,这一现象被称为“能力边界塌缩”(Capability Boundary Collapse)。
这种局限性源于:大语言模型的潜在解空间极其巨大,奖励却很稀疏,导致当前的 RLVR 技术无法有效引导模型探索新的未知路径,即向外探索(Exploration)。
在需要长推理链的任务中,这一挑战尤为严峻,因为奖励取决于整个推理链的成功完成。一个错误的步骤就可能使整个轨迹的奖励归零,从而无法为获取新知识提供积极信号。
因此,模型被迫专注于向内利用(Exploitation),即优化其已有的知识和推理方法,这导致了模型探索范围的收缩和能力的萎缩。这种现象不仅阻止了模型获取超越其基础模型的新信息或能力,也严重阻碍了其整体性能的持续提升。

这篇论文的核心洞察来自孔子的教育理念:“学而不思则罔,思而不学则殆”。
研究者认为,当前的方法恰恰陷入了这两个极端:当前的 RLVR 更像是后者“思而不学则殆”,它擅长在已有知识基础上进行推理和优化,但由于其固有的在线策略(on-policy)加上大语言模型巨大的动作空间和稀疏的奖励,导致不可持续的进步。
而传统的监督微调(Supervised Fine-Tuning,SFT)方法则更像前者“学而不思则罔”,即进行僵化的模仿而不加思考,导致在遇到新问题时表现脆弱。
因此,他们提出了一个根本性解决方案:融合“学”与“思”,让模型既能吸收外部知识,又能保持内部优化。但要实现这一点需要解决两个关键挑战:
1. 如何纠正外部数据的分布不匹配问题。而标准的重要性采样校正方法不足以解决这个问题,例如,使用在线策略的代理(proxy)会引入系统性偏差,而直接使用离线策略(off-policy)则通常因为分布差异巨大而遭受高方差和偏差的困扰。
2. 如何高效地从外部数据中提取有价值的信息。在 RL 阶段,模型天然倾向于关注高概率的 token 强化现有知识而忽视低概率的 token,但是有效的探索低概率的 token 才是发现新知识和新路径的关键。

RL-PLUS 方法总览
RL-PLUS 包含两大核心组件:
1. 为解决分布不匹配问题,采用多重重要性采样(Multiple Importance Sampling),通过结合来自多个策略的信息,为重要性提供更低偏差和方差的估计。
2. 为促进新知识的发现,引入了基于探索的优势函数(Exploration-Based Advantage Function),它通过优先考虑那些高质量但模型难以探索到的(即低概率的)推理路径的优势,来重塑学习目标。
这篇文章从理论分析以及广泛实验两方面证明了方法的有效性和泛化能力。
2.1 核心技术创新一:使用多重重要性采样缓解分布不匹配一个核心挑战是目标策略 和未知的行为策略 之间的分布偏移。标准的重要性采样(IS)在修正这种不匹配时面临两难:
在线策略代理(On-policy estimator):使用像 这样的代理作为分母,在应用于来自 的外部数据时会产生系统性偏差(Lemma A.5)。
离线策略估计器(Off-policy estimator):理论上正确的估计器 会因 的支撑集不匹配(Lemma A.6)以及策略差异过大导致的高方差而使训练不稳定(Lemma A.7)。
为了解决这个问题,研究者引入了多重重要性采样(Multiple Importance Sampling),以构建一个具有更低方差和可控偏差的估计器(Remarks A.8 and A.9)。
我们将外部样本的生成视为来自一个混合策略,该策略由旧策略 和外部策略 组成。
每个 token 的多重重要性采样可以定义为:

这种方法用一个受控、有界的失真误差取代了由不良代理或支撑集不匹配引起的爆炸性偏差和方差(Theorem 3.1)。由于行为策略 未知,研究者从贝叶斯角度推导出一个最优估计器。
将估计问题框定为一个决策问题,需要在最好的可用模型 和代表最大不确定性的均匀策略之间取得平衡,从而得到贝叶斯最优估计器(Theorem 3.2)。
2.2 核心技术创新二:使用基于探索的优势函数进行高效探索
仅仅稳定地引入外部数据是不够的,必须引导模型关注其中最有价值的信息,特别是模型自身难以发现的“新知识”。模型倾向于高概率的 token,而新知识往往蕴含在模型认为概率很低的正确推理路径中。
为此,研究者设计了一个基于探索的优势函数(Exploration-Based Advantage Function),,它优先鼓励模型探索那些正确但难以发现的推理步骤。其定义如下:

其中,第一项是标准化的奖励,第二项是鼓励探索的权重 。受 Focal Loss 的启发,其定义为:

当探索一个 token 很简单时,权重 会变小,相反当探索一个 token 很困难时,权重 会变大,从而优先考虑那些高质量但模型难以探索到的(即低概率的)推理路径。
2.3 RL-PLUS 的目标函数
为了协同内部利用 Do 和外部数据 De,RL-PLUS 的最终训练目标被定义为:

第一项是标准的策略梯度目标,负责稳定和改进模型现有的推理能力 。第二项是 RL-PLUS 贡献的核心,它驱动策略进行外部探索,并利用了两个主要创新:多重重要性采样 和基于探索的优势函数 。
此外,该目标省略了裁剪(clip)机制,因为它会抑制对应于信息量大、概率低的事件(即我们希望获取的“新知识”)的梯度信号。
通过移除此限制,RL-PLUS 能够在遇到外部数据中的有价值信息时采取更大胆的优化步骤,从而加速新知识的吸收并更有效地扩展其能力边界。

RL-PLUS 在域内和域外任务上的全面领先
RL-PLUS 在六个域内复杂数学推理基准测试上,取得了当前 SOTA 的性能,优于现有的 RLVR 方法,相较于 主流的 SFT+GRPO 二阶段训练范式 平均得分高出 5.2 个点,展现了一种更强大的整合策略。

RL-PLUS 在六个域外推理任务(包括程序生成和学科竞赛)上表现出更卓越的泛化能力。
实验观察到,传统的 SFT 方法会影响模型的领域外泛化性能,而 RL-PLUS 通过有效融合 SFT 的外部知识获取能力和 RL 的强大泛化能力,成功解决了“知识-泛化”权衡难题,从而在域内和域外任务上中均取得了优越的性能。


RL-PLUS实现探索与利用的有效平衡
RL-PLUS 在整个训练过程中的测试准确率和奖励始终优于其他方法,并且在基线方法性能趋于平稳后仍显示出明显的上升趋势。
在策略熵方面,直接引入外部数据(绿线)会导致“熵爆炸”,而基线方法的熵则会坍塌至接近零,表明探索能力的丧失。相比之下,RL-PLUS 的熵并未降至零,说明训练后的模型保留了相当的探索能力,并有进一步提升的潜力 。


RL-PLUS 使大模型真正突破能力边界
在多个基准测试的 Pass@k 曲线分析表明,随着 k 值的增加,GRPO 方法的性能曲线逐渐与基础模型趋同,甚至在某些情况下低于基础模型。
相比之下,RL-PLUS 在 k 值增大时,保持对基础模型和 GRPO 的性能优势,有效地超越了基础模型固有的能力上限,从而解决了先前 RLVR 方法中观察到的能力边界塌缩问题。


十倍训练步数考验:RL-PLUS 展现卓越稳定性
为了验证 RL-PLUS 的训练稳定性,研究者将模型的训练步数延长至原设置的 10 倍以上。
模型的关键指标在训练过程中表现出极佳的稳定性和持续的性能提升。平均测试得分和奖励均稳步上升,而 actor 熵损失迅速收敛并稳定在一个健康的非零范围,说明模型型的策略在变得更有效利用的同时,也保持了探索所需的策略随机性,从而避免了过早收敛到局部最优。


结论
这篇文章提出了 RL-PLUS 框架,一种新颖的混合策略优化强化学习方法,将 SFT 阶段融入了 RL 的过程中,旨在解决使用 RLVR 训练大语言模型时存在的“能力边界塌缩”问题。
RL-PLUS 通过两个核心组件来协同外部数据与内部利用:使用多重重要性采样解决外部数据的分布不匹配问题,以及使用基于探索的优势函数激励发现高质量但低概率的推理路径。RL-PLUS 让大模型突破了初始训练的能力边界,实现了获取新知识、持续自我进化的关键跨越。



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·

阅读原文
跳转微信打开