仅依赖强化学习探索会导致大模型出现能力塌缩。RL-PLUS创新性地融合监督学习与强化学习,在多个复杂数学推理基准上取得显著突破。该方法通过多重重要性采样解决外部数据分布不匹配问题,并引入基于探索的优势函数促进新知识发现,有效克服了传统方法的局限性,为大模型的持续自我进化打开了新的可能性。
🧠 RL-PLUS融合了监督学习(“学”)与强化学习(“思”),旨在解决大模型能力边界塌缩问题,让模型既能吸收外部知识,又能保持内部推理的优化。
🔍 该方法在6个复杂数学推理基准(如AIME25)上,相较于GRPO平均得分高出5.2个点,实现了显著突破,证明了其有效性。
🎯 核心技术创新一:使用多重重要性采样(MIS)解决外部数据与模型当前策略之间的分布不匹配问题,降低偏差和方差,确保外部数据的有效利用。
🌐 核心技术创新二:引入基于探索的优势函数,优先鼓励模型探索那些正确但难以发现的推理步骤,从而发现新知识和新路径。
📈 RL-PLUS在多个基准测试中超越了基础模型的能力边界,有效解决了先前RLVR方法中观察到的能力边界塌缩问题,展现了模型的持续自我进化能力。
原创 董益宏 2025-10-26 20:05 北京

学思合一,重塑推理边界

“学而不思则罔,思而不学则殆。”仅依赖 GRPO 类探索,会导致大模型出现能力塌缩。
RL-PLUS 创新性地融合监督学习(“学”)与强化学习(“思”),在 6 个复杂数学推理基准(如 AIME25 等)上,相较于 GRPO 平均得分高出 5.2 个点,实现了显著突破。
近年来,大语言模型(LLM)在复杂推理任务上取得了令人瞩目的进展,但要让它们真正实现持续的能力提升,还面临一个核心挑战:如何让模型突破自身的能力边界,获得全新的推理能力。目前主要瓶颈在于一个被称为“能力边界塌缩”(Capability Boundary Collapse)的现象:无论如何优化,模型似乎总是在已有知识的范围内打转,无法真正获得新的推理能力。本文提出了一条全新的路径:通过创新性地融合监督学习(“学”)与强化学习(“思”),让语言模型能够既吸收外部知识,又保持内部推理的优化。
基于该方法训练的 RL-PLUS 模型,在多项权威测试中实现了对基础模型能力边界的真正突破,为大模型的持续自我进化打开了新的可能性。
论文链接:https://arxiv.org/pdf/2508.00222代码链接:https://github.com/YihongDong/RL-PLUS接下来,我们将深入解读这项研究是如何实现这一目标的。研究背景与动机:大模型的能力边界塌缩,以及如何突破能力边界?近期,基于可验证奖励的强化学习(RLVR)已成为提升大语言模型复杂推理能力的主流范式。然而,研究界发现了一个令人深思的现象:无论如何优化,模型似乎始终无法突破其基础能力的边界,这一现象被称为“能力边界塌缩”(Capability Boundary Collapse)。
这种局限性源于:大语言模型的潜在解空间极其巨大,奖励却很稀疏,导致当前的 RLVR 技术无法有效引导模型探索新的未知路径,即向外探索(Exploration)。
在需要长推理链的任务中,这一挑战尤为严峻,因为奖励取决于整个推理链的成功完成。一个错误的步骤就可能使整个轨迹的奖励归零,从而无法为获取新知识提供积极信号。因此,模型被迫专注于向内利用(Exploitation),即优化其已有的知识和推理方法,这导致了模型探索范围的收缩和能力的萎缩。这种现象不仅阻止了模型获取超越其基础模型的新信息或能力,也严重阻碍了其整体性能的持续提升。
这篇论文的核心洞察来自孔子的教育理念:“学而不思则罔,思而不学则殆”。
研究者认为,当前的方法恰恰陷入了这两个极端:当前的 RLVR 更像是后者“思而不学则殆”,它擅长在已有知识基础上进行推理和优化,但由于其固有的在线策略(on-policy)加上大语言模型巨大的动作空间和稀疏的奖励,导致不可持续的进步。而传统的监督微调(Supervised Fine-Tuning,SFT)方法则更像前者“学而不思则罔”,即进行僵化的模仿而不加思考,导致在遇到新问题时表现脆弱。因此,他们提出了一个根本性解决方案:融合“学”与“思”,让模型既能吸收外部知识,又能保持内部优化。但要实现这一点需要解决两个关键挑战:1. 如何纠正外部数据的分布不匹配问题。而标准的重要性采样校正方法不足以解决这个问题,例如,使用在线策略的代理(proxy)会引入系统性偏差,而直接使用离线策略(off-policy)则通常因为分布差异巨大而遭受高方差和偏差的困扰。
2. 如何高效地从外部数据中提取有价值的信息。在 RL 阶段,模型天然倾向于关注高概率的 token 强化现有知识而忽视低概率的 token,但是有效的探索低概率的 token 才是发现新知识和新路径的关键。
RL-PLUS 方法总览RL-PLUS 包含两大核心组件:1. 为解决分布不匹配问题,采用多重重要性采样(Multiple Importance Sampling),通过结合来自多个策略的信息,为重要性提供更低偏差和方差的估计。2. 为促进新知识的发现,引入了基于探索的优势函数(Exploration-Based Advantage Function),它通过优先考虑那些高质量但模型难以探索到的(即低概率的)推理路径的优势,来重塑学习目标。这篇文章从理论分析以及广泛实验两方面证明了方法的有效性和泛化能力。2.1 核心技术创新一:使用多重重要性采样缓解分布不匹配一个核心挑战是目标策略 和未知的行为策略 之间的分布偏移。标准的重要性采样(IS)在修正这种不匹配时面临两难:在线策略代理(On-policy estimator):使用像 这样的代理作为分母,在应用于来自 的外部数据时会产生系统性偏差(Lemma A.5)。离线策略估计器(Off-policy estimator):理论上正确的估计器 会因 的支撑集不匹配(Lemma A.6)以及策略差异过大导致的高方差而使训练不稳定(Lemma A.7)。
为了解决这个问题,研究者引入了多重重要性采样(Multiple Importance Sampling),以构建一个具有更低方差和可控偏差的估计器(Remarks A.8 and A.9)。我们将外部样本的生成视为来自一个混合策略,该策略由旧策略 和外部策略 组成。每个 token 的多重重要性采样可以定义为:这种方法用一个受控、有界的失真误差取代了由不良代理或支撑集不匹配引起的爆炸性偏差和方差(Theorem 3.1)。由于行为策略 未知,研究者从贝叶斯角度推导出一个最优估计器。将估计问题框定为一个决策问题,需要在最好的可用模型 和代表最大不确定性的均匀策略之间取得平衡,从而得到贝叶斯最优估计器(Theorem 3.2)。2.2 核心技术创新二:使用基于探索的优势函数进行高效探索 仅仅稳定地引入外部数据是不够的,必须引导模型关注其中最有价值的信息,特别是模型自身难以发现的“新知识”。模型倾向于高概率的 token,而新知识往往蕴含在模型认为概率很低的正确推理路径中。
为此,研究者设计了一个基于探索的优势函数(Exploration-Based Advantage Function),,它优先鼓励模型探索那些正确但难以发现的推理步骤。其定义如下: