(本文阅读时间:9分钟)
编者按:在数学、编程等高度挑战的推理任务中,大语言模型正在展现前所未有的突破。然而,支撑其背后的传统训练范式仍存在效率低下与“灾难性遗忘”的困境。为此,微软亚洲研究院与香港中文大学联合提出了 BRIDGE 框架,通过双层优化机制让监督微调(SFT)与强化学习(RL)“携手并进”,突破了长期以来的两阶段训练瓶颈。BRIDGE 不仅在多个权威测试中实现了显著的性能提升,还为未来大模型后训练开辟了新方向。
大型推理模型在数学、编程等挑战性领域取得了突破性进展。然而,支撑这一进步的核心技术“基于可验证奖励的强化学习(RL)”,本质上是一种试错学习,所以面临着训练效率低下的严峻挑战。传统的解决方案是采用监督微调(SFT)作为预热,再进入 RL,但这种解耦的两阶段方法限制了 SFT 与 RL 之间的交互,从而制约了整体效果。
为解决这一问题,微软亚洲研究院和香港中文大学的研究团队提出了 BRIDGE 框架,通过双层优化实现了 SFT 和 RL 的深度协同,为大语言模型(LLMs)推理能力的训练开辟了新路径。
论文链接:https://arxiv.org/abs/2509.06948
传统两阶段训练的困境:缺失的"交互"
当前主流的大语言模型后训练通常采用"先 SFT 后 RL"的两阶段训练范式。第一阶段通过监督微调让模型学习专家级的推理轨迹,第二阶段则通过强化学习让模型自主探索并优化推理路径。
这种方法看似合理,却存在一个根本性缺陷:两个阶段完全解耦,缺乏信息交换。
研究团队通过对比实验,揭示了不同训练方法的差异。图2展示了训练过程中测试准确率的变化。结果表明,虽然 SFT 作为冷启动训练为 RL 训练提供了有效的初始化和快速的早期收敛,但对最终收敛性能的贡献有限。这导致初期准确率提升较快,但在两阶段流程的后期阶段表现趋于平稳,增益很小。相比之下,尽管 RL 单独训练收敛较慢,但最终却能达到相近的性能。
通过这些结果可以看到 SFT 和 RL 在推理任务中的各自优势:SFT 可以促进快速的初始学习,RL 则能够实现更好的最终性能。然而,冷启动训练中简单的两阶段结合未能充分发挥这两者的互补优势,研究团队发现其中有两个主要的局限:
(1)灾难性遗忘:两阶段训练模式存在固有的灾难性遗忘问题,即模型在从 SFT 过渡到 RL 训练时会丢失部分 SFT 阶段的知识。这种现象体现在冷启动第二阶段的回复长度变化中(见图3),回复长度会先大幅下降然后逐渐回升,呈现出“先降后升”的模式,表明模型先忘记了一些专家行为,再慢慢探索出新策略。
(2)探索效率低下:尽管 SFT 初始化有效,但在线 RL 在解决困难问题时经常遇到探索效率低下的问题,特别是在模型遇到困难问题时,容易陷入局部最优,难以发现可以带来正奖励的路径(见图3)。SFT 阶段结束后,RL 缺乏持续的指导导致奖励很快收敛到瓶颈。
这些局限促使研究员们将 SFT 和 RL 训练整合到一个统一的框架中,促进两者的交互。
BRIDGE框架:让SFT与RL"携手并进"
为了验证可行性,研究团队首先尝试了一种简单的交替训练方法(naive alternating)——在同一阶段交替进行 RL 和 SFT 的学习。令人惊喜的是,即使是这种简单的方法,也取得了比传统方法更好的收敛效果(见图2)。
这一发现引发了研究员们更深层的思考:"如何设计训练策略,以保证 SFT 与 RL 的协同合作能够实现优于使用单一方法的性能表现?"
基于这一问题,研究团队进一步提出了 BRIDGE 的合作训练框架,其核心创新在于通过一种基于双层优化(bilevel optimization)的元学习(meta-learning)框架建立 SFT 与 RL 之间的深度协同机制。
架构设计:轻量级的增强
首先,BRIDGE 提出了一种巧妙的模型架构设计:
基础模型(θ):作为大语言模型的核心推理引擎,负责生成推理过程LoRA 模块(ω):作为轻量级的"协调器",促进 RL 和 SFT 两种训练范式的深度合作
这两个组件共同构成了一个"增强模型" (θ ̅=[θ,ω])。通过这种设计,BRIDGE 能够在几乎不增加参数量的情况下,实现 SFT 与 RL 通讯的“硬件基础”。
协同元学习方法:双层优化的艺术
在此架构上,研究团队设计了一种协同元学习方法 BRIDGE:
其核心在于通过双层优化结构实现 SFT 与 RL 的深度融合:
上层优化(领导者):SFT 目标扮演"导师"角色,负责提供专家级的推理指导下层优化(追随者):RL 目标扮演"学生"角色,在奖励信号的驱动下进行自主探索
这种设计的精妙之处在于:SFT 在优化时能够前瞻性地考虑 RL 的最优解 θ*(图2中反向消息传递),从而提供更有针对性的指导。这就像一位经验丰富的老师,不仅传授知识,还能预见学生在实践中可能遇到的难点,提前给予有针对性的指导。
算法实现:基于惩罚函数方法
为了实现这个双层优化问题在实践中高效求解,研究团队使用了基于惩罚函数的一阶方法。
具体包括:
1. 基础模型更新规则:融合 SFT 和 RL 的梯度,实现两种目标的平衡优化
2. LoRA 模块更新:通过最大化"联合训练"与"纯 RL 训练"之间的奖励差距,显式鼓励协同增益
这种设计确保了联合训练的效果始终优于单独使用 RL,从而保证了协同方法的优越性。
实验验证:全方位的性能和训练效率提升
研究团队在多个具有挑战性的数学推理基准上验证了 BRIDGE 的效果,包括 MATH500、Minerva Math、OlympiadBench 等标准测试集,以及 AIME 2024、AMC 2023 等竞赛级别的数据集。
在 Qwen2.5-3B,Qwen3-8B 和 Llama3.2-3B-Instruct 模型上的实验结果表明,BRIDGE 的方法相对两阶段的冷启动方法有10–31%的平均性能提升,并且在所有测试基准上均取得了优异成绩。
研究团队还提供了全面的成本效益分析。BRIDGE 在训练效率方面表现出色,在 Qwen2.5-3B 上相比冷启动实现了44%的训练速度提高,同时性能提升了13%;在 Qwen3-8B 上训练速度提高了14%,性能提升了10%。虽然 BRIDGE 增加了适度的内存开销,但在效率和准确性上的显著改进足以证明这种权衡是合理的。这种训练效率的提升主要来源于 BRIDGE 训练过程中生成的回答更短(见图3),从而显著减少了计算开销。
推理模型训练的新起点
BRIDGE 的成功源于三个关键的技术洞察。首先,它引入了动态指导机制。不同于传统方法将 SFT 仅作为初始化方法使用这一方式,BRIDGE 让 SFT 在整个训练过程中持续提供指导,帮助 RL 更高效地探索。其次,BRIDGE 通过协同优化保证,在机制设计上最大化联合训练与纯 RL 训练的奖励差距,确保了协同效应的产生。最后,它采用了单阶段的框架,有效避免了传统两阶段训练中常见的灾难性遗忘问题,使训练过程更加稳健、高效。
BRIDGE 框架的提出,不仅解决了当前两阶段训练的局限性,更为大语言模型推理能力的训练开辟了新的研究方向。未来的工作可以从三个方面展开:
扩展至更大规模:将 BRIDGE 应用于更大规模的模型,探索其在超大规模场景下的表现。拓展应用领域:除了数学推理,BRIDGE 框架可以推广到代码生成、定理证明、科学推理等更多领域。优化算法效率:开发更高效的优化策略,进一步降低计算成本,使方法更易于实际部署。
真正的进步往往来自于不同方法之间的有机结合,而非简单的串联或者叠加。随着大语言模型在各个领域的应用日益深入,BRIDGE 这样的创新训练方法将为构建更强大、更高效的 AI 系统奠定坚实的基础。
微软亚洲研究院新书《无界》上市
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文
