BRIDGE 框架：协同SFT与RL提升大模型推理能力

（本文阅读时间：9分钟）

编者按：在数学、编程等高度挑战的推理任务中，大语言模型正在展现前所未有的突破。然而，支撑其背后的传统训练范式仍存在效率低下与“灾难性遗忘”的困境。为此，微软亚洲研究院与香港中文大学联合提出了 BRIDGE 框架，通过双层优化机制让监督微调（SFT）与强化学习（RL）“携手并进”，突破了长期以来的两阶段训练瓶颈。BRIDGE 不仅在多个权威测试中实现了显著的性能提升，还为未来大模型后训练开辟了新方向。
大型推理模型在数学、编程等挑战性领域取得了突破性进展。然而，支撑这一进步的核心技术“基于可验证奖励的强化学习（RL）”，本质上是一种试错学习，所以面临着训练效率低下的严峻挑战。传统的解决方案是采用监督微调（SFT）作为预热，再进入 RL，但这种解耦的两阶段方法限制了 SFT 与 RL 之间的交互，从而制约了整体效果。

为解决这一问题，微软亚洲研究院和香港中文大学的研究团队提出了 BRIDGE 框架，通过双层优化实现了 SFT 和 RL 的深度协同，为大语言模型（LLMs）推理能力的训练开辟了新路径。

Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning

论文链接：

https://arxiv.org/abs/2509.06948

图1：对比 SFT-RL 两阶段训练和 BRIDGE 协同训练

传统两阶段训练的困境：缺失的"交互"

当前主流的大语言模型后训练通常采用"先 SFT 后 RL"的两阶段训练范式。第一阶段通过监督微调让模型学习专家级的推理轨迹，第二阶段则通过强化学习让模型自主探索并优化推理路径。

这种方法看似合理，却存在一个根本性缺陷：两个阶段完全解耦，缺乏信息交换。

研究团队通过对比实验，揭示了不同训练方法的差异。图2展示了训练过程中测试准确率的变化。结果表明，虽然 SFT 作为冷启动训练为 RL 训练提供了有效的初始化和快速的早期收敛，但对最终收敛性能的贡献有限。这导致初期准确率提升较快，但在两阶段流程的后期阶段表现趋于平稳，增益很小。相比之下，尽管 RL 单独训练收敛较慢，但最终却能达到相近的性能。

图2：训练过程中测试集变化

通过这些结果可以看到 SFT 和 RL 在推理任务中的各自优势：SFT 可以促进快速的初始学习，RL 则能够实现更好的最终性能。然而，冷启动训练中简单的两阶段结合未能充分发挥这两者的互补优势，研究团队发现其中有两个主要的局限：

（1）灾难性遗忘：两阶段训练模式存在固有的灾难性遗忘问题，即模型在从 SFT 过渡到 RL 训练时会丢失部分 SFT 阶段的知识。这种现象体现在冷启动第二阶段的回复长度变化中（见图3），回复长度会先大幅下降然后逐渐回升，呈现出“先降后升”的模式，表明模型先忘记了一些专家行为，再慢慢探索出新策略。

（2）探索效率低下：尽管 SFT 初始化有效，但在线 RL 在解决困难问题时经常遇到探索效率低下的问题，特别是在模型遇到困难问题时，容易陷入局部最优，难以发现可以带来正奖励的路径（见图3）。SFT 阶段结束后，RL 缺乏持续的指导导致奖励很快收敛到瓶颈。

图3：回复长度和奖励训练变化

这些局限促使研究员们将 SFT 和 RL 训练整合到一个统一的框架中，促进两者的交互。

BRIDGE框架：让SFT与RL"携手并进"

为了验证可行性，研究团队首先尝试了一种简单的交替训练方法（naive alternating）——在同一阶段交替进行 RL 和 SFT 的学习。令人惊喜的是，即使是这种简单的方法，也取得了比传统方法更好的收敛效果（见图2）。

这一发现引发了研究员们更深层的思考："如何设计训练策略，以保证 SFT 与 RL 的协同合作能够实现优于使用单一方法的性能表现？"

基于这一问题，研究团队进一步提出了 BRIDGE 的合作训练框架，其核心创新在于通过一种基于双层优化（bilevel optimization）的元学习（meta-learning）框架建立 SFT 与 RL 之间的深度协同机制。

架构设计：轻量级的增强

首先，BRIDGE 提出了一种巧妙的模型架构设计：

基础模型（θ）：作为大语言模型的核心推理引擎，负责生成推理过程

LoRA 模块（ω）：作为轻量级的"协调器"，促进 RL 和 SFT 两种训练范式的深度合作

这两个组件共同构成了一个"增强模型" (θ ̅=[θ,ω])。通过这种设计，BRIDGE 能够在几乎不增加参数量的情况下，实现 SFT 与 RL 通讯的“硬件基础”。

协同元学习方法：双层优化的艺术

在此架构上，研究团队设计了一种协同元学习方法 BRIDGE：

其核心在于通过双层优化结构实现 SFT 与 RL 的深度融合：

上层优化（领导者）：SFT 目标扮演"导师"角色，负责提供专家级的推理指导

下层优化（追随者）：RL 目标扮演"学生"角色，在奖励信号的驱动下进行自主探索

这种设计的精妙之处在于：SFT 在优化时能够前瞻性地考虑 RL 的最优解 θ*（图2中反向消息传递），从而提供更有针对性的指导。这就像一位经验丰富的老师，不仅传授知识，还能预见学生在实践中可能遇到的难点，提前给予有针对性的指导。

算法实现：基于惩罚函数方法

为了实现这个双层优化问题在实践中高效求解，研究团队使用了基于惩罚函数的一阶方法。

具体包括：

1. 基础模型更新规则：融合 SFT 和 RL 的梯度，实现两种目标的平衡优化

2. LoRA 模块更新：通过最大化"联合训练"与"纯 RL 训练"之间的奖励差距，显式鼓励协同增益

这种设计确保了联合训练的效果始终优于单独使用 RL，从而保证了协同方法的优越性。

实验验证：全方位的性能和训练效率提升

研究团队在多个具有挑战性的数学推理基准上验证了 BRIDGE 的效果，包括 MATH500、Minerva Math、OlympiadBench 等标准测试集，以及 AIME 2024、AMC 2023 等竞赛级别的数据集。

在 Qwen2.5-3B，Qwen3-8B 和 Llama3.2-3B-Instruct 模型上的实验结果表明，BRIDGE 的方法相对两阶段的冷启动方法有10–31%的平均性能提升，并且在所有测试基准上均取得了优异成绩。

表1：Qwen2.5-3B 实验结果

表2：Qwen3-8B 实验结果

表3：Llama3.2-3B-Instruct 实验结果

研究团队还提供了全面的成本效益分析。BRIDGE 在训练效率方面表现出色，在 Qwen2.5-3B 上相比冷启动实现了44%的训练速度提高，同时性能提升了13%；在 Qwen3-8B 上训练速度提高了14%，性能提升了10%。虽然 BRIDGE 增加了适度的内存开销，但在效率和准确性上的显著改进足以证明这种权衡是合理的。这种训练效率的提升主要来源于 BRIDGE 训练过程中生成的回答更短（见图3），从而显著减少了计算开销。

表4：Qwen2.5-3B 训练时间分析

推理模型训练的新起点

BRIDGE 的成功源于三个关键的技术洞察。首先，它引入了动态指导机制。不同于传统方法将 SFT 仅作为初始化方法使用这一方式，BRIDGE 让 SFT 在整个训练过程中持续提供指导，帮助 RL 更高效地探索。其次，BRIDGE 通过协同优化保证，在机制设计上最大化联合训练与纯 RL 训练的奖励差距，确保了协同效应的产生。最后，它采用了单阶段的框架，有效避免了传统两阶段训练中常见的灾难性遗忘问题，使训练过程更加稳健、高效。

BRIDGE 框架的提出，不仅解决了当前两阶段训练的局限性，更为大语言模型推理能力的训练开辟了新的研究方向。未来的工作可以从三个方面展开：

扩展至更大规模：将 BRIDGE 应用于更大规模的模型，探索其在超大规模场景下的表现。

拓展应用领域：除了数学推理，BRIDGE 框架可以推广到代码生成、定理证明、科学推理等更多领域。

优化算法效率：开发更高效的优化策略，进一步降低计算成本，使方法更易于实际部署。

真正的进步往往来自于不同方法之间的有机结合，而非简单的串联或者叠加。随着大语言模型在各个领域的应用日益深入，BRIDGE 这样的创新训练方法将为构建更强大、更高效的 AI 系统奠定坚实的基础。

微软亚洲研究院新书《无界》上市

当面对集体性的难题时，思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书，正是献给这个时代的探索指南。

包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作，他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展，分享了前沿的展望、观点以及宝贵的科研经验。

本书已获得十余位全球顶尖学者的推荐，其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者，以及微软亚洲研究院的杰出院友。

现在，《无界——透视微软创新研究之境》已全平台火爆开售！首批读者将获得限量版微软50周年书签，书签上的文章作者亲笔签名将随机呈现，盲盒式惊喜等你开启！

立即点击下方链接，开启你的专属阅读之旅！

你也许还想看：

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签