AI 后训练：SFT 与 RL 的融合之路

机器之心PRO · 会员通讯 Week 37

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 后训练的「分」与「合」，SFT&RL 大一统才是正解？

为什么后训练在 SFT 之外需要 RL？「先 SFT，后 RL」范式有哪些缺陷？SFT 与 RL 在理论上可以如何统一？「遗忘定律」如何解释灾难性遗忘的规律？SFT 与 RL 有哪些共性？混合 SFT 与 RL 如何解决单一范式的局限？...

2. AI 硬件，将带来下一个「苹果」还是昙花一现？

Meta、OpenAI、苹果和谷歌在 AI 硬件上的布局中，谁的策略最可能形成生态优势？无屏幕、靠摄像头和麦克风的便携 AI 设备，会成为人们随身必备的新入口吗？ AI 是「外挂」，还是会成为每台设备的「隐形能力」？用户真的能感受到差别吗？无感交互真的能让我们「忘记手机」，还是只是技术噱头？AI 硬件还能玩出哪些「奇形怪状」？这些新奇形态是否可以真正走进我们的生活？...

3. AI 是搜索的「替代品」还是「扩张引擎」？

生成式 AI 会成为搜索的「替代品」，还是推动查询量和用户意图扩张的「增长引擎」？多模态交互与对话式 AI 搜索是否正在重新定义用户完成任务的方式？AI 驱动的搜索增长如何同时提升广告流量和商业价值？谷歌选择逐步融入 AI 智能体能力，而非等待技术成熟，这背后反映了怎样的产品与战略思路？...

本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 9 项，国外方面 8 项。

本期通讯总计 26535 字，可免费试读至 8% 消耗 288 微信豆可兑换完整本期解读（约合人民币 28.8 元）

要事解读① 后训练的「分」与「合」，SFT&RL 大一统才是正解？

引言：在近期对 LLM 后训练方法的探索中，流行的「先 SFT，后 RL」范式被证明存在诸多局限。与之相对的，越来越的工作发现 SFT 与 RL 间存在许多可以调和的共性，因此引发了业界对「合」的趋势，即，探索 SFT 和 RL 相结合的后训练范式。

后训练也要大一统？[1-1][1-2] [1-3]1、在当前对 AI 的探索中，预训练使 LLM 获得了海量的世界知识，但其原始能力并未与人类的价值观、偏好及意图对齐。因此，后训练（Post-Training）成为将模型的原始能力塑造为有益、无害且诚实行为的关键阶段。

2、围绕后训练阶段的研究中，长期以来存在着两种主导性的技术范式，分别是监督微调（SFT）与强化学习（RL）。传统上，这两种技术通常会以分离的、顺序执行的模式作用于后训练环节。

① 在这种模式下，模型首先通过 SFT 进行基础能力注入和格式对齐，随后再利用 RL 进行更细致的偏好对齐。

3、这种「先 SFT，后 RL」的管线虽然在许多开创性工作中被证明行之有效，但同样有工作发现其流程僵化、资源消耗巨大且在实践中表现出相当的脆弱性，尤其是 RL 阶段的不稳定性，已成为业界公认的痛点。

4、相对于以「分」的形式在后训练贯序执行后训练，近期有一种「合」的思潮尝试打破 SFT 于 RL 间的壁垒，探索一种「大一统」（unified）的后训练框架。

① 「分」的思路将 SFT 和 RL 视为两个目标和机制不同的独立模块。SFT 旨在让模型复现高质量的专家示范；而 RL 是为了让模型通过试错发现能最大化奖励的行为。它们被串联在一个固定的、多阶段的流程中。

② 在「合」的视角下，SFT 和 RL 并非根本对立，而是同一个优化过程在不同假设下的具体体现，其目标都是为了优化最大化期望奖励，同时约束模型不要偏离初始状态太远。

是什么驱动后训练范式由「分」走向「合」？1、在学界的探索下，许多工作证明了「SFT 倾向于记忆，而 RL 倾向于泛化」。因此较为流行的「先 SFT，后 RL」后训练范式选择先通过 SFT 学习目标任务的基本行为模式和输出格式，然后用 RL 进行偏好对齐。[1-4] [1-7]

2、SFT 作为一种模仿学习，其核心是让模型复现高质量的专家示范。然而，这种机制存在多种局限性，使其难以处理那些没有唯一正确答案的主观性任务（如创造力、幽默感或复杂的伦理判断）

① 「灾难性遗忘」指模型在学习新任务时，会丢掉之前学到的技能。尤其是全参数微调的 SFT，不仅难以增强模型的内在知识，反而可能导致其在预训练阶段学到的知识发生退化。[1-5]

② 「过拟合与泛化能力不足」的问题通常归因于 SFT 的数据规模和多样性的局限，这使得模型很容易对训练数据的特定风格、措辞甚至偏见产生过拟合，导致模型在面对 OOD 的指令时表现不佳。

③ 「静态性质」指一旦 SFT 完成，模型的能力就被固化，无法动态适应新的信息或用户偏好，除非进行昂贵的重新训练。

3、RL 的优势在于其探索能力，它允许模型生成训练数据中从未出现过的回答，并通过奖励信号判断这些新回答的优劣。

① 诸如流行的 RLHF、PPO 和 GRPO 等 RL 方法能捕捉 SFT 静态数据集中难以体现的精细行为。[1-1]

② 这种特性使模型有机会发现比专家示范更优的解决方案，因此 RL 在处理需要创造性、复杂推理或主观判断的任务时，通常能获得比 SFT 更好的泛化性能和更高的上限。[1-6]

4、在「先 SFT，后 RL」的模式中，SFT 通过模仿学习，首先将模型的行为锚定在一个有用的、符合基本指令的范围内，为 RL 提供了一个高质量的起点。[1-7] [1-8]

① RL 的奖励模型需要结构良好、格式正确的回答才能进行准确评估。SFT 通过教授模型目标任务的输出格式，确保了 RL 阶段的反馈信号是有效且可靠的。

② 同时，SFT 能够约束 RL 需要探索的空间，使其可以专注于学习更高级、与偏好相关的细微差别，而不是从零开始学习基本的语言连贯性，从而提升训练效率。

5、尽管「分」流程在逻辑上清晰，但 SFT 和 RL 各自的局限导致两者组合的后训练流程可能会对模型能力带来影响，加之学界对这两种范式的特征和共性的探索，最终推动了后训练向「合」的方向发展。

① SFT 阶段可能引入的知识退化和过拟合问题，为 RL 阶段提供了一个有瑕疵的初始策略。而 RL 算法（尤其是 PPO）本身固有的不稳定性，在优化这样一个已经受损的起点时，其难度被进一步放大。

② 不同 RL 算法本身的复杂性，以及对超参数极为的敏感性会也会影响性能。奖励缩放、KL 散度系数等微小调整都可能导致训练崩溃。此外，奖励模型与策略优化之间的目标不一致性也是其不稳定的根源之一。

SFT 与 RL，后训练的大一统是否存在可能？

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签