机器之心 09月14日
AI 后训练:SFT 与 RL 的融合之路
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,AI 领域对大型语言模型(LLM)后训练方法进行了深入探索。传统的“先监督微调(SFT),后强化学习(RL)”范式暴露出流程僵化、资源消耗大及稳定性差等局限。一种新的“大一统”思潮正在兴起,旨在打破 SFT 与 RL 之间的壁垒,构建统一的后训练框架。研究表明,SFT 倾向于记忆,RL 倾向于泛化,两者并非对立,而是优化同一目标的不同体现。SFT 在模仿学习中存在灾难性遗忘、过拟合等问题,而 RL 具备探索能力,能处理主观性任务并获得更好的泛化性能。将两者融合,有望克服单一范式的不足,提升模型能力。

🤖 **后训练的重要性与传统范式:** 预训练赋予了大型语言模型(LLM)海量世界知识,但其原始能力需要通过后训练阶段进行塑造,以使其行为符合人类的价值观、偏好和意图,变得有益、无害且诚实。传统的后训练方法通常采用分离的、顺序执行的模式,即先进行监督微调(SFT)以注入基础能力和格式对齐,再利用强化学习(RL)进行更细致的偏好对齐。这种“先 SFT,后 RL”的管线虽然在早期研究中有效,但存在流程僵化、资源消耗巨大且稳定性差等问题。

💡 **SFT 的局限性与 RL 的优势:** SFT 作为一种模仿学习,核心在于复现高质量的专家示范,但其在处理主观性任务(如创造力、幽默感)时存在局限,容易导致“灾难性遗忘”(丢失预训练知识)、“过拟合与泛化能力不足”(对训练数据过度依赖)以及“静态性质”(模型能力固化)。相比之下,RL 具有强大的探索能力,允许模型生成训练数据中未出现过的回答,并通过奖励信号进行优化,在处理需要创造性、复杂推理或主观判断的任务时,通常能获得更好的泛化性能和更高的上限。

🤝 **“大一统”思潮的兴起:** 近期,学界出现了一种“合”的思潮,尝试打破 SFT 与 RL 间的壁垒,探索“大一统”的后训练框架。这种观点认为,SFT 和 RL 并非根本对立,而是同一个优化过程在不同假设下的具体体现,目标都是为了优化最大化期望奖励,同时约束模型不要偏离初始状态太远。这种融合的趋势旨在克服单一范式的不足,例如 SFT 阶段可能引入的知识退化和过拟合问题,以及 RL 算法本身固有的不稳定性,从而提升整体训练效果。

📈 **融合 SFT 与 RL 的潜在价值:** 在“先 SFT,后 RL”的模式中,SFT 为 RL 提供了一个高质量的起点,通过教授模型目标任务的输出格式,确保了 RL 阶段反馈信号的有效性和可靠性,并约束了 RL 的探索空间。而“大一统”的框架则进一步探索了 SFT 与 RL 间的共性,期望能够更有效地整合两者的优势,例如通过混合 SFT 和 RL 来平衡模仿学习和探索性学习,从而解决单一范式的局限性,实现更优的模型能力。

机器之心PRO · 会员通讯 Week 37

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 后训练的「分」与「合」,SFT&RL 大一统才是正解?

为什么后训练在 SFT 之外需要 RL?「先 SFT,后 RL」范式有哪些缺陷?SFT 与 RL 在理论上可以如何统一?「遗忘定律」如何解释灾难性遗忘的规律?SFT 与 RL 有哪些共性?混合 SFT 与 RL 如何解决单一范式的局限?...

2. AI 硬件,将带来下一个「苹果」还是昙花一现?

Meta、OpenAI、苹果和谷歌在 AI 硬件上的布局中,谁的策略最可能形成生态优势?无屏幕、靠摄像头和麦克风的便携 AI 设备,会成为人们随身必备的新入口吗? AI 是「外挂」,还是会成为每台设备的「隐形能力」?用户真的能感受到差别吗?无感交互真的能让我们「忘记手机」,还是只是技术噱头?AI 硬件还能玩出哪些「奇形怪状」?这些新奇形态是否可以真正走进我们的生活?...

3. AI 是搜索的「替代品」还是「扩张引擎」?

生成式 AI 会成为搜索的「替代品」,还是推动查询量和用户意图扩张的「增长引擎」?多模态交互与对话式 AI 搜索是否正在重新定义用户完成任务的方式?AI 驱动的搜索增长如何同时提升广告流量和商业价值?谷歌选择逐步融入 AI 智能体能力,而非等待技术成熟,这背后反映了怎样的产品与战略思路?...


本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 9 项,国外方面 8 项。
本期通讯总计 26535 字,可免费试读至 8%  消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 

要事解读①  后训练的「分」与「合」,SFT&RL 大一统才是正解?
引言:在近期对 LLM 后训练方法的探索中,流行的「先 SFT,后 RL」范式被证明存在诸多局限。与之相对的,越来越的工作发现 SFT 与 RL 间存在许多可以调和的共性,因此引发了业界对「合」的趋势,即,探索 SFT 和 RL 相结合的后训练范式。


后训练也要大一统?[1-1][1-2] [1-3]1、在当前对 AI 的探索中,预训练使 LLM 获得了海量的世界知识,但其原始能力并未与人类的价值观、偏好及意图对齐。因此,后训练(Post-Training)成为将模型的原始能力塑造为有益、无害且诚实行为的关键阶段。

2、围绕后训练阶段的研究中,长期以来存在着两种主导性的技术范式,分别是监督微调(SFT)与强化学习(RL)。传统上,这两种技术通常会以分离的、顺序执行的模式作用于后训练环节。

① 在这种模式下,模型首先通过 SFT 进行基础能力注入和格式对齐,随后再利用 RL 进行更细致的偏好对齐。

3、这种「先 SFT,后 RL」的管线虽然在许多开创性工作中被证明行之有效,但同样有工作发现其流程僵化、资源消耗巨大且在实践中表现出相当的脆弱性,尤其是 RL 阶段的不稳定性,已成为业界公认的痛点。

4、相对于以「分」的形式在后训练贯序执行后训练,近期有一种「合」的思潮尝试打破 SFT 于 RL 间的壁垒,探索一种「大一统」(unified)的后训练框架。

① 「分」的思路将 SFT 和 RL 视为两个目标和机制不同的独立模块。SFT 旨在让模型复现高质量的专家示范;而 RL 是为了让模型通过试错发现能最大化奖励的行为。它们被串联在一个固定的、多阶段的流程中。

② 在「合」的视角下,SFT 和 RL 并非根本对立,而是同一个优化过程在不同假设下的具体体现,其目标都是为了优化最大化期望奖励,同时约束模型不要偏离初始状态太远。

是什么驱动后训练范式由「分」走向「合」?1、在学界的探索下,许多工作证明了「SFT 倾向于记忆,而 RL 倾向于泛化」。因此较为流行的「先 SFT,后 RL」后训练范式选择先通过 SFT 学习目标任务的基本行为模式和输出格式,然后用 RL 进行偏好对齐。[1-4] [1-7]

2、SFT 作为一种模仿学习,其核心是让模型复现高质量的专家示范。然而,这种机制存在多种局限性,使其难以处理那些没有唯一正确答案的主观性任务(如创造力、幽默感或复杂的伦理判断)

① 「灾难性遗忘」指模型在学习新任务时,会丢掉之前学到的技能。尤其是全参数微调的 SFT,不仅难以增强模型的内在知识,反而可能导致其在预训练阶段学到的知识发生退化 。[1-5]

② 「过拟合与泛化能力不足」的问题通常归因于 SFT 的数据规模和多样性的局限,这使得模型很容易对训练数据的特定风格、措辞甚至偏见产生过拟合,导致模型在面对 OOD 的指令时表现不佳。

③ 「静态性质」指一旦 SFT 完成,模型的能力就被固化,无法动态适应新的信息或用户偏好,除非进行昂贵的重新训练。

3、RL 的优势在于其探索能力,它允许模型生成训练数据中从未出现过的回答,并通过奖励信号判断这些新回答的优劣。

① 诸如流行的 RLHF、PPO 和 GRPO 等 RL 方法能捕捉 SFT 静态数据集中难以体现的精细行为。[1-1]

② 这种特性使模型有机会发现比专家示范更优的解决方案,因此 RL 在处理需要创造性、复杂推理或主观判断的任务时,通常能获得比 SFT 更好的泛化性能和更高的上限。[1-6]

4、在「先 SFT,后 RL」的模式中,SFT 通过模仿学习,首先将模型的行为锚定在一个有用的、符合基本指令的范围内,为 RL 提供了一个高质量的起点 。[1-7] [1-8]

① RL 的奖励模型需要结构良好、格式正确的回答才能进行准确评估。SFT 通过教授模型目标任务的输出格式,确保了 RL 阶段的反馈信号是有效且可靠的 。

② 同时,SFT 能够约束 RL 需要探索的空间,使其可以专注于学习更高级、与偏好相关的细微差别,而不是从零开始学习基本的语言连贯性,从而提升训练效率 。

5、尽管「分」流程在逻辑上清晰,但 SFT 和 RL 各自的局限导致两者组合的后训练流程可能会对模型能力带来影响,加之学界对这两种范式的特征和共性的探索,最终推动了后训练向「合」的方向发展。

① SFT 阶段可能引入的知识退化和过拟合问题,为 RL 阶段提供了一个有瑕疵的初始策略。而 RL 算法(尤其是 PPO)本身固有的不稳定性,在优化这样一个已经受损的起点时,其难度被进一步放大 。

② 不同 RL 算法本身的复杂性,以及对超参数极为的敏感性会也会影响性能 。奖励缩放、KL 散度系数等微小调整都可能导致训练崩溃 。此外,奖励模型与策略优化之间的目标不一致性也是其不稳定的根源之一 。

SFT 与 RL,后训练的大一统是否存在可能?


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 后训练 SFT RL 大型语言模型 LLM 模仿学习 强化学习 模型对齐 AI 硬件 AI 搜索
相关文章