--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---
1. 后训练的「分」与「合」,SFT&RL 大一统才是正解?
为什么后训练在 SFT 之外需要 RL?「先 SFT,后 RL」范式有哪些缺陷?SFT 与 RL 在理论上可以如何统一?「遗忘定律」如何解释灾难性遗忘的规律?SFT 与 RL 有哪些共性?混合 SFT 与 RL 如何解决单一范式的局限?...
2. AI 硬件,将带来下一个「苹果」还是昙花一现?
Meta、OpenAI、苹果和谷歌在 AI 硬件上的布局中,谁的策略最可能形成生态优势?无屏幕、靠摄像头和麦克风的便携 AI 设备,会成为人们随身必备的新入口吗? AI 是「外挂」,还是会成为每台设备的「隐形能力」?用户真的能感受到差别吗?无感交互真的能让我们「忘记手机」,还是只是技术噱头?AI 硬件还能玩出哪些「奇形怪状」?这些新奇形态是否可以真正走进我们的生活?...
3. AI 是搜索的「替代品」还是「扩张引擎」?
生成式 AI 会成为搜索的「替代品」,还是推动查询量和用户意图扩张的「增长引擎」?多模态交互与对话式 AI 搜索是否正在重新定义用户完成任务的方式?AI 驱动的搜索增长如何同时提升广告流量和商业价值?谷歌选择逐步融入 AI 智能体能力,而非等待技术成熟,这背后反映了怎样的产品与战略思路?...
要事解读① 后训练的「分」与「合」,SFT&RL 大一统才是正解?
后训练也要大一统?[1-1][1-2] [1-3]1、在当前对 AI 的探索中,预训练使 LLM 获得了海量的世界知识,但其原始能力并未与人类的价值观、偏好及意图对齐。因此,后训练(Post-Training)成为将模型的原始能力塑造为有益、无害且诚实行为的关键阶段。2、围绕后训练阶段的研究中,长期以来存在着两种主导性的技术范式,分别是监督微调(SFT)与强化学习(RL)。传统上,这两种技术通常会以分离的、顺序执行的模式作用于后训练环节。① 在这种模式下,模型首先通过 SFT 进行基础能力注入和格式对齐,随后再利用 RL 进行更细致的偏好对齐。3、这种「先 SFT,后 RL」的管线虽然在许多开创性工作中被证明行之有效,但同样有工作发现其流程僵化、资源消耗巨大且在实践中表现出相当的脆弱性,尤其是 RL 阶段的不稳定性,已成为业界公认的痛点。4、相对于以「分」的形式在后训练贯序执行后训练,近期有一种「合」的思潮尝试打破 SFT 于 RL 间的壁垒,探索一种「大一统」(unified)的后训练框架。① 「分」的思路将 SFT 和 RL 视为两个目标和机制不同的独立模块。SFT 旨在让模型复现高质量的专家示范;而 RL 是为了让模型通过试错发现能最大化奖励的行为。它们被串联在一个固定的、多阶段的流程中。② 在「合」的视角下,SFT 和 RL 并非根本对立,而是同一个优化过程在不同假设下的具体体现,其目标都是为了优化最大化期望奖励,同时约束模型不要偏离初始状态太远。是什么驱动后训练范式由「分」走向「合」?1、在学界的探索下,许多工作证明了「SFT 倾向于记忆,而 RL 倾向于泛化」。因此较为流行的「先 SFT,后 RL」后训练范式选择先通过 SFT 学习目标任务的基本行为模式和输出格式,然后用 RL 进行偏好对齐。[1-4] [1-7]2、SFT 作为一种模仿学习,其核心是让模型复现高质量的专家示范。然而,这种机制存在多种局限性,使其难以处理那些没有唯一正确答案的主观性任务(如创造力、幽默感或复杂的伦理判断)① 「灾难性遗忘」指模型在学习新任务时,会丢掉之前学到的技能。尤其是全参数微调的 SFT,不仅难以增强模型的内在知识,反而可能导致其在预训练阶段学到的知识发生退化 。[1-5]② 「过拟合与泛化能力不足」的问题通常归因于 SFT 的数据规模和多样性的局限,这使得模型很容易对训练数据的特定风格、措辞甚至偏见产生过拟合,导致模型在面对 OOD 的指令时表现不佳。③ 「静态性质」指一旦 SFT 完成,模型的能力就被固化,无法动态适应新的信息或用户偏好,除非进行昂贵的重新训练。3、RL 的优势在于其探索能力,它允许模型生成训练数据中从未出现过的回答,并通过奖励信号判断这些新回答的优劣。① 诸如流行的 RLHF、PPO 和 GRPO 等 RL 方法能捕捉 SFT 静态数据集中难以体现的精细行为。[1-1]② 这种特性使模型有机会发现比专家示范更优的解决方案,因此 RL 在处理需要创造性、复杂推理或主观判断的任务时,通常能获得比 SFT 更好的泛化性能和更高的上限。[1-6]4、在「先 SFT,后 RL」的模式中,SFT 通过模仿学习,首先将模型的行为锚定在一个有用的、符合基本指令的范围内,为 RL 提供了一个高质量的起点 。[1-7] [1-8]① RL 的奖励模型需要结构良好、格式正确的回答才能进行准确评估。SFT 通过教授模型目标任务的输出格式,确保了 RL 阶段的反馈信号是有效且可靠的 。② 同时,SFT 能够约束 RL 需要探索的空间,使其可以专注于学习更高级、与偏好相关的细微差别,而不是从零开始学习基本的语言连贯性,从而提升训练效率 。5、尽管「分」流程在逻辑上清晰,但 SFT 和 RL 各自的局限导致两者组合的后训练流程可能会对模型能力带来影响,加之学界对这两种范式的特征和共性的探索,最终推动了后训练向「合」的方向发展。① SFT 阶段可能引入的知识退化和过拟合问题,为 RL 阶段提供了一个有瑕疵的初始策略。而 RL 算法(尤其是 PPO)本身固有的不稳定性,在优化这样一个已经受损的起点时,其难度被进一步放大 。② 不同 RL 算法本身的复杂性,以及对超参数极为的敏感性会也会影响性能 。奖励缩放、KL 散度系数等微小调整都可能导致训练崩溃 。此外,奖励模型与策略优化之间的目标不一致性也是其不稳定的根源之一 。SFT 与 RL,后训练的大一统是否存在可能?
文章原文
