PaperWeekly 10月08日 07:52
进化策略:一种更稳健、高效的大模型后训练新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种名为进化策略(ES)的大模型后训练新范式,挑战了当前主流的“后训练=RL”观念。研究将ES扩展至十亿级参数全参微调场景,并在Qwen-2.5和LLaMA-3等模型上进行了系统性对照实验。结果表明,ES在样本效率、稳定性以及超参数搜索方面均优于PPO、GRPO等RL方法,尤其在终局可观测、信用分配困难的任务中表现突出。ES通过在参数空间进行群体探索,避免了RL中的梯度估计方差高、奖励黑客等问题,提供了稳定且易于复现的优化路径。

🌟 **参数空间探索的优势**:与RL在动作空间探索不同,ES直接在参数空间进行群体扰动和评估。这种方法能够将长期信号打包进单次评估,有效降低梯度估计方差,提升样本效率,尤其适用于仅有终局信号且信用分配困难的任务。

🚀 **大规模全参微调的可行性与稳定性**:该研究通过七项关键工程优化,成功实现了ES在十亿级参数模型上的稳定、可复现的全参微调。这包括随机种子复现噪声、分层就地扰动评估还原、奖励z-score归一化等,克服了ES在大模型规模下的显存和通信挑战。

📈 **超越RL的性能与效率**:在Qwen-2.5和LLaMA-3模型上,ES在符号推理任务上展现出显著的性能优势,且样本利用率远高于RL方法(仅需约20%的评估量)。同时,ES在统一超参设置下表现稳定,无需为不同模型进行复杂的超参网格搜索。

🛡️ **行为对齐的鲁棒性**:在行为对齐任务中,ES在不显式加入KL惩罚的情况下,仍能获得更高的Reward且保持较低的KL散度。其优化轨迹本质上更稳健,有效避免了RL中常见的“奖励黑客”问题,输出结果更可预测、跨运行方差更低。

🛠️ **工程实现与可复现性**:研究提供了详细的工程实现细节,确保了ES在大模型上的可落地性和可复现性。通过参数幅度变化分析,揭示了ES温和、全局一致的更新机制,使其在保持原有能力的同时,能够稳定地实现目标行为的迁移。

原创 让你更懂AI的 2025-10-07 19:04 北京

从梯度到演化:一次重新定义后训练稳定性的尝试

过去两年里,“后训练=RL”的观念几乎成了行业默认。很多团队把 PPO、GRPO 写进了自己的 Pipeline,并习惯性地在动作空间里做探索与优化。

这篇论文则把镜头拉回到参数空间:作者将 Evolution Strategies(ES,进化策略)扩展到十亿级参数的全参微调场景,给出与主流 RL 方法的系统对照——在 Qwen-2.5 与 LLaMA-3 家族的多个规模上,ES 更稳、更省样本,且几乎不需要网格化的超参搜索。

对于那些只有终局可观测信号、信用分配困难、RL 易“黑客奖励”的问题,ES 的表现尤其亮眼。作者单位来自 Cognizant AI Lab、MIT 与 UT Austin,研究团队在方法选择、实验对照与工程可复现上都做得相当克制和透明。

论文题目:

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

论文链接:

https://arxiv.org/abs/2509.24372

代码链接:

https://github.com/VsonicV/es-fine-tuning-paper

在这个视频中,作者直观展示了 ES 的核心思想——在参数空间上进行群体探索,通过多次扰动与加权汇聚,实现稳定且无梯度的优化过程。

研究背景

RL 的强项与短板同样醒目:它擅长在可验证短视野的任务上学习精细策略,但在长视野、仅结果可观测的场景中往往吃力——梯度估计方差高、信用分配困难、跨运行不稳定、超参数敏感,甚至容易出现“奖励黑客”(reward hacking),生成“短而错”或插入无意义符号的答案。

作者提出的动机很直接:把探索噪声从“动作序列”搬到“参数向量”一次参数采样决定整段生成轨迹,通过 roll-out 计算奖励,再基于群体加权平均更新参数——不依赖梯度、没有 actor-critic 架构,却能把长期信号打包进一次评估,天然降方差、易并行,也更难被“黑”。

这条路线并非凭空出现。早期的 NES [1] 与 OpenAI-ES [2] 已奠定算法与工程基础,但长期被质疑“无法在十亿级参数空间上稳定跑通”。

这篇工作首次给出了实证证据——在 Qwen-2.5(0.5B–7B)与 LLaMA-3(1B–8B)上,进化策略(ES)实现了稳定的全参微调(full-parameter fine-tuning),为参数空间探索提供了坚实的现实支撑。

从基础ES到可扩展全参实现

本节介绍进化策略 (Evolution Strategies, ES) 在大模型微调中的算法框架。整体结构分为三部分:

1. 基础 ES 算法(Algorithm 1)——对参数空间的直接探索;

2. 可扩展工程实现(Algorithm 2)——让“全参 ES” 在十亿级 LLM 上可落地;

3. 行为度量与奖励定义——用于与 PPO/GRPO 等 RL 方法的对齐比较。

2.1 Basic ES(算法主体)

论文采用的是简化版 NES,整体近似 OpenAI-ES。目标是直接在参数空间进行无梯度优化:在第  次迭代,从高斯分布采样  组噪声 ,对模型参数加性扰动并分别评估奖励 

最终更新公式为:

其中  为学习率, 为噪声尺度。论文实现时将  吸收到  中,得到更简洁的形式:

直观理解:模型做 N 次“试探”——给参数加不同噪声,观察哪次更好(奖励更高),再把这些“更有利的方向”平均叠加回去。整个过程不需要反传梯度,也不依赖 actor-critic 结构,优化对象是整段响应的整体质量,特别适合只提供最终奖励的任务。

▲ 图1展示ES在每次迭代中的完整流程:采样高斯噪声,对参数扰动、评估奖励,再将奖励加权方向叠加回参数,实现无梯度的全参更新。

算法整体流程如上图所示,展示了从噪声采样到参数更新的完整迭代闭环。

2.2 可扩展实现

基础 ES 虽简单直观,但若直接用于十亿级 LLM,显存与通信成本将极高。为此,作者在 Algorithm 2 中提出七项关键优化,使 ES 能在大模型规模下稳定、可复现地运行。

▲ 图2展示可扩展ES的工程化实现流程:通过种子复现、分层扰动与并行评估,实现十亿级参数模型的稳定、可复现微调。

实际实现流程如上图所示,构建在基础 ES 之上,通过多项工程优化让全参搜索在大模型规模下可落地。

七个关键设计如下:

这些策略组合形成了“显存换时间”的平衡:每次只在一层上扰动与评估,所有扰动进程并行执行,更新逐层累积。 结果是——即使在十亿级参数模型上,也能把“全参搜索 – 评估 – 更新” 过程稳定、可复现地跑起来。

2.3 行为度量与KL近似

当任务目标涉及行为或风格(而非单纯正确率)时,论文采用两维度量:

    平均奖励(衡量目标行为达成度);

    相对基座模型的 KL 散度(衡量保持原能力的程度)。 

KL 使用 Schulman (2020) [3] 的近似式:

该近似在不需要 Monte-Carlo 采样的前提下,提供了稳定的行为对齐度量。

2.4 “简洁性”奖励的可核验定义

在“简洁性”任务中,每个问题的可核验集提供一个最短正确答案 

对模型输出 y,定义奖励为:

即输出长度越接近“最短正确答案”,奖励越高。这种定义量化了“趋近正确而不取巧”的能力——鼓励模型生成既正确又简洁的答案,防止出现“更短但错误”的 reward hacking 行为。

小结:这部分通过 Algorithm 1 和 Algorithm 2 层层展开,先给出 ES 在参数空间的核心更新机制,再展示可扩展实现,使得 ES 首次在 LLM 全参微调场景中实现可行与稳定。它以简单、可并行的无梯度优化流程,提供了 PPO/GRPO 之外的一条可靠后训练路径。

实验与结果

符号推理:ES稳定高效,样本利用率更优

▲ 表1. Countdown任务中,Qwen-2.5(0.5B–7B)与LLaMA-3(1B–8B)的准确率对比。ES统一超参,RL逐模型调参。

这组实验首先纠正了一个常被忽视的事实:在小模型段,RL 往往“抬不动”性能,而 ES 依然能显著拉升。例如在最小的 Qwen-2.5-0.5B 上,Base、PPO、GRPO 几乎贴地,ES 却将正确率从 0.3% 提升到 14.4%。

随着模型增大(1.5B、3B、7B 以及 LLaMA-3 的 1B、3B、8B),ES 的领先并未被“规模稀释”——在多数配置下,它都能把曲线整体推高。更关键的是:ES 全线使用统一超参,而 RL 端还针对每个模型做了 (β, α) 网格搜索。在这样“对 RL 更有利”的设定下,ES 仍保持优势,说明差距并非偶然,而是稳定规律。

▲ 图3. 不同模型的训练曲线(横轴为样本评估次数)。ES收敛更快,达到相同性能所需的评估量更少。

如果把视线从最终数值拉回训练过程,会发现另一层差异:ES 更省样本评估。在横轴对齐“总样本评估次数”的条件下,ES 曲线普遍更早离开底部并进入平台区。换句话说,要达到 RL 相同的准确率,ES 通常只需 20% 左右的样本量。

这种效率差来自方法本身:一次参数噪声对应一整段生成轨迹,长程信号被集中地压入单次评估;再叠加小种群(N=30)的并行与加权平均,方差被显著平滑。于是 ES 能更快积累有效梯度,也更容易稳步上升。

综合两张图可见:ES 不仅能“抬起”小模型,还能在中大规模上兼顾性能与效率。从工程视角看,这意味着更低的试错成本、统一的调参策略与更强的跨模型迁移性。

行为对齐:ES的前沿更优、更稳、更干净

▲ 图4. Reward–KL二维前沿。蓝线(ES)整体位于GRPO黑线左上方——在更低KL下取得更高 Reward。ES未显式加KL惩罚。

当目标从“正确率”转向“行为/风格”时,作者使用 Reward 与相对基座 KL 构成二维度量。直觉上,右上角越好:Reward 高、KL 低,代表既学到目标行为,又保留原有能力。

从图中可以看到,ES 的前沿整体覆盖 GRPO 曲线左上区域,即在更低 KL 下获得更高 Reward。更关键的是,ES 即使不在目标函数中显式加入 KL 惩罚,也未出现“投机取巧”的 reward hacking——说明它的优化轨迹本质不同,更像是在参数空间内收敛到一族好解,而非依赖外部约束“强行拉回”。

▲ 表2. Qwen-2.5-7B的“简洁性”任务(4次独立运行)。GRPO在较小β下出现reward hacking,ES未出现黑客,且跨运行方差显著更低。

从定量结果看,GRPO 对 β 异常敏感——β 太小会“黑”奖励,稍大又推高 KL。ES 在完全不引入 KL 惩罚的前提下,既无乱码输出,也保持跨运行稳定。

对部署者而言,这意味着结果更可预测:不必押注“幸运跑次”,也无需为每个基座重新大规模网格搜索 β 与学习率。

▲ 参数幅度变化直方图。Countdown任务变化集中于0附近;在“简洁性”对齐中,多为“小幅改动”。

参数幅度分布揭示了 ES 的“内部动作”:在推理任务中,更新接近“随机游走式微调”,说明信号被群体平均后温和传导;而在行为对齐中,变化集中在大量小幅度区间,暗示大模型行为可能存在冗余编码——无需大迁移即可稳定拧动输出风格。这解释了为何 ES 即使不加 KL 约束,也能保持低遗忘与稳定。

小结:稳定、省样本、可复现

无论在符号推理还是行为对齐中,ES 都展现出一致的优势:

这让 ES 成为一种真正可扩展、工程上可落地的后训练路径——在长视野、仅结果可观测的任务中,比传统 RL 更稳、更省、更易复现

总结

这项研究以 Evolution Strategies(ES)为核心,重新审视了后训练阶段的优化路径,也为长期以来由强化学习(RL)主导的范式提供了一种可行的替代方案。

ES 的关键思想是从参数空间而非动作空间进行探索。它以群体采样取代单路径梯度估计,以全局评估取代局部 credit assignment,从而在长视野、仅结果可观测的任务中获得更稳定的优化行为和更高的样本效率。

与 PPO、GRPO 等方法相比,ES 不依赖 actor-critic 结构,也不需要复杂的优势估计或 KL 惩罚项。在 Qwen-2.5 与 LLaMA-3 不同规模的实验中,作者展示了 ES 的一致优势:它能够在统一超参数下稳定跨规模运行,在小模型段显著提升推理准确率,在大模型段维持收敛速度与样本利用率的双重领先。

在“简洁性”行为对齐任务中,ES 甚至在未引入 KL 约束的前提下,依然保持低遗忘与强一致性,几乎完全消除了 reward hacking 问题。

从机制角度来看,ES 的稳定性源于其“群体平均”特性。在每轮迭代中,参数扰动在多个方向上被并行采样与评估,噪声在总体统计中被抵消,留下的更新方向往往是全局一致、方差可控的。这种机制使模型能够以更温和的方式吸收长期信号,同时减少对随机初值与超参数的敏感性。

因此,ES 的贡献不仅在于性能的提升,更在于重新定义了后训练的优化逻辑。它提示我们:在那些奖励稀疏、反馈延迟、梯度难以稳定传播的任务中,全参级的参数空间优化可能比基于梯度的局部更新更具可扩展性与可复现性。

在强化学习方法不断复杂化的当下,ES 的结果反而呈现出一种少见的清晰与稳健——它以简驭繁,用群体探索替代复杂机制,为后训练的下一阶段提供了一个值得深思的方向。

参考文献

[1] Wierstra, D., Schaul, T., Glasmachers, T., Sun, Y., Peters, J., & Schmidhuber, J. (2014). Natural Evolution Strategies. Journal of Machine Learning Research, 15, 949–980. arXiv:1106.4487

[2] Salimans, T., Ho, J., Chen, X., Sidor, S., & Sutskever, I. (2017). Evolution Strategies as a Scalable Alternative to Reinforcement Learning. arXiv preprint arXiv:1703.03864.

[3] Schulman, J. (2020). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

进化策略 ES 大模型 后训练 全参微调 强化学习 RL 样本效率 稳定性 可复现性 参数空间 Evolution Strategies LLM Post-training Full Parameter Fine-Tuning Reinforcement Learning Sample Efficiency Stability Reproducibility Parameter Space
相关文章