机器之心 前天 17:31
GRPO-Guard:解决视觉生成流模型中的过度优化问题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期研究发现,在强化学习(RL)用于视觉生成流模型(如FlowGRPO、DanceGRPO)的后训练阶段,尽管代理奖励(proxy reward)持续上升,但图像质量和文本对齐度反而下降,出现过度优化现象。这源于重要性比值(importance ratio)的Clip机制存在系统性偏差:均值长期低于1,导致正梯度约束不足;同时,不同去噪步下的方差差异显著,使Clip机制失效。为此,中山大学等联合团队提出了GRPO-Guard,这是首个针对此问题设计的解决方案。GRPO-Guard通过引入比率归一化(RatioNorm)和跨步梯度平衡,有效稳定策略更新,恢复Clip机制的约束力,并大幅降低过度优化的风险,在多项代理任务中展现出显著提升,同时缓解了Reward Hacking现象,提高了模型的实际应用价值。

🎯 **过度优化现象的根源与表现**:在强化学习应用于视觉生成流模型(如FlowGRPO、DanceGRPO)的后训练阶段,常出现代理奖励持续上升但图像质量和文本对齐度下降的“过度优化”问题。核心原因在于重要性比值的Clip机制存在系统性偏差,其均值长期低于1,导致对过于自信的正样本梯度约束不足;同时,不同去噪步骤下比值分布方差差异显著,使得Clip机制在部分步骤失效,最终导致模型在实际应用中效果不佳。

💡 **GRPO-Guard的创新性解决方案**:GRPO-Guard作为首个专门解决GRPO在流模型中过度优化问题的方案,引入了两项关键改进:RatioNorm(比率归一化)通过标准化每个去噪步骤的重要性比值分布,使其均值接近1,方差一致,从而恢复Clip机制的有效性,防止因正样本裁剪失效引发的过度优化;跨步梯度平衡则基于RatioNorm对各去噪步骤的梯度进行均衡,确保策略在整个噪声时间表上均匀探索,防止单步过拟合,提升训练稳定性和生成多样性。

📈 **显著的实验验证与性能提升**:在FlowGRPO、DanceGRPO等多种GRPO变体、SD3.5-M、Flux1.dev等扩散骨干模型,以及GenEval、PickScore、文本渲染等多种任务上进行的实验表明,GRPO-Guard能显著缓解过度优化现象,同时保持与基线方法相近的性能提升。可视化结果显示,GRPO-Guard在训练后期仍能保持较高的图像质量,有效缓解了文本响应和图像质量的退化,并在PickScore任务中显著改善了生成多样性问题。

🚀 **总结与未来展望**:GRPO-Guard通过比率归一化和跨步梯度平衡,有效稳定了策略更新,恢复了Clip机制对正样本的约束,并显著缓解了视觉生成流模型中的过度优化问题。尽管GRPO-Guard在优化过程上缓解了该问题,但未来的工作可聚焦于构建更精确的奖励模型,使代理分数更接近真实评估,从而进一步减少Reward Hacking,为GRPO在更广泛生成任务中的实际应用提供更可靠的技术保障。


论文第一作者为王晶,中山大学二年级博士生,研究方向为强化学习与视频生成;通讯作者为中山大学智能工程学院教授梁小丹。


目前,GRPO 在图像和视频生成的流模型中取得了显著提升(如 FlowGRPO 和 DanceGRPO),已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。


在此过程中,重要性比值的 clip 机制被引入,用于约束过于自信的正负样本梯度,避免破坏性的策略更新,从而维持训练的稳定性。然而,实证分析显示,该机制存在系统性偏差:其均值长期低于 1,导致过度自信的正梯度无法得到有效限制;同时,不同去噪步下比值的分布方差差异显著,使得部分步骤的 clip 机制失效。


结果,模型在训练过程中容易陷入过度优化状态——即代理奖励持续上升,但图像质量及文本与提示的对齐度反而下降,导致优化后的模型在实际应用中效果不佳。


图像质量随优化过程的变化如下:



为此,中山大学、快手可灵以及港中文 MMLab 等团队联合提出了 GRPO-Guard,这是首个针对 GRPO 在流模型中出现的过度优化问题而设计的解决方案。GRPO-Guard 能在保证快速收敛的同时,大幅降低过度优化的风险。


在 Flow-GRPO、DanceGRPO 等多种 GRPO 变体、不同扩散骨干模型(如 SD3.5-M、FLUX1.dev),GRPO-Guard 在文本渲染、GenEval、PickScore 等多种代理任务中均展现出稳定显著的提升,同时有效缓解 reward hacking 现象,提高优化后模型的实际应用价值。


目前该项目的论文和代码均已开源:



论文标题:GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping

论文链接https://arxiv.org/abs/2510.22319

代码地址https://github.com/yifan123/flow_grpo



核心问题:比值分布偏移破坏 Clip 约束

在 FlowGRPO 中,通常采用高斯概率函数计算重要性比值中的



由于二阶项的引入,log-importance ratio 在 off-policy 情况下会受到二次项的影响,表现出均值低于 1 且不同去噪步骤(denoising step)方差差异显著的现象。



具体来说,二阶项 的影响,使得重要性比值的均值

偏向小于 1,同时方差随着去噪步骤的增加而逐渐增大。



理想情况下,重要性比值的均值应接近 1,以保证左右 clip 区间均衡,使有害的正负样本梯度能够被有效约束。然而,均值偏移和方差差异会导致预先设定的 clip 机制失效:一方面,正样本梯度无法被充分约束;另一方面,部分步骤的 clip 机制失效,从而使策略(policy)陷入过度优化状态。


此外,FlowGRPO 中不同去噪步骤的梯度存在显著差异。具体而言



其中,受系数梯度系数  影响,高噪声步骤的梯度贡献较小,而低噪声步骤的梯度贡献较大,这可能导致模型在训练中偏向于单一的噪声条件。不同步骤的梯度系数(左一)及实际梯度贡献(左二)如图所示:



解决思路:RatioNorm 和跨步梯度平衡

针对上述问题,为每个去噪步骤单独设定特定的 clip 范围显得过于繁琐。为此,我们提出 GRPO-Guard,在原有 GRPO 框架上引入两项关键改进:


比率归一化(RatioNorm)对每个去噪步骤的重要性比值分布进行标准化,使其均值接近 1,方差保持一致,从而恢复 clip 机制的有效性,避免因正样本裁剪失效而引发的过度优化。




该机制对梯度的影响如下所示:



跨步梯度平衡基于 RatioNorm 对各去噪步骤的梯度进行均衡,使策略在整个噪声时间表上均匀探索,如右图(右 1)所示。这不仅防止了单步过拟合,还提升了训练的稳定性与生成多样性。整体策略损失(policy loss)如下所示:其中


经过 RatioNorm 调整后的重要性比值分布对比:


FlowGRPO:均值小于 1,破坏性正样本约束失效


GRPO-Guard:均值接近 1,破坏性正样本得到约束


实验结果:显著缓解过优化

我们在 FlowGRPO 和 DanceGRPO 两种不同的 GRPO 算法、SD3.5-M 和 Flux1.dev 两种扩散骨干模型,以及 GenEval、PickScore 和文本渲染等多种任务上验证了 GRPO-Guard 的有效性。实验结果表明,GRPO-Guard 能显著缓解过度优化现象,同时保持与 baseline 相近的性能提升。


具体而言,不同任务的 proxy score 与 gold score 对比显示:在 baseline 方法中,gold score 存在明显下降趋势,而在 GRPO-Guard 下,这一下降趋势被显著缓解。



训练过程图像质量可视化:FlowGRPO/DanceGRPO 等算法随着训练的进行,策略(policy)过度优化问题明显,导致图像质量显著下降。GRPO-Guard 则在训练过程后期仍然保持了较高的图像质量。



更多可视化样例显示,在 baseline 方法下,在文本响应和图像质量都呈现出明显的退化,而 GRPO-Guard 能在提升目标 reward 的同时较好地保持文本响应和图像质量。



在 PickScore 任务中,baseline 方法在训练后期生成的人体比例存在不一致现象,且多人脸型过于相似,极大影响了生成多样性,GRPO-Guard 显著缓解了这个问题。



总结与展望:迈向更稳健的视觉生成式强化学习

作为首先关注 GRPO 在视觉生成中过优化现象的研究,GRPO-Guard 通过比率归一化(RatioNorm)和跨步梯度平衡,有效稳定策略更新,恢复裁剪机制对正样本的约束,并缓解过度优化。实验表明,无论在不同 GRPO 变体、扩散骨干模型,还是多种代理任务中,GRPO-Guard 都能保持甚至提升生成质量,并提升训练的稳定性和多样性。


本质上过优化问题的出现是由于 proxy score 和 gold score 的巨大差距而导致的,虽然 GRPO-Guard 从优化过程上缓解了过优化现象,但并未彻底根治。未来,应该构建更精确的奖励模型,使代理分数更接近真实评估(gold score),从而进一步减少 reward hacking 并提升优化效果。这将为 GRPO 在流模型及更广泛的生成任务中的实际应用提供更可靠的技术保障。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GRPO-Guard 视觉生成 流模型 强化学习 过度优化 Clip机制 RatioNorm 跨步梯度平衡 AI GRPO-Guard Visual Generation Flow Models Reinforcement Learning Over-optimization Clipping Mechanism RatioNorm Cross-step Gradient Balancing AI
相关文章