CV君 2025-09-11 12:29 江苏
近日,来自字节跳动 Seed 团队的研究者们发布了一篇名为《RewardDance: Reward Scaling in Visual Generation》的技术报告,提出了一种名为 RewardDance 的可扩展奖励建模框架。该框架通过一种新颖的“生成式奖励”范式,旨在解决当前视觉生成领域中强化学习(RL)所面临的核心挑战,特别是奖励模型(Reward Models, RMs)的扩展性限制和“奖励劫持”(Reward Hacking)问题。RewardDance 将奖励分数重新定义为视觉语言模型(VLM)预测一个“yes”标记的概率,从而将奖励目标与VLM的“下一个词元预测”机制天然对齐,实现了模型规模和上下文规模的双重扩展。实验证明,该方法在文生图、文生视频和图生视频等任务上效果显著,并有效缓解了“奖励劫持”现象。
奖励模型(RM)在通过强化学习(RL)提升生成模型性能方面扮演着关键角色。然而,在视觉生成领域,奖励模型的扩展范式仍未得到充分探索。这主要源于现有方法的根本性局限:
架构与模态限制:基于CLIP的奖励模型受其架构和输入模态的限制,难以有效扩展和泛化至不同任务。目标不对齐:流行的布拉德利-特里(Bradley-Terry)损失函数与视觉语言模型(VLM)的“下一个词元预测”机制存在根本性的不对齐,阻碍了奖励模型的有效扩展。奖励劫持(Reward Hacking):这是RLHF(基于人类反馈的强化学习)优化过程中一个长期存在的顽疾。具体来说,生成模型会“学会”利用奖励信号中的漏洞或捷径来获得高分,但其生成的真实质量并未得到实质性提升,甚至可能出现模式崩溃(mode collapse),即生成内容单一、缺乏多样性。为了应对这些挑战,研究者们提出了 RewardDance 框架,其核心思想是:可扩展性是构建更优视觉奖励模型的关键。
上表对现有视觉和多模态奖励模型进行了全面比较,突显了 RewardDance 是第一个成功将生成式范式与模型规模、上下文维度全面可扩展性相结合的视觉生成框架。
RewardDance:生成式奖励建模新范式为解决上述问题,RewardDance 提出了一种新颖的生成式奖励建模范式。其核心是将奖励建模视为一个生成任务,而非传统的回归任务。
具体而言,奖励分数不再是一个回归值,而是被重新表述为模型预测一个“yes”词元的概率。这个“yes”代表在特定标准下,当前生成的图像优于一个参考图像。这种方法天然地将奖励目标与VLM的自回归、下一个词元预测机制对齐,从而为奖励模型的有效扩展铺平了道路。
上图展示了 RewardDance 框架与现有奖励模型架构的对比。传统方法(顶部)使用 CLIP 或 VLM 输出一个标量奖励分数,而 RewardDance(底部)则利用带有推理过程的任务感知 CoT 指令进行奖励建模,将奖励转化为生成“yes”的概率。
这种对齐解锁了两个维度的扩展能力:
1. 模型规模扩展 (Model Scaling)研究团队打破了使用小型、固定尺寸奖励模型的常规做法,系统性地将奖励模型(RM)的参数量从 10亿(1B)扩展到了260亿(26B)。这直接将模型参数量与奖励建模性能和最终的生成质量联系起来。
2. 上下文规模扩展 (Context Scaling)与仅依赖“图像-文本”对的传统方法不同,RewardDance 通过引入更丰富的上下文信息来增强奖励判断的鲁棒性和准确性,这些信息包括:
任务感知指令 (Task-aware instructions)参考示例 (Reference examples)思维链推理 (Chain-of-Thought, CoT) 数据上图展示了用于训练 RewardDance 模型的任务感知指令和 CoT 响应示例。模型被要求判断 Image 2 是否比 Image 1 更好,并给出详细理由,这种富含推理的训练数据使得奖励判断更加精确和可解释。
实验设计与结果分析研究者们在文生图(T2I)、文生视频(T2V)和图生视频(I2V)等多个任务上对 RewardDance 进行了广泛评估。
破解“奖励劫持”实验结果表明,RewardDance 成功应对了“奖励劫持”这一长期挑战。如下图所示,与回归式奖励模型相比,在相同的2B模型规模下,生成式奖励模型表现出明显更优的训练动态。它带来了更大的探索幅度(体现为更高的奖励方差)和更有利的奖励增长趋势。这种奖励信号的更高多样性表明,生成式奖励模型对奖励劫持具有更强的鲁棒性。
下图更直观地展示了 RewardDance 在提升生成效果和抑制“奖励劫持”方面的作用。在RL训练的后期阶段,奖励方差(气泡大小)是策略模型是否“劫持”奖励的指标。低方差意味着模型陷入模式崩溃,倾向于生成单一的高奖励输出。而高方差则表明策略模型在各种提示下保持了输出的多样性,证明其并未崩溃。可以看到,随着奖励模型规模的增大,对齐分数(Alignment Score)和对齐GSB改进(Alignment GSB Improvement)都得到了持续提升,同时保持了较高的奖励方差。
实验数据显示,随着奖励模型(RM)规模的增大,其准确性和最终的文生图对齐分数都得到了持续提升。无论是在RL微调还是测试时扩展(Test-time Scaling)范式下,扩散模型的性能都随着RM规模的增大而改善。
在视频生成任务中也观察到了同样的趋势。如下表所示,无论是在文生视频(T2V)还是图生视频(I2V)任务中,增加奖励模型的规模都带来了显著且一致的性能增益。使用 26B的RM相比SFT基线,在T2V上实现了+49%的提升,在I2V上实现了+47%的提升。
在GenEval基准测试中,经过RewardDance优化的模型(Seedream-3.0 w RewardDance)在多个维度上均表现出显著优势,总体得分达到 0.79,超越了包括SD3(0.74)在内的强大基线。
在包含人类评估的Bench-240基准测试中,Seedream-3.0 w RewardDance 的总体得分达到了 0.848,超过了Imagen 3 (0.79)、Luma (0.77) 和 Midjourney V6.1 (0.63) 等顶尖的闭源模型。
在视频生成任务上,与业界领先的专有模型相比,经过RewardDance对齐的Seedance 1.0也取得了极具竞争力的结果。在文生视频(T2V)任务中,其平均分达到 1.66,超过了Veo-3.0(1.63)和Kling 2.1(1.57)。
下图直观展示了随着奖励模型规模(从Baseline到1B、4B、8B、26B)的增加,文生图的生成质量逐步提升。更大的奖励模型在提示遵循、视觉质量和语义理解方面表现出越来越好的效果。例如,对于“1个玻璃杯,两瓶红酒,三听啤酒”这样的复杂数量关系,只有26B模型能够完全正确地生成。
在视频生成方面,8B奖励模型相比2B模型也展现出更优的视觉质量和时间一致性。
CV君认为,这篇论文为视觉生成领域的奖励建模提供了非常重要的新思路和坚实的实验证据。其主要贡献可以总结为:
提出可扩展性原则:首次将“可扩展性”确立为视觉奖励模型设计的核心原则,为该领域填补了关键的、但未被充分探索的空白。创新的生成式奖励范式:提出了 RewardDance 框架,通过将奖励预测视为一个“下一个词元预测”任务,解决了现有方法中奖励目标与VLM架构不匹配的根本性问题,为有效的奖励扩展释放了潜力。全面的奖励扩展方法:提出并验证了一个全面的奖励模型扩展方法论,涵盖了模型规模(从1B到26B)和上下文(任务指令、参考示例、CoT推理)两个维度。并首次系统性地证明了在这两个维度上进行扩展能够带来稳定、一致的性能提升。有效缓解“奖励劫持”:实验证明,大规模的奖励模型能够保持较高的奖励方差,从而更不容易被生成模型“欺骗”,能够引导模型产生更多样化、更高质量的输出,极大地缓解了小模型中常见的模式崩溃问题。总而言之,RewardDance 的工作为未来构建更强大、更鲁棒的视觉生成奖励模型铺平了道路,其确立的“可扩展性”原则对学术界和工业界都具有重要的指导意义。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。
