RAPO++，三步优化提升视频生成效果

CV君 2025-10-26 14:20 江苏

无需修改模型，三步优化让视频生成更惊艳

最近，来自上海交通大学和上海人工智能实验室的研究者们，带来了一项名为 RAPO++ 的新技术，它巧妙地解决了文本到视频（T2V）生成中的一个核心痛点：我们普通人给出的简单指令（Prompt），往往难以让强大的AI模型充分发挥其潜力。RAPO++ 就像一个“提示词魔法师”，通过一套跨阶段的优化流程，在不改动现有视频生成模型的基础上，就能显著提升生成视频的质量、连贯性和想象力。

一起来看看这项工作的基本信息：

论文标题: RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

作者团队: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu

所属机构: 上海交通大学；上海人工智能实验室

论文地址: https://arxiv.org/abs/2510.20206

项目主页: https://github.com/Vchitect/RAPO

值得一提的是，该文是 CVPR 2025 论文 The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation 的升级期刊版，是一系列探索工作的新进展。

问题的根源：用户提示与模型训练的“鸿沟”

相信玩过文生视频的朋友都有体会，我们输入的提示词往往比较简短、随性，比如“一只猫在弹钢琴”。但实际上，要生成高质量、高保真的视频，AI模型需要的是更详尽、更结构化的描述，比如“一只可爱的橘猫，戴着红色领结，坐在三角钢琴前，用它的爪子笨拙地敲击着黑白琴键，特写镜头，电影质感”。

这种用户输入与模型“胃口”之间的不匹配，限制了生成模型的上限。现有的方法大多是简单地用大型语言模型（LLM）来“润色”一下提示词，但这往往治标不治本，甚至可能偏离用户的初衷。

RAPO++：三步走的“提示词魔法”

为了解决这个问题，研究者们提出了一个三阶段的优化框架——RAPO++。它的核心思想是，在不同的阶段，用不同的策略，系统性地优化提示词。

第一阶段：RAPO - 让提示词“对齐”训练数据

这一阶段名为“检索增强提示词优化”（Retrieval-Augmented Prompt Optimization, RAPO）。它的目标是让用户的简单提示词，在内容和风格上都更接近模型训练时使用的数据。

它主要做两件事：

内容丰富化：通过一个预先构建的“关系图”，为用户的提示词找到语义上相关的“修饰词”（modifiers），比如颜色、风格、动作等，让描述更丰满。

结构重构：利用一个微调过的大语言模型（LLM），将丰富化后的内容，重组成更符合训练数据分布的句子结构。

经过这个阶段，一个简单的提示词就被“改造”得更专业、更利于模型理解了。从下面的分布图可以看出，经过RAPO优化的提示词长度分布，确实与训练数据的分布更为接近。

第二阶段：SSPO - 在测试时“迭代”出最佳效果

第二阶段引入了“样本特定提示词优化”（Sample-Specific Prompt Optimization, SSPO），这是一个在推理（测试）阶段运行的闭环迭代过程。简单来说，就是“不满意，就修改，再生成”，直到效果最好。

这个过程非常智能，它会从多个维度来评估当前生成的视频：

语义对齐：生成的内容和提示词的描述一致吗？

空间保真度：物体的位置关系对吗？

时间连贯性：视频的动态变化流畅吗，有没有闪烁或者突变？

特定任务信号：比如，对于需要物理真实感的视频，还会引入光流等指标来评估运动的合理性。

一旦发现问题，系统就会根据这些反馈，自动调整提示词，然后再次生成视频。这个过程不断重复，视频质量也随之“螺旋式上升”。

从上图“瓦尔基里骑着飞马穿越云层”的例子可以看到，随着迭代次数增加，生成的画面越来越精细、生动，也更符合用户的想象。下面的图表也量化了这一趋势，随着迭代次数增加，各项指标（时间一致性、视觉质量、图文对齐度等）都在稳步提升。

第三阶段：LLM微调 - 将优化经验“内化”

第二阶段的迭代虽然效果好，但毕竟耗时。于是，研究者们设计了第三阶段：利用SSPO过程中收集到的大量“原始提示词-优化后提示词”配对数据，来微调第一阶段中负责重写提示词的那个LLM。

这相当于让LLM学习到了在各种情况下如何进行最优的提示词改写。经过微调后，这个LLM变得更“懂行”，即使在推理前只进行一次优化，也能生成非常高质量的提示词，大大提升了效率。

实验效果：全面超越，提升显著

RAPO++ 的效果究竟如何？研究者们在五个主流的文生视频模型和五个权威的基准测试集上进行了广泛的实验。

定量结果

结果显示，无论是在视频的整体质量、还是在对复杂构图（比如多个物体、空间关系）的理解上，RAPO++ 都取得了全面的领先。

例如，在VBench这个综合性基准上，RAPO++ 在几乎所有子项目（如时间闪烁、物体正确性、空间关系等）上都名列前茅。

定性结果

上面定性示例生动表明，相较于基线方法，RAPO与RAPO++能够生成视觉连贯性更强、语义忠实度更高的视频内容。物体在帧间保持外观与属性一致，运动轨迹平滑自然，组合交互（如多物体或相对空间转换）更准确地反映提示词意图。

更有趣的是，通过可视化注意力图，研究者发现，在提示词中加入描述物体相对空间位置的词语，可以显著改善多物体生成的准确性。

对于一些非常规的、富有想象力的场景，RAPO++ 同样表现出色。比如下面这个“一只身穿红色围裙、佩戴姓名牌的大熊猫在春节主题超市担任收银员”的例子，优化后的提示词生成的视频，显然更符合用户的奇思妙想。

当然，CV君也注意到，作者坦诚地指出了当前方法的局限性，比如在处理与“数量”相关的指令时，仍然存在挑战。例如，指令“五只五彩鹦鹉”，模型可能无法准确生成五只。

总结

总的来说，RAPO++ 提供了一个与具体模型无关、成本效益高且可扩展的解决方案，为文生视频领域的提示词优化设立了新的标杆。它不仅能让AI更好地理解我们的意图，生成更惊艳的视频，其“对齐-迭代-内化”的优化思路，CV君觉得也对其他AIGC领域的研究颇有启发。作者已经开源了代码，感兴趣的朋友可以去亲自体验一下。

大家对这个方法怎么看？欢迎在评论区留下你的看法！

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签