CV君 2025-10-29 13:08 江苏
一体化架构,分钟级生成高清长视频。
最近,视频生成领域又迎来了一位重磅玩家。美团的LongCat团队发布了名为 LongCat-Video 的技术报告,这是一个拥有 136亿参数 的基础视频生成模型。它的亮相,不仅在多个视频生成任务上表现出色,更在高质量长视频的高效生成上取得了显著突破,可以说是向着构建“世界模型”迈出了坚实的一步。
这个模型最吸引人的地方在于它用一个统一的架构,同时实现了文生视频、图生视频和视频续写等多种任务,并且能在几分钟内生成720p、30fps的高清视频。
文生视频的结果示例:
生成的长视频示例:
生成的交互式视频示例:
迈向世界模型的一大步视频生成被看作是通往“世界模型”(World Models)的关键路径,而高效地生成长视频则是其中的核心能力。目前,虽然视频生成技术发展迅速,但要生成既长、质量又高、且时序连贯的视频,仍然是一个巨大的挑战。许多模型在生成几十秒的视频后,质量就会出现明显下降或“画风突变”。
LongCat-Video正是在这样的背景下诞生的。它的目标是构建一个统一、可扩展的视频生成基础模型,不仅要效果好,还要速度快,为最终实现能够理解和模拟物理世界的世界模型铺平道路。
LongCat-Video背后是一套精心设计的技术方案,涵盖了从数据处理、模型架构到训练策略的方方面面。
精心准备的“养料”:数据管理与标注模型训练离不开高质量的数据。LongCat-Video团队构建了一套完善的数据管理流程。首先,从海量原始视频中筛选出优质、分割良好的视频片段;接着,通过一个精细的视频标注工作流,为每个视频打上丰富的标签。
这个标注流程很有意思,它不只是简单地描述视频内容。如下图所示,除了基础的字幕模型,还额外引入了多个模型来提取摄影手法、视觉风格等属性,最终融合成信息量大、多样性强的视频描述,为后续训练提供了高质量的“养料”。
LongCat-Video的核心是一个基于扩散Transformer(Diffusion Transformer, DiT)的统一架构。这个架构的巧妙之处在于,它使用同一个模型就能处理三种不同的输入:
文生视频 (Text-to-Video): 输入文本描述,生成视频。图生视频 (Image-to-Video): 输入一张图片和文本描述,生成动态视频。视频续写 (Video-Continuation): 输入一段视频和文本描述,继续生成后续内容。如上图左侧所示,模型通过调整输入条件(condition)来区分不同任务。对于文生视频,条件为空;对于图生视频,条件是一帧图像;对于视频续写,条件是多帧图像。这种设计大大提升了模型的通用性和效率。
RLHF与多奖励机制的“神来之笔”为了让生成的视频更符合人类的偏好,LongCat-Video引入了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)进行微调。但简单的RLHF容易导致“奖励 hacking”问题,即模型为了迎合某个单一的奖励指标而牺牲其他方面的质量(比如为了高清晰度而生成静态图片)。
为了解决这个问题,团队提出了一种名为 分组奖励策略优化(Grouped Reward Policy Optimization, GRPO) 的方法。他们设计了多个奖励模型,涵盖了视频的多个维度,如:
HPSv3: 衡量文本与画面的对齐度及美学质量。Aesthetic: 另一个美学评分模型。Motion: 评估视频的动态程度。MQ-Score: 视频的综合质量评分。Chroma: 衡量色彩溢出问题。通过平衡这些奖励,模型在提升某一维度(如美学)的同时,不会损害其他维度(如动态感),从而显著提升了视频的整体质量。
从奖励曲线和消融实验可以看出,多奖励机制有效地防止了单一奖励被过度优化的问题,找到了一个平衡点。
要实现分钟级生成720p视频,效率至关重要。LongCat-Video采用了两大“加速器”:
由粗到细的生成策略 (Coarse-to-Fine Generation): 在时间和空间两个维度上,模型首先生成一个低分辨率、低帧率的“草稿”视频,然后在此基础上进行“精修”,提升至高分辨率和高帧率。这种策略不仅速度快,而且最终生成的视频细节和质量甚至超越了直接生成720p的效果。3D块稀疏注意力 (3D Block Sparse Attention): 传统的注意力机制在处理高分辨率视频时计算量巨大。为此,研究者设计了一种3D块稀疏注意力机制。它将视频块(时-空维度)进行分组,只在查询块(query block)和与之最相似的少数几个关键块(key blocks)之间计算注意力。这大大降低了计算复杂度,尤其是在处理高清视频时,效率提升非常明显。下表展示了不同推理设置下的速度对比,可以看到,采用稀疏注意力和由粗到细策略后,推理效率提升10倍以上,实现720p、30fps视频的分钟级生成。
整个模型的训练过程是渐进式的,分为多个阶段,从低分辨率、短时长的视频开始,逐步增加分辨率、时长和数据质量,最后再进行RLHF微调。这种“小步快跑”的策略让模型能够稳定、高效地学习。
LongCat-Video在多个基准测试中都取得了与业界顶尖模型相当甚至更好的成绩。
在公开基准VBench 2.0上,LongCat-Video在多个维度的评估中都表现出色,尤其是在背景稳定性、时序一致性和物体外观保持上。
在内部的人工评估(MOS,平均意见分)中,无论是文生视频还是图生视频,LongCat-Video的得分都与顶级的闭源模型不相上下。
更直观的是定性效果。在图生视频任务中,给定同一张初始图片,模型能根据不同的指令生成多样且合理的动态视频。
在视频续写任务中,LongCat-Video能够生成分钟级别的长视频而质量不衰减,并且支持在生成过程中根据新的指令改变内容,展现了强大的交互生成潜力。
总的来说,LongCat-Video通过统一的多任务架构、高效的推理策略和精细的RLHF调优,成功地在长视频生成领域树立了一个新的标杆。
大家对这个方法怎么看?欢迎在评论区留下你的看法!
