我爱计算机视觉 10月29日 17:04
美团LongCat团队发布136亿参数视频生成模型LongCat-Video
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

美团LongCat团队近日发布了名为LongCat-Video的基础视频生成模型,拥有136亿参数。该模型采用统一架构,能高效生成高清长视频,支持文生视频、图生视频和视频续写等多种任务,并在几分钟内生成720p、30fps的高清视频。其核心技术包括精细的数据管理与标注、基于扩散Transformer的统一多任务架构、引入分组奖励策略优化(GRPO)的RLHF微调,以及由粗到细生成策略和3D块稀疏注意力等高效推理技术。LongCat-Video在多个基准测试中表现出色,标志着视频生成技术在迈向“世界模型”的道路上迈出了坚实一步。

🌟 **统一多任务架构实现高效视频生成**:LongCat-Video采用基于扩散Transformer(DiT)的统一架构,能够同时处理文生视频、图生视频和视频续写等多种任务。这种一体化设计不仅简化了模型结构,还大幅提升了生成效率,能在几分钟内生成720p、30fps的高清长视频,是构建“世界模型”的重要能力。

📊 **精细数据管理与RLHF优化提升视频质量**:模型训练依赖于高质量的视频数据,LongCat-Video团队构建了完善的数据管理流程,并引入多维度奖励模型(如HPSv3, Aesthetic, Motion, MQ-Score, Chroma)通过分组奖励策略优化(GRPO)进行RLHF微调。这种方法有效平衡了视频的各项质量指标,避免了单一奖励的过度优化,显著提升了视频的整体美学和时序连贯性。

🚀 **高效推理策略加速高清视频生成**:为了实现分钟级生成高清长视频,LongCat-Video采用了“由粗到细”的生成策略,先生成低分辨率“草稿”,再进行精修,并结合3D块稀疏注意力机制。这些技术显著降低了计算复杂度,将推理效率提升了10倍以上,使得生成高质量、长时序的视频成为可能。

💡 **技术创新推动视频生成迈向新高度**:LongCat-Video通过其创新的技术方案,在视频生成领域取得了显著突破,尤其是在长视频的高效生成方面。模型在公开基准和人工评估中均表现优异,其交互式生成能力也展现了巨大的潜力,为未来视频内容创作和虚拟世界模拟提供了新的可能性。

CV君 2025-10-29 13:08 江苏

一体化架构,分钟级生成高清长视频。

最近,视频生成领域又迎来了一位重磅玩家。美团的LongCat团队发布了名为 LongCat-Video 的技术报告,这是一个拥有 136亿参数 的基础视频生成模型。它的亮相,不仅在多个视频生成任务上表现出色,更在高质量长视频的高效生成上取得了显著突破,可以说是向着构建“世界模型”迈出了坚实的一步。

这个模型最吸引人的地方在于它用一个统一的架构,同时实现了文生视频、图生视频和视频续写等多种任务,并且能在几分钟内生成720p、30fps的高清视频。

论文标题: LongCat-Video Technical Report

机构: 美团

作者: Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang

论文地址: https://arxiv.org/abs/2510.22200

项目主页: https://github.com/meituan-longcat/LongCat-Video

文生视频的结果示例:

生成的长视频示例:

生成的交互式视频示例:

迈向世界模型的一大步

视频生成被看作是通往“世界模型”(World Models)的关键路径,而高效地生成长视频则是其中的核心能力。目前,虽然视频生成技术发展迅速,但要生成既长、质量又高、且时序连贯的视频,仍然是一个巨大的挑战。许多模型在生成几十秒的视频后,质量就会出现明显下降或“画风突变”。

LongCat-Video正是在这样的背景下诞生的。它的目标是构建一个统一、可扩展的视频生成基础模型,不仅要效果好,还要速度快,为最终实现能够理解和模拟物理世界的世界模型铺平道路。

核心技术探秘

LongCat-Video背后是一套精心设计的技术方案,涵盖了从数据处理、模型架构到训练策略的方方面面。

精心准备的“养料”:数据管理与标注

模型训练离不开高质量的数据。LongCat-Video团队构建了一套完善的数据管理流程。首先,从海量原始视频中筛选出优质、分割良好的视频片段;接着,通过一个精细的视频标注工作流,为每个视频打上丰富的标签。

这个标注流程很有意思,它不只是简单地描述视频内容。如下图所示,除了基础的字幕模型,还额外引入了多个模型来提取摄影手法、视觉风格等属性,最终融合成信息量大、多样性强的视频描述,为后续训练提供了高质量的“养料”。

一体化多任务架构

LongCat-Video的核心是一个基于扩散Transformer(Diffusion Transformer, DiT)的统一架构。这个架构的巧妙之处在于,它使用同一个模型就能处理三种不同的输入:

文生视频 (Text-to-Video): 输入文本描述,生成视频。

图生视频 (Image-to-Video): 输入一张图片和文本描述,生成动态视频。

视频续写 (Video-Continuation): 输入一段视频和文本描述,继续生成后续内容。

如上图左侧所示,模型通过调整输入条件(condition)来区分不同任务。对于文生视频,条件为空;对于图生视频,条件是一帧图像;对于视频续写,条件是多帧图像。这种设计大大提升了模型的通用性和效率。

RLHF与多奖励机制的“神来之笔”

为了让生成的视频更符合人类的偏好,LongCat-Video引入了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)进行微调。但简单的RLHF容易导致“奖励 hacking”问题,即模型为了迎合某个单一的奖励指标而牺牲其他方面的质量(比如为了高清晰度而生成静态图片)。

为了解决这个问题,团队提出了一种名为 分组奖励策略优化(Grouped Reward Policy Optimization, GRPO) 的方法。他们设计了多个奖励模型,涵盖了视频的多个维度,如:

HPSv3: 衡量文本与画面的对齐度及美学质量。

Aesthetic: 另一个美学评分模型。

Motion: 评估视频的动态程度。

MQ-Score: 视频的综合质量评分。

Chroma: 衡量色彩溢出问题。

通过平衡这些奖励,模型在提升某一维度(如美学)的同时,不会损害其他维度(如动态感),从而显著提升了视频的整体质量。

从奖励曲线和消融实验可以看出,多奖励机制有效地防止了单一奖励被过度优化的问题,找到了一个平衡点。

高效推理的“加速器”

要实现分钟级生成720p视频,效率至关重要。LongCat-Video采用了两大“加速器”:

由粗到细的生成策略 (Coarse-to-Fine Generation): 在时间和空间两个维度上,模型首先生成一个低分辨率、低帧率的“草稿”视频,然后在此基础上进行“精修”,提升至高分辨率和高帧率。这种策略不仅速度快,而且最终生成的视频细节和质量甚至超越了直接生成720p的效果。

3D块稀疏注意力 (3D Block Sparse Attention): 传统的注意力机制在处理高分辨率视频时计算量巨大。为此,研究者设计了一种3D块稀疏注意力机制。它将视频块(时-空维度)进行分组,只在查询块(query block)和与之最相似的少数几个关键块(key blocks)之间计算注意力。这大大降低了计算复杂度,尤其是在处理高清视频时,效率提升非常明显。

下表展示了不同推理设置下的速度对比,可以看到,采用稀疏注意力和由粗到细策略后,推理效率提升10倍以上,实现720p、30fps视频的分钟级生成。

渐进式训练

整个模型的训练过程是渐进式的,分为多个阶段,从低分辨率、短时长的视频开始,逐步增加分辨率、时长和数据质量,最后再进行RLHF微调。这种“小步快跑”的策略让模型能够稳定、高效地学习。

实验效果与分析

LongCat-Video在多个基准测试中都取得了与业界顶尖模型相当甚至更好的成绩。

在公开基准VBench 2.0上,LongCat-Video在多个维度的评估中都表现出色,尤其是在背景稳定性、时序一致性和物体外观保持上。

在内部的人工评估(MOS,平均意见分)中,无论是文生视频还是图生视频,LongCat-Video的得分都与顶级的闭源模型不相上下。

更直观的是定性效果。在图生视频任务中,给定同一张初始图片,模型能根据不同的指令生成多样且合理的动态视频。

在视频续写任务中,LongCat-Video能够生成分钟级别的长视频而质量不衰减,并且支持在生成过程中根据新的指令改变内容,展现了强大的交互生成潜力。

总结

总的来说,LongCat-Video通过统一的多任务架构、高效的推理策略和精细的RLHF调优,成功地在长视频生成领域树立了一个新的标杆。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LongCat-Video 视频生成 美团 人工智能 深度学习 扩散模型 世界模型 Video Generation Meituan Artificial Intelligence Deep Learning Diffusion Models World Models
相关文章