我爱计算机视觉 09月12日
视频生成技术实现单步采样,效率与质量双提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯混元与加州大学洛杉矶分校的研究团队发布了名为POSE的创新蒸馏框架,解决了视频扩散模型采样效率低下的问题。该框架能将大规模视频扩散模型的采样步数从数十上百步锐减至单步,将推理延迟降低约100倍,同时保持了高质量的视频生成能力。POSE通过“稳定性引导”和“统一对抗性平衡”两阶段蒸馏,克服了单步对抗训练的不稳定性,并能有效处理长视频序列和大规模模型。这一突破为高质量视频的实时生成奠定了基础。

🚀 **效率革命:单步视频生成成为可能** POSE框架的核心突破在于将复杂的视频扩散模型采样过程从数十甚至上百步压缩至一步完成。这一创新极大地缩短了生成时间,将推理延迟降低了约100倍,例如将1000秒的生成时间缩短至10秒,使得高质量视频的实时生成成为可能,远超现有方法的性能。

💡 **创新蒸馏框架:稳定且高效** POSE采用独特的两阶段蒸馏方法。第一阶段的“稳定性引导”通过温和的预对齐机制,确保模型从纯噪声开始也能生成合理的初始视频,为后续对抗训练奠定基础。第二阶段的“统一对抗性平衡”则通过生成器与判别器共享骨干网络,实现参数高效和动态平衡的共同进化,推动生成更逼真的视频。

🌟 **超越基准:质量与速度并存** 在权威的VBench-I2V基准测试中,POSE在单步生成设置下,在语义对齐、时序连贯性和帧质量等多个维度上平均优于其他加速方法约7.15%。更令人瞩目的是,其单步生成质量甚至超过了其他方法的多步生成质量,证明了在追求速度的同时,并未牺牲视频的细节和真实感。

🔗 **条件生成增强:语义与时序一致** 针对图生视频等条件生成任务,POSE引入了“条件对抗性一致性”模块。该模块包含语义判别器头和帧一致性损失,确保生成的视频在语义和每一帧上都与输入的条件(如图像、文本)高度一致,有效解决了条件信息丢失和时序不连贯的问题。

CV君 2025-08-31 22:14 江苏

视频生成领域一项重要突破

近日,视频生成领域迎来一项重要突破。来自腾讯混元与加州大学洛杉矶分校的研究团队,共同发布了一种名为 POSE (Phased One-Step Adversarial Equilibrium) 的创新蒸馏框架。该框架旨在解决当前视频扩散模型采样效率低下的核心痛点,特别是针对大规模模型和长视频序列的生成场景。

POSE 的核心贡献在于,它能够将大规模视频扩散模型的采样步数从数十上百步锐减至 单步 ,在将推理延迟降低约 100倍 (例如,从1000秒缩短至10秒)的同时,依然保持了极具竞争力的视频生成质量。这一成果意味着高质量视频的实时生成距离我们又近了一步。

论文标题:POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models

作者:Jiaxiang Cheng, Bing Ma, Xuhua Ren, Hongyi Jin, Kai Yu, Peng Zhang, Wenyue Li, Yuan Zhou, Tianxiang Zheng, Qinglin Lu

机构:腾讯混元、加州大学洛杉矶分校 (UCLA)

论文地址https://arxiv.org/abs/2508.21019

项目主页https://pose-paper.github.io

研究背景与意义

近年来,视频扩散模型在生成高保真视频方面取得了显著进展,但其巨大的计算成本和缓慢的采样速度成为了实际应用的瓶颈。例如,使用拥有140亿参数的 WanI2V-14B 模型生成一段5秒的视频,在高端GPU集群(8xH20)上也需要近15分钟。

为了解决这一问题,学术界提出了多种模型加速(蒸馏)技术,主要分为三类:

一致性蒸馏 (Consistency Distillation)

分布匹配蒸馏 (Distribution Matching Distillation)

对抗蒸馏 (Adversarial Distillation)

然而,这些方法大多源于图像生成领域,直接应用于视频时存在根本性缺陷:它们未能有效建模视频帧之间的时间连贯性,也难以将大型视频模型直接蒸馏到一步生成,导致在处理长序列或大模型时性能下降,出现模糊、闪烁等问题。

上图直观对比了POSE 与其他主流蒸馏方法在VBench-I2V分数和推理延迟上的表现。可以看到,POSE 在保持高生成质量(VBench分数)的同时,实现了最低的延迟。

POSE:分阶段一步平衡蒸馏法

为了克服现有方法的局限,研究者提出了 POSE,一个精心设计的两阶段蒸馏框架,专门用于大规模视频模型的高效单步生成。

第一阶段:稳定性引导 (Stability Priming)

对抗蒸馏在从纯高斯噪声开始的单步生成任务中极易训练失败,因为生成的“假”视频与“真”视频之间差距过大,判别器可以轻易区分,导致生成器无法获得有效梯度。

为解决此问题,POSE 设计了“稳定性引导”阶段。此阶段是一个热启动机制,它通过一种温和的方式(类似变分分数蒸馏),首先将单步生成器的输出分布“预对齐”到真实视频的分布上,尤其是在信噪比(SNR)较低的区域。这确保了即使从纯噪声出发,生成器也能产生一个合理的初始视频,为下一阶段的对抗训练打下稳定基础。

上图展示了不同对抗蒸馏策略的训练机制。现有方法(如ADD, DMD2)要么避开从纯噪声开始训练,要么仅在高信噪比区域应用对抗损失,导致推理时出现不匹配。而 POSE 的稳定性引导阶段解决了这一问题。

第二阶段:统一对抗性平衡 (Unified Adversarial Equilibrium)

在模型经过第一阶段的“预热”后,第二阶段引入了一个灵活的自对抗蒸馏机制。其核心思想是:将生成器自身的参数重用为判别器的骨干网络

这种设计有两大优势:

参数高效:无需为判别器设计和训练一个庞大的独立网络,极大地节省了内存,使得对十亿级参数的大型视频模型进行蒸馏成为可能。

动态平衡:生成器和判别器共享骨干,迫使它们“共同进化”。判别器必须学习更鲁棒、更深层次的视频特征来区分真假,从而推动生成器产生更逼真的视频,最终达到纳什均衡。

扩展:条件对抗性一致性 (Conditional Adversarial Consistency)

对于图生视频(Image-to-Video)等条件生成任务,POSE 还提出了“条件对抗性一致性”模块,以确保生成视频与输入条件(如图像、文本)在语义和帧级别上保持高度一致。该模块包含一个语义一致性判别器头和一个帧一致性损失,有效防止了条件帧信息丢失和时序不连贯的问题。

实验结果与分析

POSE 在权威的视频生成基准 VBench-I2V 上进行了全面评估,并与其他主流蒸馏方法(如DMD2, PCM, APT等)进行了公平对比。

性能全面超越

实验结果表明,在单步生成设置下,POSE 在语义对齐、时序连贯性和帧质量等多个维度上,平均优于其他加速方法约 7.15%。值得注意的是,POSE 的单步生成质量甚至超过了其他方法的多步(4-NFE)生成质量。

上图为 POSE 与其他蒸馏方法的定性比较。可以看出,POSE 生成的视频(第一行)在清晰度、细节和动态范围上均表现出色,而其他方法则可能出现模糊或伪影。

上表展示了量化实验结果。在相同采样步数条件下,POSE方法在质量评分和I2V评分指标上均显著优于其他蒸馏方法。值得注意的是,即使采用单步采样,POSE在时序连贯性和语义对齐度方面仍优于多数多步蒸馏方法,且整体质量评分仅下降1.5%。此外,采用少量步数采样的POSE方法在整体质量评分上比基准模型的多步采样表现高出3.3%。

消融研究

消融实验进一步验证了 POSE 各个组件的必要性。例如,移除“稳定性引导”阶段会导致对抗训练崩溃;而采用参数共享的“统一判别器”相比于其他判别器范式(如冻结参数或全参数训练),在保证性能的同时显著降低了内存消耗(IM vs OOM)。

论文贡献与价值

POSE 的提出,为视频生成领域带来了以下核心贡献:

首次实现大型视频模型的单步蒸馏:它突破了现有技术无法对>10B参数模型进行单步对抗蒸馏的瓶颈。

创新的两阶段蒸馏框架:“稳定性引导”和“统一对抗性平衡”的组合,有效解决了单步对抗训练的不稳定性问题。

显著的效率与质量提升:实现了约 100倍 的推理加速,同时在生成质量上超越了其他加速方法,为高质量视频的实时或近实时应用铺平了道路。

CV君认为,POSE 的设计哲学,特别是其参数重用和分阶段稳定训练的思想,不仅对视频生成,也对其他生成模型的加速研究具有重要的借鉴意义。这项工作无疑将推动视频生成技术在短视频创作、虚拟人、电影预览等领域的加速落地。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视频生成 AI 扩散模型 模型蒸馏 采样效率 腾讯混元 UCLA POSE 单步采样 深度学习
相关文章