CV君 2025-08-31 22:14 江苏
视频生成领域一项重要突破
近日,视频生成领域迎来一项重要突破。来自腾讯混元与加州大学洛杉矶分校的研究团队,共同发布了一种名为 POSE (Phased One-Step Adversarial Equilibrium) 的创新蒸馏框架。该框架旨在解决当前视频扩散模型采样效率低下的核心痛点,特别是针对大规模模型和长视频序列的生成场景。
POSE 的核心贡献在于,它能够将大规模视频扩散模型的采样步数从数十上百步锐减至 单步 ,在将推理延迟降低约 100倍 (例如,从1000秒缩短至10秒)的同时,依然保持了极具竞争力的视频生成质量。这一成果意味着高质量视频的实时生成距离我们又近了一步。
近年来,视频扩散模型在生成高保真视频方面取得了显著进展,但其巨大的计算成本和缓慢的采样速度成为了实际应用的瓶颈。例如,使用拥有140亿参数的 WanI2V-14B 模型生成一段5秒的视频,在高端GPU集群(8xH20)上也需要近15分钟。
为了解决这一问题,学术界提出了多种模型加速(蒸馏)技术,主要分为三类:
一致性蒸馏 (Consistency Distillation)分布匹配蒸馏 (Distribution Matching Distillation)对抗蒸馏 (Adversarial Distillation)然而,这些方法大多源于图像生成领域,直接应用于视频时存在根本性缺陷:它们未能有效建模视频帧之间的时间连贯性,也难以将大型视频模型直接蒸馏到一步生成,导致在处理长序列或大模型时性能下降,出现模糊、闪烁等问题。
上图直观对比了POSE 与其他主流蒸馏方法在VBench-I2V分数和推理延迟上的表现。可以看到,POSE 在保持高生成质量(VBench分数)的同时,实现了最低的延迟。
POSE:分阶段一步平衡蒸馏法为了克服现有方法的局限,研究者提出了 POSE,一个精心设计的两阶段蒸馏框架,专门用于大规模视频模型的高效单步生成。
对抗蒸馏在从纯高斯噪声开始的单步生成任务中极易训练失败,因为生成的“假”视频与“真”视频之间差距过大,判别器可以轻易区分,导致生成器无法获得有效梯度。
为解决此问题,POSE 设计了“稳定性引导”阶段。此阶段是一个热启动机制,它通过一种温和的方式(类似变分分数蒸馏),首先将单步生成器的输出分布“预对齐”到真实视频的分布上,尤其是在信噪比(SNR)较低的区域。这确保了即使从纯噪声出发,生成器也能产生一个合理的初始视频,为下一阶段的对抗训练打下稳定基础。
上图展示了不同对抗蒸馏策略的训练机制。现有方法(如ADD, DMD2)要么避开从纯噪声开始训练,要么仅在高信噪比区域应用对抗损失,导致推理时出现不匹配。而 POSE 的稳定性引导阶段解决了这一问题。
第二阶段:统一对抗性平衡 (Unified Adversarial Equilibrium)在模型经过第一阶段的“预热”后,第二阶段引入了一个灵活的自对抗蒸馏机制。其核心思想是:将生成器自身的参数重用为判别器的骨干网络。
这种设计有两大优势:
参数高效:无需为判别器设计和训练一个庞大的独立网络,极大地节省了内存,使得对十亿级参数的大型视频模型进行蒸馏成为可能。动态平衡:生成器和判别器共享骨干,迫使它们“共同进化”。判别器必须学习更鲁棒、更深层次的视频特征来区分真假,从而推动生成器产生更逼真的视频,最终达到纳什均衡。扩展:条件对抗性一致性 (Conditional Adversarial Consistency)对于图生视频(Image-to-Video)等条件生成任务,POSE 还提出了“条件对抗性一致性”模块,以确保生成视频与输入条件(如图像、文本)在语义和帧级别上保持高度一致。该模块包含一个语义一致性判别器头和一个帧一致性损失,有效防止了条件帧信息丢失和时序不连贯的问题。
POSE 在权威的视频生成基准 VBench-I2V 上进行了全面评估,并与其他主流蒸馏方法(如DMD2, PCM, APT等)进行了公平对比。
性能全面超越实验结果表明,在单步生成设置下,POSE 在语义对齐、时序连贯性和帧质量等多个维度上,平均优于其他加速方法约 7.15%。值得注意的是,POSE 的单步生成质量甚至超过了其他方法的多步(4-NFE)生成质量。
上图为 POSE 与其他蒸馏方法的定性比较。可以看出,POSE 生成的视频(第一行)在清晰度、细节和动态范围上均表现出色,而其他方法则可能出现模糊或伪影。
上表展示了量化实验结果。在相同采样步数条件下,POSE方法在质量评分和I2V评分指标上均显著优于其他蒸馏方法。值得注意的是,即使采用单步采样,POSE在时序连贯性和语义对齐度方面仍优于多数多步蒸馏方法,且整体质量评分仅下降1.5%。此外,采用少量步数采样的POSE方法在整体质量评分上比基准模型的多步采样表现高出3.3%。
消融研究消融实验进一步验证了 POSE 各个组件的必要性。例如,移除“稳定性引导”阶段会导致对抗训练崩溃;而采用参数共享的“统一判别器”相比于其他判别器范式(如冻结参数或全参数训练),在保证性能的同时显著降低了内存消耗(IM vs OOM)。
论文贡献与价值POSE 的提出,为视频生成领域带来了以下核心贡献:
首次实现大型视频模型的单步蒸馏:它突破了现有技术无法对>10B参数模型进行单步对抗蒸馏的瓶颈。创新的两阶段蒸馏框架:“稳定性引导”和“统一对抗性平衡”的组合,有效解决了单步对抗训练的不稳定性问题。显著的效率与质量提升:实现了约 100倍 的推理加速,同时在生成质量上超越了其他加速方法,为高质量视频的实时或近实时应用铺平了道路。CV君认为,POSE 的设计哲学,特别是其参数重用和分阶段稳定训练的思想,不仅对视频生成,也对其他生成模型的加速研究具有重要的借鉴意义。这项工作无疑将推动视频生成技术在短视频创作、虚拟人、电影预览等领域的加速落地。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。
