我爱计算机视觉 08月20日
为长视频生成减负!浙大与华为提出Compact Attention,挖掘结构化稀疏加速2.5倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI视频生成技术发展迅速,但长视频生成面临自注意力机制的计算瓶颈。浙江大学与华为团队提出的Compact Attention框架,通过深入分析视频注意力矩阵的结构化稀疏性,设计了自适应分块和时变窗口等创新机制,实现了1.6至2.5倍的显著加速,且几乎不损失视频质量。该方法为高效生成长视频提供了极具潜力的技术路径,有望降低部署成本,普及高质量视频合成。

💡 深刻洞察视频注意力稀疏性:研究发现视频生成模型中的注意力矩阵并非随机稀疏,而是呈现出一种结构化但异构的模式,不同注意力头会专注于局部、十字形或全局等不同时空区域,并表现出时间变化或不变的特性。这一发现是设计高效稀疏化方法的理论基础。

🚀 提出Compact Attention框架:该框架为训练无关、硬件感知的加速方案,核心创新包括自适应分块(动态组合窗口模拟复杂模式)、时变窗口(根据帧间距离应用不同稀疏策略)以及自动化配置搜索算法(离线优化稀疏掩码)。这些机制共同实现了对视频注意力的高效近似。

📈 实现显著速度与质量双赢:实验证明,Compact Attention能为注意力计算带来1.6至2.5倍的端到端速度提升,同时在SSIM、PSNR等客观指标及VBench等评测基准上,与原始全注意力模型相比几乎不损失视频质量,甚至在某些指标上有所超越。

🌟 具有重要的实践价值:该工作为解决大模型视频生成计算瓶颈提供了范例,其提出的稀疏化框架兼具灵活性和高效性,显著的加速效果对于降低长视频生成部署成本、 democratizing a broader access to high-quality video synthesis 具有直接且重大的实际意义。

CV君 2025-08-20 18:14 江苏

一种“聪明的”稀疏化方法

随着Sora、可灵等模型的涌现,AI视频生成技术正以前所未有的速度发展。然而,在通往更高清、更长时视频的道路上,一个巨大的计算瓶颈始终存在——自注意力机制(Self-Attention)。对于基于Transformer的视频生成模型(如Video DiT)而言,生成长视频意味着处理海量的时空Token,而自注意力机制的二次方计算复杂度使其成为难以承受之重。例如,生成一段128帧的720p视频,注意力计算就占据了总生成时间的68-72%。

为了解决这一难题,来自浙江大学和华为技术有限公司的研究团队另辟蹊径,提出了一个名为 Compact Attention 的硬件感知加速框架。该方法深入分析并利用了视频注意力矩阵中固有的“结构化稀疏性”,在几乎不损失视频质量的前提下,实现了注意力计算 1.6至2.5倍 的显著加速,为高效生成长视频提供了一条极具潜力的技术路径。

背景:视频注意力中被忽视的“结构化稀疏”

要为注意力计算减负,最直接的想法就是“稀疏化”——只计算那些最重要的注意力得分,忽略不重要的部分。然而,之前的稀疏注意力方法(如固定稀疏模式、分解式注意力)在视频生成上效果不佳,主要是因为它们没有抓住视频数据的本质特性。

本文的核心洞察在于,通过对视频扩散模型(Video DiT)的注意力图进行系统性分析,研究者发现视频中的注意力矩阵并非随机稀疏,而是呈现出一种 结构化但又异构的稀疏模式。具体来说,不同的注意力头(Head)会自动“分工”,各自专注于不同的时空区域,形成了三种典型的注意力模式:

    局部模式 (Local Pattern): 关注查询Token周围的紧密邻域,对生成精细的局部细节至关重要。

    十字形模式 (Cross-shaped Pattern): 沿着水平和垂直轴形成连续的注意力走廊,擅长捕捉物体的轮廓和方向信息。

    全局模式 (Global Pattern): 保持对整个空间的连接性,负责理解场景的整体布局和上下文。

此外,这些模式在时间维度上也表现出“时间变化”和“时间不变”两种特性。现有方法要么强加过于刚性的稀疏模式,无法适应这种多样性;要么为了动态预测稀疏位置而引入巨大开销,得不偿失。正是这一发现,为Compact Attention的设计奠定了理论基础。

Compact Attention:智能且高效的稀疏注意力框架

基于上述洞察,Compact Attention被设计为一个训练无关、硬件感知的加速框架。它不依赖于模型训练,而是通过离线搜索和高效计算引擎,为现有的视频生成模型“即插即用”地提速。其核心包含三项关键创新。

创新一:自适应分块 (Adaptive Tiling)

为了高效地近似上述多样化的空间注意力模式,Compact Attention提出了一种自适应分块策略。它不再使用固定的、死板的稀疏窗口,而是通过 动态地组合两个互补的窗口形状(如十字形和局部块) 来灵活地构建注意力掩码(Mask)。这种设计无需在推理时进行显式的模式分类,就能通过简单的窗口组合模拟出复杂的注意力行为,兼顾了灵活性与硬件效率。

创新二:时变窗口 (Temporally Varying Windows)

该方法认识到,视频中相邻帧之间的关联性远高于相隔较远的帧。因此,Compact Attention引入了时变窗口机制。它将视频帧根据与当前处理帧的距离进行分组,对不同距离的帧组应用不同级别的稀疏策略。距离越近的帧,注意力计算越密集;距离越远的帧,则计算得越稀疏。这种设计符合视频数据的时序特性,能将计算力更合理地分配到最重要的时序关系上。

创新三:自动化配置搜索算法

如何为模型中成百上千个注意力头找到最佳的稀疏配置(如分块大小、稀疏阈值等)?手动调节显然不现实。为此,研究者设计了一套自动化的配置搜索算法。该算法以“在保持高召回率(保留关键注意力信息)的前提下,最大化稀疏度(最小化计算成本)”为目标,通过迭代式地收缩注意力窗口边界,为每个注意力头自动地、离线地找到最优的稀疏掩码。由于注意力模式在不同输入下具有高度的稳定性,这种离线预计算的策略是完全可行的。

实验结果:速度与质量的双赢

研究团队在先进的文生视频模型(Wan2.1, Hunyuan)上对Compact Attention进行了严格的测试。实验结果令人振奋:

    显著的加速效果: 在单张H800 GPU上,Compact Attention为注意力计算带来了 1.6倍至2.5倍 的端到端速度提升。在Hunyuan模型上,它以高达62.36%的稀疏度,实现了2.51倍的加速,远超其他稀疏注意力方法。

    高质量的生成效果: 加速的同时,Compact Attention几乎没有牺牲视频的生成质量。无论是在SSIM、PSNR等客观指标上,还是在VBench等更侧重视觉效果和语义对齐的评测基准上,其表现均与原始的全注意力模型相当,甚至在某些指标上有所超越。

下面的定性对比图也直观地展示了Compact Attention在保持高质量视觉效果的同时,实现了比其他方法更高的稀疏度。

论文贡献与价值

CV君认为,这项工作为解决大模型时代的视频生成计算瓶颈问题提供了一个极具启发性的范例。其主要贡献在于:

    深刻的现象洞察: 首次系统性地揭示了视频扩散模型中注意力矩阵的结构化、异构化稀疏特性,为后续的优化工作提供了坚实的理论依据。

    创新的加速框架: 提出了Compact Attention这一兼具灵活性和高效性的稀疏注意力框架,其自适应分块、时变窗口和自动搜索的设计,为近似复杂注意力模式提供了优雅的解决方案。

    显著的实用价值: 实现了高达2.5倍的无损质量加速,这对于降低长视频生成的部署成本、 democratizing a broader access to high-quality video synthesis 具有直接且重大的实际意义。

总而言之,Compact Attention通过对视频注意力行为的深刻理解,设计出一种“聪明的”稀疏化方法,在速度与质量之间取得了出色的平衡,为通往高效、高质的长视频生成未来迈出了坚实的一步。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Compact Attention AI视频生成 自注意力机制 稀疏化 计算加速
相关文章