我爱计算机视觉 09月12日
H2OT:高效视频3D人体姿态估计的分层剪枝框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

针对视频3D人体姿态估计(VPT)模型计算成本高昂的问题,本文提出了一种名为H2OT(Hierarchical Hourglass Tokenizer)的通用、即插即用分层剪枝与恢复框架。H2OT通过在Transformer模块中动态、分层地减少和恢复姿态时序Token,形成一种“奖杯形”计算范式,旨在大幅提升模型推理效率,同时不牺牲甚至提升精度。该框架通过令牌剪枝模块(TPM)和令牌恢复模块(TRM)实现,探索了多种剪枝和恢复策略,其中TPS+TRI组合展现出极佳的效率和效果平衡。实验表明,H2OT可将现有SOTA模型的计算成本降低超过50%,显著提升推理速度,为资源受限场景下的部署提供了实用解决方案。

✨ **H2OT框架革新计算范式**:本文提出了一种新颖的“奖杯形”(或称金字塔形)计算范式,通过分层剪枝和恢复姿态时序Token,有效解决了视频姿态Transformer(VPT)模型计算量过大的问题。这种设计使得模型在网络深层能用更少的Token进行计算,最后再恢复完整的时序信息,实现了效率与精度的优化平衡。

✂️ **灵活的剪枝与恢复策略**:H2OT框架包含令牌剪枝模块(TPM)和令牌恢复模块(TRM),并探索了多种策略。其中,令牌剪枝采样器(TPS)通过均匀采样减少Token,令牌恢复插值(TRI)则通过线性插值恢复姿态,这种TPS+TRI组合被证明是最高效且效果优异的方案,几乎不增加额外计算开销。

🚀 **显著的效率提升与精度保持**:通过将H2OT集成到现有的SOTA VPT模型中,实验结果表明,该框架能在大幅降低计算量(FLOPs)和提升推理速度(FPS)的同时,保持甚至略微提升姿态估计的精度(MPJPE)。例如,在MixSTE模型上,FLOPs降低了57.4%,FPS提升了87.8%,MPJPE反而降低了0.5mm。

🧩 **通用性与易集成性**:H2OT被设计为一个通用的、即插即用的模块,可以轻松集成到各种主流的VPT架构中,并且兼容seq2seq和seq2frame两种推理流程。这种灵活性使得研究人员和开发者能够方便地将其应用于不同的模型和任务中,加速3D人体姿态估计的实际应用。

📊 **全面的消融研究与实验验证**:论文进行了详尽的消融研究,分析了不同剪枝层数、保留Token数量以及剪枝块索引等关键参数的影响,并验证了H2OT在Human3.6M和MPI-INF-3DHP等多个主流数据集上的有效性。可视化结果也直观地展示了该框架在处理具有挑战性视频时的能力。

CV君 2025-09-10 11:36 江苏

高效视频3D人体姿态估计设计的通用、即插即用的分层剪枝与恢复框架

今天要介绍的论文是“HOT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers”,它提出了一种名为 H2OT (Hierarchical Hourglass Tokenizer) 的即插即用分层剪枝与恢复框架,旨在解决现有视频姿态Transformer(VPT)模型计算成本高昂的问题。H2OT通过在Transformer模块中动态地、分层地减少和恢复姿态时序Token,形成一种“奖杯形”或称“金字塔形”的计算范式,从而在不牺牲甚至提升精度的前提下,大幅提升了模型的推理效率。

论文标题: H2OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers

作者: Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Shijian Lu, and Nicu Sebe

机构: 北京大学(深圳)、南洋理工大学、亚马逊AGI、特伦托大学

论文地址: https://arxiv.org/pdf/2509.06956

代码仓库: https://github.com/NationalGAILab/HoT

录用期刊: TPAMI 2025

研究背景

基于Transformer的视频3D人体姿态估计(Video-based 3D HPE)方法近年来取得了SOTA性能,这得益于其强大的长距离时序依赖建模能力。然而,这些视频姿态Transformer(VPT)模型通常需要处理极长的视频序列(例如243帧甚至351帧)以达到高精度。由于自注意力机制的计算复杂度与输入Token数量(即帧数)成二次方关系,这导致了巨大的计算开销,限制了它们在资源受限设备上的实际应用。

现有的VPTs大多遵循一种“矩形”范式,即在所有Transformer模块中都保持完整的时序序列长度。最近,有工作(如HoT)提出了“沙漏”范式,在中间层对Token进行剪枝,在末端再恢复,以提升效率。然而,一次性的大幅度剪枝可能会丢失关键信息。

本文提出的 H2OT 框架在此基础上,引入了分层剪枝设计,形成了一种更高效的“奖杯形(金字塔)”范式。它逐层、渐进地剪枝冗余帧的姿态Token,在网络的深层用更少的Token进行计算,最后再将完整的时序信息恢复出来。这种设计不仅能更有效地减少视频冗余,还能更好地保留必要信息,从而实现效率和精度的更优平衡。

H2OT:分层沙漏型Tokenizer

H2OT框架是一个通用的即插即用模块,可以轻松集成到主流的VPT架构中。它主要由两个核心组件构成:令牌剪枝模块(Token Pruning Module, TPM) 和 令牌恢复模块(Token Recovering Module, TRM)

整体框架

H2OT的整体流程如下:

视频的初始几帧输入到VPT的前几个Transformer模块中,保持完整的序列长度以充分捕获时空信息。

随后,TPM开始介入,在不同的网络深度(Transformer块之后)逐步剪枝,每次剪枝减少一部分姿态Token,形成一个金字塔形的特征层次结构。

在经过所有中间层的计算后,TRM在最后一个Transformer块之后被调用,将剪枝后的少量代表性Token恢复到原始的完整序列长度。

最后,恢复后的完整序列被送入回归头,一次性预测出所有帧的3D姿态(对于seq2seq流程)或中心帧的姿态(对于seq2frame流程)。

该框架也适用于seq2frame流程,此时TRM不是必需的,TPM剪枝后的Token与中心帧Token一起被送入回归头。

关键模块与策略

论文为TPM和TRM探索了多种策略,以适应不同的需求。

Token剪枝策略令牌剪枝聚类(Token Pruning Cluster, TPC):这是一种无参数的动态选择方法。它首先对每个Token进行空间池化,然后使用基于密度峰值的聚类算法(DPC-kNN)将相似的Token分组,并选择聚类中心作为代表性Token。这种方法能有效选出最具代表性的帧。

令牌剪枝采样器(Token Pruning Sampler, TPS):这是一种更简单、更高效的无参数策略。它直接在时序维度上进行均匀采样来选择Token。由于视频帧之间的高度冗余,这种简单的策略在实践中非常有效,并且没有额外的计算开销,也保证了Token的有序性,有利于后续的插值恢复。

其他策略:论文还探讨了基于自注意力分数的TPA和基于运动信息的TPMo

下图展示了不同剪枝策略选择Token的统计可视化。可以看出,TPS(d)是均匀采样,TPC(a)倾向于选择序列的开始、中间和结尾部分,而TPA(b)和TPMo(c)则显示出动态选择的特性。

Token恢复策略令牌恢复注意力(Token Recovering Attention, TRA):该模块使用一个轻量级的交叉注意力层。它将一组可学习的、初始化为零的Token作为Query,将剪枝后留下的代表性Token作为Key和Value,通过注意力机制恢复出完整的时序信息。

令牌恢复插值(Token Recovering Interpolation, TRI):这是一个无参数、计算成本极低的方法。它首先用回归头从代表性Token预测出稀疏的3D姿态,然后通过简单的线性插值来恢复完整序列的3D姿态。该策略需要与有序的剪枝策略(如TPS)配合使用。

实验与结果

论文在Human3.6M和MPI-INF-3DHP等主流 benchmarks 上进行了大量实验,并将H2OT框架应用于MHFormer、MixSTE、MotionBERT等多种SOTA VPT模型。

消融研究

实验表明,TPS+TRI 的组合在效率上表现最佳。它几乎不增加任何计算开销(Ratio为0.00),同时实现了最高的FPS,且精度损失非常小。这证明了简单高效的均匀采样和插值是处理视频冗余的有效手段。

论文还对分层剪枝的层数、每层保留的Token数量(r)和执行剪枝的块索引(b)进行了详细消融。结果显示,通过精心设计的层次化剪枝策略(例如,在MixSTE上使用r=[121, 81], b=[0, 3]),H2OT可以在大幅降低FLOPs的同时,甚至比基线模型取得更好的性能。

对比seq2seq和seq2frame两种推理流程,H2OT都能显著提升效率。例如,在MixSTE上,H2OT (seq2seq) 将 FLOPs降低了57.4%FPS提升了87.8%,同时MPJPE还 降低了0.5mm

与SOTA方法对比

将H2OT应用于多种SOTA模型后,它们在保持甚至超越原有精度的同时,计算效率得到了巨大提升。例如,在Human3.6M数据集上,H2OT w. MixSTE在 FLOPs减少57.4% 的情况下,MPJPE从40.9mm降至 40.5mm。应用于MotionAGFormer时,MPJPE从38.4mm提升至 38.5mm,但 FLOPs减少了59.5%

该方法同样在MPI-INF-3DHP数据集上也表现出色,证明了其普适性。

可视化结果

下图展示了H2OT在一些具有挑战性的户外视频上的定性结果,证明了其生成高质量3D姿态的能力。

当然,在一些极端遮挡或罕见姿态的情况下,模型也存在失败案例。

下图清晰地展示了Token的选择(红色)与剪枝(灰色),以及最终恢复的3D姿态(青色)与真值(黑色)的对比,直观地证明了方法的有效性。

总结

这篇论文提出了 H2OT,一个为高效视频3D人体姿态估计设计的通用、即插即用的分层剪枝与恢复框架。核心思想是:在VPT中维持完整的时序序列是冗余且不必要的。通过分层地剪枝和恢复,H2OT能用少量代表性Token实现高效率和高精度的完美结合。

主要贡献如下:

提出H2OT框架:一个新颖的、通用的“奖杯形”计算范式,可轻松集成到各种VPT模型中,兼容seq2seq和seq2frame两种流程。

探索多种策略:系统地研究了多种参数化和无参数的Token剪枝与恢复策略,并发现最简单的TPS+TRI组合在效率和效果上达到了惊人的平衡。

显著提升效率:实验证明,H2OT能够在不牺牲甚至提升精度的前提下,将现有SOTA模型的计算成本降低超过50%,大幅提升推理速度。

代码开源:作者开源了代码,便于社区跟进和使用。

总而言之,H2OT为解决VPT模型的效率瓶颈提供了一个非常实用且有效的解决方案,为在资源受限场景下部署高精度3D人体姿态估计模型铺平了道路。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、分享、收藏、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视频3D人体姿态估计 H2OT Transformer 分层剪枝 模型效率 即插即用 Video 3D Human Pose Estimation Hierarchical Pruning Model Efficiency Plug-and-play
相关文章