CV君 2025-09-10 11:36 江苏
高效视频3D人体姿态估计设计的通用、即插即用的分层剪枝与恢复框架
今天要介绍的论文是“HOT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers”,它提出了一种名为 H2OT (Hierarchical Hourglass Tokenizer) 的即插即用分层剪枝与恢复框架,旨在解决现有视频姿态Transformer(VPT)模型计算成本高昂的问题。H2OT通过在Transformer模块中动态地、分层地减少和恢复姿态时序Token,形成一种“奖杯形”或称“金字塔形”的计算范式,从而在不牺牲甚至提升精度的前提下,大幅提升了模型的推理效率。
基于Transformer的视频3D人体姿态估计(Video-based 3D HPE)方法近年来取得了SOTA性能,这得益于其强大的长距离时序依赖建模能力。然而,这些视频姿态Transformer(VPT)模型通常需要处理极长的视频序列(例如243帧甚至351帧)以达到高精度。由于自注意力机制的计算复杂度与输入Token数量(即帧数)成二次方关系,这导致了巨大的计算开销,限制了它们在资源受限设备上的实际应用。
现有的VPTs大多遵循一种“矩形”范式,即在所有Transformer模块中都保持完整的时序序列长度。最近,有工作(如HoT)提出了“沙漏”范式,在中间层对Token进行剪枝,在末端再恢复,以提升效率。然而,一次性的大幅度剪枝可能会丢失关键信息。
本文提出的 H2OT 框架在此基础上,引入了分层剪枝设计,形成了一种更高效的“奖杯形(金字塔)”范式。它逐层、渐进地剪枝冗余帧的姿态Token,在网络的深层用更少的Token进行计算,最后再将完整的时序信息恢复出来。这种设计不仅能更有效地减少视频冗余,还能更好地保留必要信息,从而实现效率和精度的更优平衡。
H2OT:分层沙漏型TokenizerH2OT框架是一个通用的即插即用模块,可以轻松集成到主流的VPT架构中。它主要由两个核心组件构成:令牌剪枝模块(Token Pruning Module, TPM) 和 令牌恢复模块(Token Recovering Module, TRM)。
H2OT的整体流程如下:
视频的初始几帧输入到VPT的前几个Transformer模块中,保持完整的序列长度以充分捕获时空信息。随后,TPM开始介入,在不同的网络深度(Transformer块之后)逐步剪枝,每次剪枝减少一部分姿态Token,形成一个金字塔形的特征层次结构。在经过所有中间层的计算后,TRM在最后一个Transformer块之后被调用,将剪枝后的少量代表性Token恢复到原始的完整序列长度。最后,恢复后的完整序列被送入回归头,一次性预测出所有帧的3D姿态(对于seq2seq流程)或中心帧的姿态(对于seq2frame流程)。该框架也适用于seq2frame流程,此时TRM不是必需的,TPM剪枝后的Token与中心帧Token一起被送入回归头。
论文为TPM和TRM探索了多种策略,以适应不同的需求。
Token剪枝策略令牌剪枝聚类(Token Pruning Cluster, TPC):这是一种无参数的动态选择方法。它首先对每个Token进行空间池化,然后使用基于密度峰值的聚类算法(DPC-kNN)将相似的Token分组,并选择聚类中心作为代表性Token。这种方法能有效选出最具代表性的帧。下图展示了不同剪枝策略选择Token的统计可视化。可以看出,TPS(d)是均匀采样,TPC(a)倾向于选择序列的开始、中间和结尾部分,而TPA(b)和TPMo(c)则显示出动态选择的特性。
论文在Human3.6M和MPI-INF-3DHP等主流 benchmarks 上进行了大量实验,并将H2OT框架应用于MHFormer、MixSTE、MotionBERT等多种SOTA VPT模型。
实验表明,TPS+TRI 的组合在效率上表现最佳。它几乎不增加任何计算开销(Ratio为0.00),同时实现了最高的FPS,且精度损失非常小。这证明了简单高效的均匀采样和插值是处理视频冗余的有效手段。
论文还对分层剪枝的层数、每层保留的Token数量(r)和执行剪枝的块索引(b)进行了详细消融。结果显示,通过精心设计的层次化剪枝策略(例如,在MixSTE上使用r=[121, 81], b=[0, 3]),H2OT可以在大幅降低FLOPs的同时,甚至比基线模型取得更好的性能。
对比seq2seq和seq2frame两种推理流程,H2OT都能显著提升效率。例如,在MixSTE上,H2OT (seq2seq) 将 FLOPs降低了57.4%,FPS提升了87.8%,同时MPJPE还 降低了0.5mm。
将H2OT应用于多种SOTA模型后,它们在保持甚至超越原有精度的同时,计算效率得到了巨大提升。例如,在Human3.6M数据集上,H2OT w. MixSTE在 FLOPs减少57.4% 的情况下,MPJPE从40.9mm降至 40.5mm。应用于MotionAGFormer时,MPJPE从38.4mm提升至 38.5mm,但 FLOPs减少了59.5%。
该方法同样在MPI-INF-3DHP数据集上也表现出色,证明了其普适性。
下图展示了H2OT在一些具有挑战性的户外视频上的定性结果,证明了其生成高质量3D姿态的能力。
当然,在一些极端遮挡或罕见姿态的情况下,模型也存在失败案例。
下图清晰地展示了Token的选择(红色)与剪枝(灰色),以及最终恢复的3D姿态(青色)与真值(黑色)的对比,直观地证明了方法的有效性。
这篇论文提出了 H2OT,一个为高效视频3D人体姿态估计设计的通用、即插即用的分层剪枝与恢复框架。核心思想是:在VPT中维持完整的时序序列是冗余且不必要的。通过分层地剪枝和恢复,H2OT能用少量代表性Token实现高效率和高精度的完美结合。
主要贡献如下:
提出H2OT框架:一个新颖的、通用的“奖杯形”计算范式,可轻松集成到各种VPT模型中,兼容seq2seq和seq2frame两种流程。探索多种策略:系统地研究了多种参数化和无参数的Token剪枝与恢复策略,并发现最简单的TPS+TRI组合在效率和效果上达到了惊人的平衡。显著提升效率:实验证明,H2OT能够在不牺牲甚至提升精度的前提下,将现有SOTA模型的计算成本降低超过50%,大幅提升推理速度。代码开源:作者开源了代码,便于社区跟进和使用。总而言之,H2OT为解决VPT模型的效率瓶颈提供了一个非常实用且有效的解决方案,为在资源受限场景下部署高精度3D人体姿态估计模型铺平了道路。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉
投稿寻求报道请发邮件至:amos@52cv.net
欢迎点赞、分享、收藏、评论。
