我爱计算机视觉 09月22日
高帧率视频理解新框架:GRT让大模型看懂密集信息
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

当前视频大语言模型(VLLMs)在处理高帧率视频时面临效率瓶颈,普遍采用“抽帧”策略,导致密集时序信息丢失。为此,研究者提出了“密集视频理解”(DVU)新任务及评测基准DIVE,并引入了创新的“门控残差标记化”(GRT)框架。GRT借鉴视频压缩技术,通过运动补偿的帧间门控标记化和语义感知的场景内Token融合两阶段流程,实现了对高帧率视频的高效、可扩展Tokenization。实验表明,搭载GRT的小模型性能超越基线大模型,且性能随帧率提升而增长,显著降低了计算开销,为VLLMs处理复杂动态视觉信息开辟了新途径。

🎯 密集视频理解(DVU)新任务与基准:研究者们首次定义了“密集视频理解”(DVU)这一新任务,旨在解决现有视频大语言模型(VLLMs)在处理高帧率密集视频时信息丢失的问题。为此,他们构建了首个面向此任务的评测基准DIVE,该基准通过利用YouTube视频字幕流生成需要逐帧推理才能回答的问答对,有效地评估模型对精细时序信息的理解能力。

💡 门控残差标记化(GRT)框架:为了高效处理高帧率视频,研究者提出了名为“门控残差标记化”(GRT)的创新框架。GRT借鉴了视频压缩中的思想,采用两阶段机制:第一阶段“运动补偿的帧间门控标记化”通过识别关键帧和仅对运动区域进行Tokenization来减少冗余;第二阶段“语义感知的场景内Token融合”进一步通过比较场景相似性并融合关键帧Token,在保留动态信息的同时剔除跨场景的静态背景冗余,从而大幅精简输入LLM的Token序列。

🚀 GRT的显著性能优势:实验结果表明,搭载GRT的0.5B参数小模型在DIVE基准上的性能显著优于多个7B参数的VLLM基线模型,证明了GRT框架的高效性和密集时序信息的重要性。此外,GRT的性能随着输入视频帧率(FPS)的增加而持续提升,与传统方法形成鲜明对比,预示着其在处理更复杂动态视觉信息方面的巨大潜力。同时,GRT能将Token数量减少至原始的14%,极大地降低了计算开销。

🌟 主要贡献与未来展望:该工作的主要贡献在于定义了DVU新任务和DIVE基准,填补了领域空白;提出了GRT框架,实现了对高帧率视频的高效、可扩展Tokenization。GRT的出现有望让VLLMs摆脱低帧率的束缚,能够更全面、更深入地理解我们所处的连续动态世界,为未来VLLMs处理更复杂的视觉任务奠定了坚实基础。

52CV 2025-09-21 11:01 江苏

让视频大模型看懂高帧率密集视频

当前的视频大语言模型(VLLMs)在处理视频时,普遍面临一个核心瓶颈:为了节省巨大的计算成本,它们不得不“抽帧”处理,即只对视频中稀疏的几个关键帧进行分析,而丢弃了绝大部分的密集时序信息。这种做法在处理内容变化缓慢的视频时或许可行,但一旦遇到信息密集、需要逐帧理解的任务(如跟上快速闪过的课程字幕、分析体育比赛中的瞬时动作),就会“失明”。

为了解决这一痛点,来自东北大学、普林斯顿大学和马里兰大学的研究者们,在一篇名为 《Dense Video Understanding with Gated Residual Tokenization》 的论文中,提出了一个全新的概念和解决方案。他们首先定义了 密集视频理解(Dense Video Understanding, DVU) 这一新任务,并为此构建了 首个 评测基准 DIVE。更重要的是,他们提出了一种名为 门控残差标记化(Gated Residual Tokenization, GRT) 的创新框架,旨在让VLLM能够高效、可扩展地处理高帧率视频。

    论文标题:Dense Video Understanding with Gated Residual Tokenization

    作者团队:Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu

    机构:美国东北大学, 普林斯顿大学, 马里兰大学

    论文地址https://arxiv.org/abs/2509.14199

背景:高帧率视频理解的“不能承受之重”

为什么现有的VLLM都选择“抽帧”?根本原因在于“Tokenization”的高昂成本。将视频的每一帧都像图片一样转换成Token,会带来两大问题:

    计算冗余:视频中相邻帧之间通常只有少量区域(如移动的人物)发生变化,而大量静态背景(如墙壁、天空)是重复的。对每一帧的静态背景都进行重复的Tokenization是巨大的浪费。

    Token数量爆炸:Token数量会随着视频长度和帧率线性增长,这很快会超出LLM的上下文窗口限制,并因注意力机制的二次方复杂度而导致计算成本爆炸。

正是为了规避这些问题,现有模型和评测基准都走向了“稀疏理解”的道路,但这从根本上限制了VLLM在需要精细时序推理任务上的应用潜力。

GRT:高效处理高帧率视频的两阶段框架

GRT 的设计灵感来源于经典的视频压缩技术,其核心思想是 “只处理变化的部分”。它通过一个两阶段的“门控”和“融合”机制,在Token层面实现了对视频信息的智能压缩。

阶段一:运动补偿的帧间门控标记化 (Motion-Compensated Inter-Gated Tokenization)

这一阶段在像素层面减少冗余。它模仿视频编码中的I帧(关键帧)和P帧(预测帧)的概念:

    识别关键帧(Key Frame):对于一个场景的起始帧,GRT会将其作为关键帧进行完整的Tokenization,以捕捉静态的场景信息,生成“Key-token”。

    门控处理P帧(P-Frame):对于后续的帧,GRT首先进行像素级的运动估计,识别出画面中哪些区域是运动的,哪些是静止的。然后,通过一个“门控”机制,只对运动的区域(Patch)进行Tokenization,生成“P-token”,而完全跳过静止的背景区域。

通过这种方式,GRT避免了对静态背景的重复计算,使得Token数量和计算量的增长与视频帧数呈 次线性关系,极大地提升了处理效率。

阶段二:语义感知的场景内Token融合 (Semantic-Scene Intra-Tokenization Merging)

这一阶段在语义层面进一步压缩信息。它解决了视频中可能存在的“场景重复”问题:

    场景相似性度量:GRT会比较不同场景的关键帧Token(Key-token)的分布,以判断两个场景在语义上是否相似(例如,一个演讲者在同一个讲台背景下讲了十分钟)。

    Token融合:如果两个场景被判定为语义上等价,GRT会 将它们的Key-token进行融合(例如,通过聚类生成一个新的代表性Token),并简单地将它们各自的P-token(代表了各自场景内的独特运动)拼接起来。

这一步操作,在保留了所有动态信息的同时,进一步剔除了跨场景的静态背景冗余,使得最终输入到LLM的Token序列变得极为精简。

实验结果:小模型也能超越大模型

为了验证GRT的有效性,研究者们首先构建了 首个 面向密集时序推理的基准 DIVE (Dense Information Video Evaluation) 。DIVE通过利用YouTube视频的字幕流,自动生成需要逐帧推理才能正确回答的问答对。

在DIVE基准上的实验结果令人振奋:

    性能超越SOTA:搭载了GRT的0.5B参数小模型,其性能(以平均意见分MOS衡量) 显著优于 多个更大规模的7B参数VLLM基线模型。这证明了GRT框架的高效性和密集时序信息的关键性。

    性能随帧率正向扩展:与传统方法因帧率增加而性能下降或计算崩溃不同,GRT的性能随着输入视频FPS的增加而 持续提升。这有力地证明了GRT能够有效利用高帧率视频中的密集信息。

    显著的Token压缩率:实验数据显示,在1 FPS的设置下,GRT的两阶段压缩能将Token数量减少到原始(逐帧处理)的 14% ,极大地降低了计算开销。

消融实验也证明了GRT的两个阶段对于最终性能都至关重要。

总结与贡献

这项工作直面了当前VLLM领域的核心痛点,为实现真正意义上的密集视频理解迈出了关键一步。

其主要贡献在于:

    定义了密集视频理解(DVU)新任务,并创建了 首个 相应的评测基准 DIVE,填补了领域空白。

    提出了Gated Residual Tokenization (GRT)框架,通过一个创新的、受视频压缩启发的两阶段流程,首次实现了对高帧率视频的高效、可扩展的Tokenization。

    实验证明了密集时序信息的重要性,并验证了GRT能够让VLLM从小模型到大模型都能从中受益,为未来VLLM处理更复杂的动态视觉信息开辟了新的道路。

总而言之,GRT的出现,有望让VLLM摆脱“低帧率”的束缚,真正看懂、看清我们这个连续而丰富的动态世界。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视频大语言模型 密集视频理解 高帧率视频 门控残差标记化 GRT Video Large Language Models Dense Video Understanding High-Frame-Rate Video Gated Residual Tokenization AI Computer Vision
相关文章