TRACE：因果事件建模助力视频理解大模型的时间定位能力

2025-03-15 14:27 辽宁

论文第一作者为香港中文大学（深圳）理工学院在读博士生郭永新，指导老师为通讯作者为香港中文大学（深圳）理工学院 / 人工智能学院助理教授唐晓莹，课题组研究方向包括大模型、联邦学习、充电智能优化与博弈等。

下班回家后你正深陷于一部两小时的综艺节目中，渴望找到那些让人捧腹的爆笑片段，却如同大海捞针。或者，在紧张刺激的足球赛中，你渴望捕捉到那决定性的绝杀瞬间，但传统 AI 视频处理技术效率低下，且模型缺乏泛化能力。为解决这些问题，香港中文大学（深圳）唐晓莹课题组联合腾讯 PCG 发布 TRACE 技术，通过因果事件建模为视频理解大模型提供精准的时间定位能力。

论文标题：TRACE: Temporal Grounding Video LLM via Causal Event Modeling

VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

论文地址：https://arxiv.org/pdf/2410.05643

https://arxiv.org/pdf/2405.13382

Github：https://github.com/gyxxyg/TRACE

一. 背景

在长视频内容检索的研究领域中，用户常面临时间线导航效率低下的困境。传统的视频检索方法采用逐帧分析的线性处理策略，如同逐帧查字典，效率低下且泛化能力差。而现有的多模态大模型，虽然泛化能力更强，但是效果仍然差强人意。

我们认为这背后的矛盾本质上源于视频理解大模型的输出依然使用自然语言建模，无法清晰准确地描述视频本身的结构。TRACE 的绝妙之处是给视频事件构建结构化表征，将每个模型的输出表示为一系列事件，进一步把每个事件拆成三元组「时间戳 - 显著性分数 - 文本描述」，通过因果推理链重构视频逻辑骨架。

TRACE 技术突破了传统方法的局限，不再依赖没有清晰结构的文字描述，而是通过事件级别的因果建模，显著提升了时序理解与定位精度，为视频内容检索实现了 “大海捞针”。

二. 方法

TRACE 方法引入了结构化建模创新：把视频理解大模型的输出拆解成「时间戳 - 显著性分数 - 文本描述」三元事件单元，实现因果事件建模 —— 通过视觉输入、文本指令和已有事件预测下一个事件

I：文本指令，F：视频帧的输入，tk, sk 和 ck：时间戳、显著性分数和文本描述。

我们通过条件概率分解发现，因果事件建模可表示为自回归模型，具有特殊的 token 顺序。基于这一发现，我们提出了视频大模型 TRACE（Temporal grounding via Causal Event modeling）。而且，TRACE 还为时间和分数设计了专用的 tokenizer，就像给它们创建了特定的表征系统。这样，模型就能更准确地理解和生成时间戳和显著性分数了，并为每个任务设计不同的编码器和解码器头，解码器头能根据任务自动切换，从而提高整体性能和适应性。

针对时间和分数的特殊编码器

我们为时间和分数设计专用 tokenizer：时间用 6 位编码（例：[10.23, 125.37]→<0><0><1><0><.><2><sep><0><1><2><5><.><4><sync>），分数用 3 位编码（例：[4.5] →<4><.><5><sync>）。每个词库含 13个token，包括10个数字token以及三个特殊token：<.><sep><sync > ，通过组合实现精确数值表达。

通过切换 head 来生成不同的任务

在推理阶段，模型通过 < sync > 令牌切换任务专用解码器：依次生成时间→分数→描述，每个任务配备独立解码头。<sync > 出现时自动切换解码任务。