原创 让你更懂AI的 2025-10-22 12:35 北京
不止识别画面,AI也要“通关剧情”
本文第一作者为上海人工智能实验室研究员于家硕,研究方向为多模态视频理解。通信作者为中国科学院深圳先进技术研究院王亚立老师,上海人工智能实验室王毅老师,南京大学王利民老师。共同作者来自于上海创智学院等。
想象一下,你要测试一个朋友是否真的理解了一部两小时的悬疑电影。你不会问他“主角穿什么颜色的衣服”,而会问:“为什么主角在影片中段那个看似无关紧要的决定,最终导致了结局的惊天逆转?”
这样的问题,需要他串联起开头的铺垫、中间的转折和角色的动机,进行一场复杂的逻辑推理。现在,人工智能领域也面临着同样的终极考验——我们如何知道,一个 AI 究竟是真的“看懂”了一部长视频,还是仅仅记住了几个孤立的画面?
为了回答这个问题,我们正式推出全球首个专为评估大模型长视频多步推理能力而设计的权威基准——VRBench。这不仅是一个数据集,更是我们为顶尖 AI 精心设计的一场“电影理解力大考”。
它不看 AI 能否识别单个画面,而是考验它能否像一位资深侦探,将散落在数小时影片中的线索串联成链,洞察复杂的情节脉络与因果关系。这一评测基准已经被 ICCV 2025 会议接收。
论文链接:
https://arxiv.org/abs/2506.10857
项目主页:
数据集链接:
https://huggingface.co/datasets/OpenGVLab/VRBench
项目代码库:
https://github.com/OpenGVLab/VRBench
当AI患上“视频健忘症”:我们为何需要VRBench?
在视频内容爆炸的时代,AI 理解视频的能力已成为衡量其智能水平的关键。许多模型能轻松识别图片和短视频,但一旦面对长达数小时的电影、纪录片或体育赛事,它们便仿佛患上了“健忘症”——能看懂眼前的三分钟,却忘了三十分钟前埋下的伏笔。
我们发现,现有的 AI 评测体系存在一个根本性缺陷:它们就像是只考学生“认字”,却不考他们“阅读理解”。
大多数基准要么专注于孤立的视觉感知(“画面里有几只猫?”),要么测试与视频情节无关的专业知识(如解数学题),却系统性地忽略了 AI 最核心的一项能力:基于动态叙事进行深度、连续、多步骤的推理。
VRBench 的诞生,正是为了填补这一至关重要的空白。
第一步:寻找能真正难住 AI 的‘好故事’
一场公正的考试,首先需要高质量、无偏见的“考题”。VRBench 的设计正是从这里开始。
1. 精心筛选的“考题库”
我们从超过 10,000 部视频池中,人工精选出 960 部高质量叙事视频。它们平均时长高达 1.6 小时,涵盖电影、体育、游戏、旅行等七大类别。
这并非简单的堆砌,我们组织了 14 位多语言专家,像电影评委一样对视频的情节连贯性和内容丰富度进行 0-10 分的打分,只有得分超过7分的“好故事”才能入选。
2. 巧妙的“防作弊”机制
一个看似奇怪却至关重要的设计是:VRBench 中的视频均非英语或中文。这是因为当前绝大多数 AI 的训练数据都以这两种语言为主。如果用它们来测试,AI很可能依赖“题海战术”的记忆而非真正的理解来“蒙混过关”。
通过采用泰语、阿拉伯语、韩语等 8 种不同语言的视频,我们相当于为 AI 提供了一套全新的考卷,迫使它从零开始,真正依赖逻辑推理来解决问题。
3. 高质量的视频元信息
在进行人工标注前,我们使用开源工具,为 VRBench 的视频提供了一系列标注信息,包括多语种的 asr 转录,根据语义的视频镜头切分,以及每段视频的多层级内容摘要。
这些元信息不仅能够帮助人工标注员理解视频内容,生成高质量的问答对,还可以让 LLM 也能够理解视频内容,发挥其推理能力的长处,使得 VRBench 同时能够测评 LLM 和 VLM。
第二步:设计迫使 AI 深度思考的‘灵魂拷问’
有了好的“电影”,还需要设计能勘破 AI 真实能力的“考题”。我们采用了大规模的人工标注和质检流程,为这千余部视频配备了 8,243 个需要多步推理的问答对,以及超过 25,000 个被精准标注了时间戳的推理步骤。
VRBench 中所有的问答对和推理步骤全部由受培训的专家标注员人工标注完成,并采用了全量人工质检来保证问题的质量:所有的问答对和推理步骤,必须由审核员审核为合格,才能够被采用。
1. 七种推理能力的“全科考察”
我们的问题覆盖了七种核心推理能力,仿佛一场“全科考试”:
事件归因(扮演侦探):分析某个事件发生的根本原因。
隐含推理(读懂弦外之音):从角色的表情、语气中推断其未明言的情感或意图。
假设推理(开启平行宇宙):“如果主角当时做了不同选择,会发生什么?”
事件预测(成为预言家):根据已有线索预测故事的后续发展。
逻辑联系(串联线索):建立两个看似无关事件之间的因果桥梁。
信息综合(撰写摘要):概括散落在视频各处的核心信息。
计数问题(考验记忆力):追踪某个元素在整部影片中的变化,对AI的持续注意力提出极致挑战。
2. 过程比答案更重要
每个问题都要求 AI 提供详细的推理步骤,并且每一步都需要在视频中找到对应的时间戳证据。我们还强制要求问题的答案必须遍布视频的不同时间段(0-15 分钟、15-40 分钟、40 分钟以上),杜绝了AI只看“开场白”或“大结局”就草草作答的可能。
是‘真懂’还是‘蒙对’?我们的双重评测体系揭示真相
传统 AI 测试只看“结果”,而 VRBench 开创性地采用了“结果+过程”的双重检验法。这就像一位严格的数学老师,不仅看你答案是否正确,更要审查你的完整解题步骤。
结果检验(选择题):这是第一层,AI 需要从四个选项中选出正确答案,考察其最终的判断能力。
过程检验:这才是 VRBench 的革命性所在。我们引入了开放式推理评分(Open-Ended Rating),来彻底剖析AI的“思考过程”:我们要求 AI 写出完整的“解题思路”,然后使用 LLM(DeepSeek-V3)担任“裁判”。
这位裁判会从四个维度给出一个综合评分:逻辑是否连贯(权重 40%)、思路与专家答案的相似度(权重 40%)、事实是否准确(权重 10%)和表达是否清晰(权重10%)。
对一些推理过程不唯一的问题类型(如事件预测和假设推理),我们调整了评分权重,不要求思路和专家答案一定相似,而是将逻辑连贯性性作为最重要的指标(权重 80%),以鼓励 AI 进行创造性但合理的思考。
第四步:成绩单出炉,AI 能力的几点意外发现
我们将 VRBench 这份“终极考卷”分发给了业界 28 个最前沿的大模型(包括 GPT-4o,Gemini 2.0 Pro,Claude 3.7 等)。这份“体检报告”揭示了当前 AI 能力的真相:
1. “优等生”也偏科,推理过程普遍脆弱
谷歌的 Gemini 2.0 Pro 以 74.61% 的综合得分成为全场最佳,展现了强大的实力。然而,即便是 GPT-4o 这样的顶级模型,也暴露出一个惊人现象:它的选择题准确率高达 81.23%,但其推理过程的评分却仅有 56.13%。这说明,许多 AI 学会了“选答案”,却没学会“真思考”。
2. 视觉信息不可或缺,但高质量文本同样强大
能直接处理视频的 VLM,平均表现比只读取视频文字摘要的 LLM 高出 12.2%,证明了视觉信息的重要性。
但令人意外的是,顶级的纯文本模型(LLM)在接收到高质量的视频描述后,其推理能力甚至能超越许多中等水平的视频模型(VLM)。这揭示了:对 AI 而言,信息的质量和结构,有时比信息的模态更重要。
3. “慢思考”模型潜力巨大
专门为深度推理设计的 “System-2” 模型(如 OpenAI o1),在推理过程评分上显著优于传统模型。它们虽然在“得出正确答案”上提升有限,但在“如何思考”上已迈出关键一步。
4. 计数问题——所有 AI 的“滑铁卢”
在所有七类问题中,计数问题的难度一骑绝尘。几乎所有模型的表现都接近随机猜测。这说明,在长达数小时的视频中保持精确、持续的注意力,对当今的AI架构来说仍是一个巨大的挑战。
▲ VRBench 的评测结果
结语:从“看热闹”到“看门道”,推动AI迈向真正的理解
VRBench 的出现,标志着 AI 视频理解评估进入了一个新时代——从测试 AI 能否“看热闹”(识别物体),进化到考验它能否“看门道”(理解情节与逻辑)。
它不仅是一个评测工具,更是一个“指挥棒”,为未来的AI研发指明了方向:我们需要能够进行“慢思考”、有效处理长上下文、并且推理过程诚实可靠的 AI。
通过 VRBench 的持续“大考”,我们有理由相信,AI终将克服“视频健忘症”,从一个只能识别画面的工具,成长为能够与我们一同欣赏、分析、并深刻理解这个复杂视觉世界的智能伙伴。
VRBench 评测集现已全部开源:
论文链接:
https://arxiv.org/abs/2506.10857
项目主页:
数据集链接:
https://huggingface.co/datasets/OpenGVLab/VRBench
项目代码库:
https://github.com/OpenGVLab/VRBench
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
