PaperWeekly 前天 22:32
AI视频理解新基准VRBench:考量多步推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为评估AI对长视频的深度理解能力,研究团队推出了VRBench,这是全球首个专门设计用于测试大模型长视频多步推理能力的数据集和基准。VRBench通过精心筛选的960部多语言视频,设计了包含事件归因、隐含推理、假设推理、事件预测、逻辑联系、信息综合及计数等七种核心推理能力的8243个问答对,并要求AI提供带时间戳的推理过程。测试结果显示,尽管顶级模型在选择题上表现优异,但其推理过程仍显脆弱,特别是计数问题成为普遍难点。VRBench旨在推动AI从“看画面”走向“看剧情”,促进更深层次的视频理解。

💡 **VRBench:长视频AI理解的新标杆** VRBench是全球首个专门为评估大模型在长视频内容上的多步推理能力而设计的基准。它超越了传统的画面识别,转而关注AI能否像人一样,串联起影片中的线索、动机和因果关系,真正“看懂”一部电影。该基准包含960部精心挑选的叙事视频,平均时长1.6小时,涵盖多种内容类型,旨在提供一个更接近真实世界理解场景的测试环境。

🌐 **多语言与“防作弊”设计** 为了避免AI依赖预训练数据的语言偏见,VRBench中的视频均采用泰语、阿拉伯语、韩语等非英语和中文的语言。这种设计迫使AI必须依赖真正的逻辑推理能力来解决问题,而非简单地进行模式匹配或记忆回溯,从而更准确地衡量其核心理解能力。同时,VRBench还提供了多语种的ASR转录、镜头切分和内容摘要等元信息,辅助AI进行理解。

🧠 **七维度“全科考试”与过程严苛考核** VRBench设计了七种核心推理能力的“全科考察”,包括事件归因、隐含推理、假设推理、事件预测、逻辑联系、信息综合和计数问题。更重要的是,它采用“结果+过程”的双重评测体系,不仅要求AI给出正确答案,还强制要求AI提供详细的、带有时间戳的推理步骤,并由LLM担任“裁判”对逻辑连贯性、事实准确性和表达清晰度进行评分,全面揭示AI的“思考过程”。

📉 **AI能力现状:“优等生”偏科与计数难题** 对28个顶尖大模型的测试结果显示,即使是如GPT-4o等模型,在选择题准确率高(81.23%)的同时,其推理过程评分(56.13%)却显著偏低,揭示了AI“选答案”易、“真思考”难的普遍现象。此外,计数问题成为所有AI的“滑铁卢”,表明在长视频中保持精确、持续的注意力仍是巨大挑战。

原创 让你更懂AI的 2025-10-22 12:35 北京

不止识别画面,AI也要“通关剧情”

本文第一作者为上海人工智能实验室研究员于家硕,研究方向为多模态视频理解。通信作者为中国科学院深圳先进技术研究院王亚立老师,上海人工智能实验室王毅老师,南京大学王利民老师。共同作者来自于上海创智学院等。

想象一下,你要测试一个朋友是否真的理解了一部两小时的悬疑电影。你不会问他“主角穿什么颜色的衣服”,而会问:“为什么主角在影片中段那个看似无关紧要的决定,最终导致了结局的惊天逆转?”

这样的问题,需要他串联起开头的铺垫、中间的转折和角色的动机,进行一场复杂的逻辑推理。现在,人工智能领域也面临着同样的终极考验——我们如何知道,一个 AI 究竟是真的“看懂”了一部长视频,还是仅仅记住了几个孤立的画面?

为了回答这个问题,我们正式推出全球首个专为评估大模型长视频多步推理能力而设计的权威基准——VRBench。这不仅是一个数据集,更是我们为顶尖 AI 精心设计的一场“电影理解力大考”。

它不看 AI 能否识别单个画面,而是考验它能否像一位资深侦探,将散落在数小时影片中的线索串联成链,洞察复杂的情节脉络与因果关系。这一评测基准已经被 ICCV 2025 会议接收。

论文链接:

https://arxiv.org/abs/2506.10857

项目主页:

https://vrbench.github.io/

数据集链接:

https://huggingface.co/datasets/OpenGVLab/VRBench

项目代码库:

https://github.com/OpenGVLab/VRBench

当AI患上“视频健忘症”:我们为何需要VRBench?

在视频内容爆炸的时代,AI 理解视频的能力已成为衡量其智能水平的关键。许多模型能轻松识别图片和短视频,但一旦面对长达数小时的电影、纪录片或体育赛事,它们便仿佛患上了“健忘症”——能看懂眼前的三分钟,却忘了三十分钟前埋下的伏笔。

我们发现,现有的 AI 评测体系存在一个根本性缺陷:它们就像是只考学生“认字”,却不考他们“阅读理解”。

大多数基准要么专注于孤立的视觉感知(“画面里有几只猫?”),要么测试与视频情节无关的专业知识(如解数学题),却系统性地忽略了 AI 最核心的一项能力:基于动态叙事进行深度、连续、多步骤的推理。

VRBench 的诞生,正是为了填补这一至关重要的空白。

第一步:寻找能真正难住 AI 的‘好故事’

一场公正的考试,首先需要高质量、无偏见的“考题”。VRBench 的设计正是从这里开始。

1. 精心筛选的“考题库”

我们从超过 10,000 部视频池中,人工精选出 960 部高质量叙事视频。它们平均时长高达 1.6 小时,涵盖电影、体育、游戏、旅行等七大类别。

这并非简单的堆砌,我们组织了 14 位多语言专家,像电影评委一样对视频的情节连贯性和内容丰富度进行 0-10 分的打分,只有得分超过7分的“好故事”才能入选。

2. 巧妙的“防作弊”机制

一个看似奇怪却至关重要的设计是:VRBench 中的视频均非英语或中文。这是因为当前绝大多数 AI 的训练数据都以这两种语言为主。如果用它们来测试,AI很可能依赖“题海战术”的记忆而非真正的理解来“蒙混过关”。

通过采用泰语、阿拉伯语、韩语等 8 种不同语言的视频,我们相当于为 AI 提供了一套全新的考卷,迫使它从零开始,真正依赖逻辑推理来解决问题。

3. 高质量的视频元信息

在进行人工标注前,我们使用开源工具,为 VRBench 的视频提供了一系列标注信息,包括多语种的 asr 转录,根据语义的视频镜头切分,以及每段视频的多层级内容摘要。

这些元信息不仅能够帮助人工标注员理解视频内容,生成高质量的问答对,还可以让 LLM 也能够理解视频内容,发挥其推理能力的长处,使得 VRBench 同时能够测评 LLM 和 VLM。

第二步:设计迫使 AI 深度思考的‘灵魂拷问’

有了好的“电影”,还需要设计能勘破 AI 真实能力的“考题”。我们采用了大规模的人工标注和质检流程,为这千余部视频配备了 8,243 个需要多步推理的问答对,以及超过 25,000 个被精准标注了时间戳的推理步骤。

VRBench 中所有的问答对和推理步骤全部由受培训的专家标注员人工标注完成,并采用了全量人工质检来保证问题的质量:所有的问答对和推理步骤,必须由审核员审核为合格,才能够被采用。

1. 七种推理能力的“全科考察”

我们的问题覆盖了七种核心推理能力,仿佛一场“全科考试”:

▲ VRBench 的标注示例。我们为所有的问答对都提供了带时间戳的多步推理标注

2. 过程比答案更重要

每个问题都要求 AI 提供详细的推理步骤,并且每一步都需要在视频中找到对应的时间戳证据。我们还强制要求问题的答案必须遍布视频的不同时间段(0-15 分钟、15-40 分钟、40 分钟以上),杜绝了AI只看“开场白”或“大结局”就草草作答的可能。

是‘真懂’还是‘蒙对’?我们的双重评测体系揭示真相

传统 AI 测试只看“结果”,而 VRBench 开创性地采用了“结果+过程”的双重检验法。这就像一位严格的数学老师,不仅看你答案是否正确,更要审查你的完整解题步骤。

结果检验(选择题):这是第一层,AI 需要从四个选项中选出正确答案,考察其最终的判断能力。

过程检验:这才是 VRBench 的革命性所在。我们引入了开放式推理评分(Open-Ended Rating),来彻底剖析AI的“思考过程”:我们要求 AI 写出完整的“解题思路”,然后使用 LLM(DeepSeek-V3)担任“裁判”。

这位裁判会从四个维度给出一个综合评分:逻辑是否连贯(权重 40%)、思路与专家答案的相似度(权重 40%)、事实是否准确(权重 10%)和表达是否清晰(权重10%)。

对一些推理过程不唯一的问题类型(如事件预测和假设推理),我们调整了评分权重,不要求思路和专家答案一定相似,而是将逻辑连贯性性作为最重要的指标(权重 80%),以鼓励 AI 进行创造性但合理的思考。

第四步:成绩单出炉,AI 能力的几点意外发现

我们将 VRBench 这份“终极考卷”分发给了业界 28 个最前沿的大模型(包括 GPT-4o,Gemini 2.0 Pro,Claude 3.7 等)。这份“体检报告”揭示了当前 AI 能力的真相:

1. “优等生”也偏科,推理过程普遍脆弱

谷歌的 Gemini 2.0 Pro 以 74.61% 的综合得分成为全场最佳,展现了强大的实力。然而,即便是 GPT-4o 这样的顶级模型,也暴露出一个惊人现象:它的选择题准确率高达 81.23%,但其推理过程的评分却仅有 56.13%。这说明,许多 AI 学会了“选答案”,却没学会“真思考”。

2. 视觉信息不可或缺,但高质量文本同样强大

能直接处理视频的 VLM,平均表现比只读取视频文字摘要的 LLM 高出 12.2%,证明了视觉信息的重要性。

但令人意外的是,顶级的纯文本模型(LLM)在接收到高质量的视频描述后,其推理能力甚至能超越许多中等水平的视频模型(VLM)。这揭示了:对 AI 而言,信息的质量和结构,有时比信息的模态更重要。

3. “慢思考”模型潜力巨大

专门为深度推理设计的 “System-2” 模型(如 OpenAI o1),在推理过程评分上显著优于传统模型。它们虽然在“得出正确答案”上提升有限,但在“如何思考”上已迈出关键一步。

4. 计数问题——所有 AI 的“滑铁卢”

在所有七类问题中,计数问题的难度一骑绝尘。几乎所有模型的表现都接近随机猜测。这说明,在长达数小时的视频中保持精确、持续的注意力,对当今的AI架构来说仍是一个巨大的挑战。

▲ VRBench 的评测结果

结语:从“看热闹”到“看门道”,推动AI迈向真正的理解

VRBench 的出现,标志着 AI 视频理解评估进入了一个新时代——从测试 AI 能否“看热闹”(识别物体),进化到考验它能否“看门道”(理解情节与逻辑)。

它不仅是一个评测工具,更是一个“指挥棒”,为未来的AI研发指明了方向:我们需要能够进行“慢思考”、有效处理长上下文、并且推理过程诚实可靠的 AI。

通过 VRBench 的持续“大考”,我们有理由相信,AI终将克服“视频健忘症”,从一个只能识别画面的工具,成长为能够与我们一同欣赏、分析、并深刻理解这个复杂视觉世界的智能伙伴。

VRBench 评测集现已全部开源:

论文链接:

https://arxiv.org/abs/2506.10857

项目主页:

https://vrbench.github.io/

数据集链接:

https://huggingface.co/datasets/OpenGVLab/VRBench

项目代码库:

https://github.com/OpenGVLab/VRBench

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VRBench AI视频理解 多步推理 大模型评估 多模态理解 长视频理解 VRBench AI Video Understanding Multi-Step Reasoning Large Model Evaluation Multimodal Understanding Long Video Comprehension
相关文章