新智元报道
新智元报道
视频空间超感知如何让AI能够真正地感知人类的世界?为了更具体地阐述,团队认为以下的分类法能够清晰地描绘出一条演进路径——从团队当前拥有的技术,到团队下一步真正需要构建的目标。0. (纯语言理解)不具备感官能力;推理仅限于文本和符号。当前的多模态大语言模型虽已超越此阶段,但仍残留着其偏见的痕迹。1. 语义感知将像素解析为物体、属性和关系。这对应于多模态大语言模型目前强大的「看图说话」能力。2. 流式事件认知处理实时的、无限制的数据流,同时主动地解读并响应持续发生的事件。这与当前将多模T态大语言模型打造为实时助手的努力方向一致。3. 隐式3D空间认知将视频理解为三维世界的投影。智能体必须知道「什么东西」在「哪里」,它们之间「如何关联」,以及空间布局「如何随时间变化」。当今的多模态模型在这一方面的能力仍然极其有限。4. 预测性世界建模大脑通过基于先验期望来预测潜在的世界状态,从而进行「无意识推断」。当前的多模态系统缺乏一个能够预测未来状态、保持长期记忆或进行推理和规划的内部模型。要研究这一切,视频是最佳的媒介——它是人类每天体验世界的方式,是人类生活经验的直接投影。如何判断模型达到超感知能力首要问题(始终)是基准测试。谢赛宁说他也很钟爱多模态大语言模型,但若缺乏开放和批判性的审视,团队可能会在错误的方向上进行优化。许多视频基准测试甚至不需要真正的感知能力;正如团队所展示的,仅仅依靠单帧图像或字幕就能获得高分。谢赛宁也提到了现在的玩法是:科技公司构建强大的语言模型 → 基准测试奖励的是模型的文本记忆能力 → 模型通过扩大LLM的规模获得更高分数 → 其他公司纷纷效仿这个循环不断持续,直到团队意识到,召唤出的「幽灵」在感知能力上,仍然落后于一只猫,或一只松鼠。莫拉维克悖论再次应验:对人类而言毫不费力的感知能力,对模型来说却难如登天。这不仅仅是一个科学问题。真正的价值来自于那些能够在现实世界中感知和行动的模型:从工厂到农场,再到医院……从机器人到那些人们期望能作为个人助理佩戴的AI眼镜。仅靠大语言模型是无法实现这一切的。超级智能,始于超感知。超感知的关键一环是视觉空间智能谢赛宁团队之前有一个VSI-Bench基准用于测试空间推理,但其中的视频太短,任务也过于简单。所以,团队打造了一个看似更简单、实则更难的版本:VSI-Super。其中有两个任务。· 任务1:VS长时程空间记忆。团队使用扩散模型编辑视频,插入一些不合上下文但视觉上融合的物体(而不是随机的「大海捞针」式物体)。· 任务2:VSC持续计数。在变化的视角和场景下进行持续计数……模型只需数出它们所看到的东西。一个测试考察对物体顺序的记忆力,另一个则考察计数能力。任务简单,可流式处理——还能有比这更容易的吗?然而,顶尖的大语言模型却纷纷败下阵来。而且,这不仅仅是长上下文(long context)的问题。为什么?谢赛宁解释道(其实还是验证了莫拉维克悖论):视频可以任意长。这对于对人类来说,这很简单。人类的感官能处理「无限的Token」。这虽然是一个有损的过程,但人们能记住几天甚至几周的经历。模型却做不到。它们(LLM)缺乏真正的空间认知和泛化能力。人类可以一直数下去,而模型不行。以顶尖的Gemini 2.5模型为例,它只能数到几十个。即使视频更长、物体更多,它也会停止计数。 这充分暴露了其训练数据的分布特点。当然,你可能会问——这难道不只是一个数据或规模化的问题吗?就像Scaling Law一样,继续增加数据量和增大训练量,不就可以解决吗?谢赛宁表示,部分是因为规模这个原因。但这也是他们构建全新的Cambrian-S视频多模态大语言模型(MLLM)系列的原因。团队想要挑战当前范式(LLM)的极限。谢赛宁、李飞飞和LeCun,他们认为数据和规模化对于超感知至关重要(但仅有这些还不够)。核心问题在于:目前缺乏真正用于训练空间认知的有效数据。所以团队构建了一个名为VSI-590K的数据集。它包含59万个训练样本,来源包括:带有3D标注的室内环境第一人称探索视频、来自模拟器的视频,以及使用VGGT等视觉工具进行伪标注的YouTube视频。团队探索了多种后训练方案、数据混合策略以及一系列工程细节,训练了从5亿到70亿参数不等的模型。结果显示出强大的空间推理能力——性能比团队的基座MLLM提升高达 30%。即使是最小的模型也表现得相当出色。已经将数据和模型全部开源。相信它们将在许多任务中发挥作用。但要明确一点——这仍然无法解决 VSI-Super 基准测试的挑战。而且他们越来越坚信:沿用大语言模型的老路来构建多模态模型,并非通往超感知的终极之道。(其实就是LeCun在多个场合下所说的LLM并不会通向AGI。)全新原型,全新范式展望未来,团队正在开发一种全新原型——团队称之为「预测性感知」。在这篇论文中引用了大量来自认知科学和发展心理学的研究成果。越是深入研读,就越为人类和动物的感知能力而惊叹。人类的视觉系统拥有极高的带宽,却又有着惊人的效率。每只眼睛的600万个视锥细胞可以传输约1.6 Gbit/s的数据,然而大脑仅用约10 bits/s的信息来指导行为。大部分感官数据都被过滤和压缩,整个过程都在自动运行——你甚至毫无察觉。人类的大脑是如何做到这一点的?一个主流理论认为:你的大脑在后台运行一个「预测性世界模型」来进行感知,它不断地预测未来,并将其与实际发生的情况进行比对。如果预测误差很小 → 说明一切尽在预料之中,可以忽略。如果预测误差很大 → 这就是「惊异」,大脑会集中注意力,并更新记忆。目前的大语言模型中,没有任何与之相当的机制。为验证这一想法,团队在Cambrian-S模型之上,训练了一个潜在帧预测 (Latent Frame Prediction, LFP) 模块。(过去人类模仿鸟类、蝙蝠发明了飞机和超声波,这次AI要模仿人类了)团队在推理过程中估算「惊异度」,并将其应用于两个方面:由「惊异度」驱动的记忆管理 —— 压缩或跳过无意外的帧,将计算资源集中在有意外的帧上。 由「惊异度」驱动的事件切分 —— 利用「惊异度」的峰值来检测事件边界或场景变化。通过利用这个内部预测模型提供的信号,已经在空间认知任务上看到了喜人的性能提升。这目前只是一个简化的预测性世界模型原型——但仅凭这一机制,小模型就在VSI-Super评测基准上超越了Gemini。谢赛宁说虽然这篇论文很长,但保证——其中有很多团队认为非常有趣的细节。如果你也在研究视频多模态模型,那么这篇论文很值得一读。
文章原文
