新智元 2025-11-10 13:11 北京

🧠 **超感知是AGI的关键**:论文核心观点认为,真正的超级智能(AGI)并非仅依赖于语言模型,而是必须具备“超感知”能力,即能够像人类一样主动体验、预判和组织感官信息,这超越了当前多模态大语言模型的能力范畴。
🎥 **视频是感知建模的最佳媒介**:研究团队强调,视频是模拟人类体验世界最直接的方式,是理解空间关系、物体运动和环境变化的理想数据源。通过分析视频中的空间信息,AI可以更深入地理解现实世界。
📊 **挑战现有基准与LLM局限**:文章指出,许多现有的视频基准测试可能无法真正衡量AI的感知能力,有时仅需单帧图像或文本就能获得高分。顶尖LLM在处理长视频、空间记忆和持续计数等任务上仍显不足,暴露了其在真实空间认知和泛化能力上的缺陷。
💡 **全新范式:预测性感知**:为解决LLM的感知不足,团队提出了“预测性感知”的新范式。通过构建内部世界模型,AI能预测未来状态并与实际输入比对,利用“惊异度”驱动记忆管理和事件切分,从而更高效地处理感官信息,即使是小型模型也能在特定基准上超越Gemini。
🌐 **开放科学与开源贡献**:该研究不仅发布了Cambrian-S模型系列和VSI-Super基准,还开源了相关的VSI-590K数据集和一套模拟器,旨在推动AI在感知建模领域的研究进展,鼓励开放合作,共同探索通往AGI的道路。
新智元 2025-11-10 13:11 北京
新智元报道
编辑:定慧 好困
【新智元导读】当AI不再对着文字死记硬背,而是学会在视频里对人类世界进行超感知,这套全新范式会不会撬开AGI的大门?
谢赛宁说关于对这个问题的思考,甚至让他们重构了此前基础的研究。去年,他们就构建了Cambrian-1,这是针对图像多模态模型的一次开放性探索。扩展阅读:LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V但之后团队并没有直接扩大规模去构建Cambrian-2或3,而是停下来反思:真正的多模态智能意味着什么?大语言模型范式对于感官建模而言,真的合理吗?以及,为什么人类的感知如此毫不费力、如此直观,却又如此强大?一些根本性的东西缺失了。简单说就是,这三位巨头认为LLM目前虽然能力很强,但依然无法像人类一样感知这个世界,既然无法感知,代表LLM是有缺陷的。谢赛宁在博客中表示,在构建出「超感知」之前,不可能真正构建出「超级智能」。那么,什么是超感知 (supersensing)?在团队看来,「超感知」并非指更高级的传感器或更好的摄像头。它关乎一个数字生命如何真正地体验世界——吸收源源不断的输入流,并从中学习。超感知是智能的一部分,正如眼睛是大脑触及外部世界的那一部分。解决编程和数学问题时不需要感知能力。但身处现实世界中的AI智能体,则需要感官建模!谢赛宁还引用了卡帕西所说,感官建模或许就是AI智能体所需要的一切。视频空间超感知如何让AI能够真正地感知人类的世界?为了更具体地阐述,团队认为以下的分类法能够清晰地描绘出一条演进路径——从团队当前拥有的技术,到团队下一步真正需要构建的目标。0. (纯语言理解)不具备感官能力;推理仅限于文本和符号。当前的多模态大语言模型虽已超越此阶段,但仍残留着其偏见的痕迹。1. 语义感知将像素解析为物体、属性和关系。这对应于多模态大语言模型目前强大的「看图说话」能力。2. 流式事件认知处理实时的、无限制的数据流,同时主动地解读并响应持续发生的事件。这与当前将多模T态大语言模型打造为实时助手的努力方向一致。3. 隐式3D空间认知将视频理解为三维世界的投影。智能体必须知道「什么东西」在「哪里」,它们之间「如何关联」,以及空间布局「如何随时间变化」。当今的多模态模型在这一方面的能力仍然极其有限。4. 预测性世界建模大脑通过基于先验期望来预测潜在的世界状态,从而进行「无意识推断」。当前的多模态系统缺乏一个能够预测未来状态、保持长期记忆或进行推理和规划的内部模型。要研究这一切,视频是最佳的媒介——它是人类每天体验世界的方式,是人类生活经验的直接投影。如何判断模型达到超感知能力首要问题(始终)是基准测试。谢赛宁说他也很钟爱多模态大语言模型,但若缺乏开放和批判性的审视,团队可能会在错误的方向上进行优化。许多视频基准测试甚至不需要真正的感知能力;正如团队所展示的,仅仅依靠单帧图像或字幕就能获得高分。谢赛宁也提到了现在的玩法是:科技公司构建强大的语言模型 → 基准测试奖励的是模型的文本记忆能力 → 模型通过扩大LLM的规模获得更高分数 → 其他公司纷纷效仿这个循环不断持续,直到团队意识到,召唤出的「幽灵」在感知能力上,仍然落后于一只猫,或一只松鼠。莫拉维克悖论再次应验:对人类而言毫不费力的感知能力,对模型来说却难如登天。这不仅仅是一个科学问题。真正的价值来自于那些能够在现实世界中感知和行动的模型:从工厂到农场,再到医院……从机器人到那些人们期望能作为个人助理佩戴的AI眼镜。仅靠大语言模型是无法实现这一切的。超级智能,始于超感知。超感知的关键一环是视觉空间智能谢赛宁团队之前有一个VSI-Bench基准用于测试空间推理,但其中的视频太短,任务也过于简单。所以,团队打造了一个看似更简单、实则更难的版本:VSI-Super。其中有两个任务。· 任务1:VS长时程空间记忆。团队使用扩散模型编辑视频,插入一些不合上下文但视觉上融合的物体(而不是随机的「大海捞针」式物体)。· 任务2:VSC持续计数。在变化的视角和场景下进行持续计数……模型只需数出它们所看到的东西。一个测试考察对物体顺序的记忆力,另一个则考察计数能力。任务简单,可流式处理——还能有比这更容易的吗?然而,顶尖的大语言模型却纷纷败下阵来。而且,这不仅仅是长上下文(long context)的问题。为什么?谢赛宁解释道(其实还是验证了莫拉维克悖论):视频可以任意长。这对于对人类来说,这很简单。人类的感官能处理「无限的Token」。这虽然是一个有损的过程,但人们能记住几天甚至几周的经历。模型却做不到。它们(LLM)缺乏真正的空间认知和泛化能力。人类可以一直数下去,而模型不行。以顶尖的Gemini 2.5模型为例,它只能数到几十个。即使视频更长、物体更多,它也会停止计数。 这充分暴露了其训练数据的分布特点。当然,你可能会问——这难道不只是一个数据或规模化的问题吗?就像Scaling Law一样,继续增加数据量和增大训练量,不就可以解决吗?谢赛宁表示,部分是因为规模这个原因。但这也是他们构建全新的Cambrian-S视频多模态大语言模型(MLLM)系列的原因。团队想要挑战当前范式(LLM)的极限。谢赛宁、李飞飞和LeCun,他们认为数据和规模化对于超感知至关重要(但仅有这些还不够)。核心问题在于:目前缺乏真正用于训练空间认知的有效数据。所以团队构建了一个名为VSI-590K的数据集。它包含59万个训练样本,来源包括:带有3D标注的室内环境第一人称探索视频、来自模拟器的视频,以及使用VGGT等视觉工具进行伪标注的YouTube视频。团队探索了多种后训练方案、数据混合策略以及一系列工程细节,训练了从5亿到70亿参数不等的模型。结果显示出强大的空间推理能力——性能比团队的基座MLLM提升高达 30%。即使是最小的模型也表现得相当出色。已经将数据和模型全部开源。相信它们将在许多任务中发挥作用。但要明确一点——这仍然无法解决 VSI-Super 基准测试的挑战。而且他们越来越坚信:沿用大语言模型的老路来构建多模态模型,并非通往超感知的终极之道。(其实就是LeCun在多个场合下所说的LLM并不会通向AGI。)全新原型,全新范式展望未来,团队正在开发一种全新原型——团队称之为「预测性感知」。在这篇论文中引用了大量来自认知科学和发展心理学的研究成果。越是深入研读,就越为人类和动物的感知能力而惊叹。人类的视觉系统拥有极高的带宽,却又有着惊人的效率。每只眼睛的600万个视锥细胞可以传输约1.6 Gbit/s的数据,然而大脑仅用约10 bits/s的信息来指导行为。大部分感官数据都被过滤和压缩,整个过程都在自动运行——你甚至毫无察觉。人类的大脑是如何做到这一点的?一个主流理论认为:你的大脑在后台运行一个「预测性世界模型」来进行感知,它不断地预测未来,并将其与实际发生的情况进行比对。如果预测误差很小 → 说明一切尽在预料之中,可以忽略。如果预测误差很大 → 这就是「惊异」,大脑会集中注意力,并更新记忆。目前的大语言模型中,没有任何与之相当的机制。为验证这一想法,团队在Cambrian-S模型之上,训练了一个潜在帧预测 (Latent Frame Prediction, LFP) 模块。(过去人类模仿鸟类、蝙蝠发明了飞机和超声波,这次AI要模仿人类了)团队在推理过程中估算「惊异度」,并将其应用于两个方面:由「惊异度」驱动的记忆管理 —— 压缩或跳过无意外的帧,将计算资源集中在有意外的帧上。 由「惊异度」驱动的事件切分 —— 利用「惊异度」的峰值来检测事件边界或场景变化。通过利用这个内部预测模型提供的信号,已经在空间认知任务上看到了喜人的性能提升。这目前只是一个简化的预测性世界模型原型——但仅凭这一机制,小模型就在VSI-Super评测基准上超越了Gemini。谢赛宁说虽然这篇论文很长,但保证——其中有很多团队认为非常有趣的细节。如果你也在研究视频多模态模型,那么这篇论文很值得一读。
参考资料:
https://cambrian-mllm.github.io/cambrian-s/
https://arxiv.org/abs/2511.04670
https://x.com/sainingxie/status/1986685042332958925
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑