index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文深入探讨了人工智能领域备受瞩目的“世界模型”概念。文章从心理学和物理学的名言出发,将世界模型分为表征世界模型和生成世界模型两大类。表征世界模型旨在理解和预测世界的抽象原则,包括生物大脑的心智模型、视觉和语言为中心的潜在空间预测。生成世界模型则侧重于生成和模拟世界的具体表现,分为基于规则的模拟(如游戏引擎)和数据驱动的生成(如视频模型)。文章详细阐述了各类模型的原理、代表性工作及其在人工智能发展中的重要意义,为理解AI的未来发展方向提供了清晰的框架。
🧠 **心智模型与表征世界模型:** 文章指出,人类大脑的心智模型是表征世界模型的一个典型代表,它不追求像素级的逼真模拟,而是通过抽象原则和概念来理解和预测世界。例如,在骑自行车时,大脑会模拟“摔倒”或“安全通过”等抽象结果,而非具体物理过程。这种模型注重概率性、有限采样和概念近似,以高效地进行预测和决策。
👁️ **视觉和语言中心的潜在空间预测:** 表征世界模型还包括视觉和语言两个方向。视觉模型通过自监督学习将高维视觉数据压缩到低维潜在空间进行预测,如V-JEPA/DINO-World。语言模型(LLM)则基于海量文本知识构建世界模型,通过自回归生成预测未来内容。尽管LLM在对话上表现出色,但其世界模型被认为是碎片化、局部且不连贯的,依赖外部提示组织知识。
🎮 **生成世界模型:规则与数据驱动:** 生成世界模型致力于生成和模拟世界的具体表现。基于规则的模拟(如游戏引擎)通过人类预设的明确、固定规则来驱动,具有自上而下、确定性的特点,适用于游戏、动画等领域。数据驱动的生成(如视频模型Sora)则从海量数据中自下而上学习规律,行为具有概率性和涌现性,正逐渐成为“世界模拟器”,支持交互和记忆功能。
🧩 **世界模型的融合与发展:** 文章强调,表征世界模型和生成世界模型并非相互排斥,而是可以相互融合。生成模型通常需要表征模型作为基础。同时,生成世界模型内部的基于规则和数据驱动的方法也可以结合。这种融合与交叉是未来AI发展的重要方向,旨在构建更全面、更强大的世界模型,推动具身智能、自动驾驶等领域的发展。
2025-10-30 17:33 广东

注:「世界模型」(World Model)的热度,从年初开始持续至今。这个概念也已经横跨具身智能、自动驾驶、游戏、视频生成等领域,逐渐成为了 AI 领域下一个竞争焦点。有人说它是通往 AGI 的最短路径,有人说它是实现自动驾驶的终极答案,那么世界模型究竟是什么样的存在?本文来自于知乎作者 xintao ,AI 科技评论经授权后,编辑发布。我们先从两句名言出发,了解这个超级词汇的起源。一句话是来自心理学家 Kenneth Craik 1943在《解释的本质》中说的话:The main function of the mind is to be a model of the world or a part of it —— 心智的主要功能,是成为世界或其一部分的模型。这句话是“心智模型(Mental Model)”理论的基石,也可以说是当前AI中讨论“世界模型”的思想源头。另一句话是来自物理学家 Richard Feynman ,据说是在他1988年去世后,人们在他黑板上发现的:What I cannot create, I do not understand. —— 我若无法创造,便不能理解。这句话被生成式模型广泛地引用。选择它们,是因为它们,分别代表了后面要介绍的两大类世界模型——表征世界模型(Representation World Model)和生成世界模型(Generative World Model)。
首先,需要回答什么是世界模型?虽然当前大家讨论得比较多,相关工作最近也如雨后春笋般地出来,但直到现在仍旧没有一个清晰且被大家广为接受的定义。之前大家讨论比较多的是 Yann LeCun 24年在推特上的帖子。(https://x.com/ylecun/status/1759933365241921817)简单地理解,可以如下图所示。当给定现在的状态 S(t) 和动作 A(t) ,预测下一个状态 S’(t+1) 。通常来说我们也会从外部世界接受输入或者观察 O(t) ,来更新内部状态。预测的状态可以是抽象的表征,类比我们的大脑想象未来。或者是具象的表征,比如像素 pixels ,就像视频模型预测未来合理的新的视频帧一样。除了这个宽泛的定义,我们还要给世界模型做个分类。从最终的目的出发(也可以是状态的不同表征方式),我们可以把世界模型划分为两大类:一大类是:表征世界模型(Representation World Model)一大类是:生成世界模型(Generative World Model)
先说表征世界模型,它的目的是理解并预测世界的抽象原则,并不需要去生成逼真的像素。它的关键词是理解和预测,以及抽象原则。表征世界模型中一个典型代表,就是我们脑海中的心智模型 Mental Model ,它是我们大脑中对于外部现实的内在表达,能够从外部世界中理解并总结出概念和关系,抽象出原则,而并不会对每一处细节进行模拟。(更多的关于我们大脑如何模拟和心智化这个世界的,推荐阅读《智能简史》)其次简单介绍下生成世界模型,它的目的是生成并模拟世界的具体表现。正如费曼这句话说的,What I cannot create, I do not understand. 当我们能够生成和模拟世界的具体表现的时候,也蕴含着我们对于世界的理解。生成世界模型的一个典型代表是视频世界模型。Sora 24年推出,它能够生成我们世界的一个片段,在那个时间点,雪景街头的三维一致性,行人来往的合理性,镜头在空间的穿梭,无一不让人遐想其宣传的 World Simulator,世界模拟器。25年 Genie 3 更新,视频生成模型继续往前发展,不仅有了交互,还有了记忆,让人们更加觉得视频视觉模型的可实现性。你可以在生成的视频中控制方向,并且记住你曾经访问过的地方,犹如在世界中游走。说明:这里的“生成式”(generative)指的是模型创造世界具体表现(例如像素、音频)的能力。这有别于更广泛的术语“生成式 AI ”(Generative AI),后者也包括像 LLMs 和 JEPA 这样的模型,而在这里它们被归类为表征模型。
表征世界模型包含三类:1)生物大脑中的预测,比如我们人类和动物的心智模型(Mental Model);2)视觉为中心的潜在空间预测,比如 V-JEPA/DINO-World ;3)语言为中心的潜在空间预测,比如 LLM 。(当然 LLM 是否是世界模型,最近也有很多争论,后文会简要说明。(特别要说明的是,这个分类是修改自 Xun Huang 的 blog :https://www.xunhuang.me/blogs/world_model.html。推荐大家去读这篇 blog ,有很好的内容。)A1 生物大脑中的预测第一类是生物大脑中的预测,典型代表就是我们脑海中的心智模型(Mental Model),它是我们对于外部现实的内在表达。在我们大脑中进行的模拟是抽象的,更关心概念上的结果(比如下图中的人“我会不会摔倒?”),而不是摔倒本身的具体细节,物理过程是如何的。如图所示,当我们骑自行车的时候,在我们脑海中会生成一个骑自行车的抽象场景,这是我们根据观察 O(t) ,得到当前的状态 S(t) 。当我们“想象”前方有一块石头时,我们的大脑会模拟不同的动作 A(t) ,带来新的状态 S'(t+1) 。例如,我们可以假想选择“快速骑过去”这个动作,大脑会预测“摔倒”这个可能的未来。我们也可以选择“推车走过去”,大脑则会预测“安全通过”的未来。这些预测并没有真实发生,它们完全是在大脑中进行的模拟。另外一个有趣的论文工作是介绍我们大脑中的直觉物理引擎(Intuitive Physics Engine, IPE)。它是一个心智模型,或者说心智模型的一部分,它允许人们模拟物理场景随时间的演变 。这篇论文有以下几个有趣的发现,IPE具有以下几个显著的特点:概率性 (Probabilistic): 它不会像游戏引擎那样产生一个唯一确定的结果,而是对未来可能发生的多种结果产生一个信念分布有限采样 (Limited Sampling): 我们的决策通常只基于少数几次(约2-4次)的心智模拟,而不是进行详尽的推演概念近似: 为了节省计算资源,IPE 会采用一些原则性的“捷径” 。比如,在判断碰撞时,使用物体简化的“身体”(如凸包)而非其复杂的视觉“形状”;或者将物体分类为“静态”(如地面)和“动态”,以避免不必要的计算右图形象地展示了这一过程:人们通过多种感官(左侧的“Perception”)来感知场景,并形成一个世界的内部表征(中间的“Internal Representation”),这个表征是以物体为中心,并包含了关于物体位置、范围和属性的概率信息。直觉物理引擎利用这个表征来随机模拟世界未来的多种可能状态(右侧的“Simulation”),这些模拟的结果最终被用于认知系统进行预测和决策 。A2 视觉为中心的潜在空间预测当前的这类方法遵循一个相似的范式:首先,通过自监督学习(Self-Supervised Learning)将高维的视觉数据(如视频帧)压缩到一个抽象的、低维的潜在空间中;再学习基于过去的潜在特征和动作来预测未来的潜在特征。这么做的好处是,模型可以在一个更简洁、更具语义的抽象空间里进行预测和推理,而不是在复杂的像素空间里直接操作。各种不同方法最核心的区别在于:这个潜在空间是如何构建的。如下图所示,不同的模型采用了不同的自监督学习方法来构建这个潜在空间。例如,V-JEPA 2采用了JEPA 的思路,DINO-World则基于DINO,而经典的“World Models”论文则使用了 VAE 。在获得潜在空间后,模型就可以在这个抽象空间中更高效地进行预测,从而理解和预判视觉世界的动态变化。经典的“World Models”论文以经典的“World Models”这篇论文为例,它为在世界模型中训练强化学习智能体提供了一个重要的框架。这篇论文的核心思想,是它在 Introduction 中所引用的这段话:我们脑海中对世界的印象,仅仅是一个模型。没有人会在脑海中想象出整个世界、政府或者国家。他拥有的只是“一些被选择的概念,以及它们之间的关系”,并用这些来表征真实的系统。这正点明了这类世界模型的核心——它并非对真实世界像素级复刻,而是一种抽象和压缩的表征。“World Models” 使用一个大的无监督模型(V+M)来解决困难的“世界理解”问题,然后在一个由该模型生成的“梦境”中,用一个非常小的控制器(C)来学习如何行动,从而解决 credit assignment 难题。 它巧妙地将复杂的任务进行了分解:把从原始像素中理解世界动态这一困难任务,交给了不需要奖励信号(non-RL)的无监督世界模型(V+M)来完成,而后者有 dense 且很强的监督学习信号控制器 C 的任务变得简单,它只需要在一个参数量少、特征质量高的抽象潜在空间中进行学习,极大地提升了训练效率LeCun 的自主智能Yann LeCun 提出了一个受生物学启发的自主智能(Autonomous Intelligence)框架,其核心在于通过一种名为 JEPA 的无监督学习方法来构建世界模型。它有六个主要模块,这里不深入展开。有趣的是,这六个模块都有生物学的对应,当我在读《智能简史》的时候,很容易将它们对应起来。下面就是我整理的一个简单对应。我觉得挺有道理的,在这一点上,我感觉 LeCun,Sutton 是类似的,都是受到生物学的强烈启发。V-JEPA 2V-JEPA 2 的核心思想是在特征空间中进行掩码预测,而不是在像素空间中进行。这样做的好处是,模型学习到的特征会更加抽象和鲁棒。主要分为两个阶段:第一阶段: 模型在视频数据上使用“掩码-预测”的方法进行预训练。它会学习如何填补视频中被遮盖掉的部分,从而训练出一个强大的视觉 encoder。第二阶段: 第一阶段训练好的 encoder 被冻结。然后,模型会训练一个基于动作条件的预测器(predictor)。这个预测器会根据过去的视频帧和特定的动作,来预测未来的视频帧。DINO-WorldDINO-World 的核心思想是复用一个已预训练好的视觉模型 DINOv2 ,从而让模型可以将学习的重点完全放在理解视频中的动态变化上。主要分为三个阶段:第一阶段: 直接采用一个通过自监督学习(SSL)预训练好的 DINOv2 编码器第二阶段: 冻结 DINOv2 编码器,然后在大量无标签的视频数据上,通过自监督的方式训练一个预测器。这个预测器学习根据过去的视频特征来预测未来的视频特征第三阶段: 在带有动作条件的数据上进行训练,使模型最终能够理解动作是如何影响未来的视频帧总结:可以看到以视觉为中心的潜在空间预测,以上几个主要的工作都是一个相同的范式,不同的是采用不同的 SSL 方法学到了不同的表征空间。A3 语言为中心的潜在空间预测最后,我们来探讨表征世界模型的第三类:以语言为中心的潜在空间预测。这里的一个核心问题是:LLM 是世界模型吗?从形式上来说,LLM 是符合世界模型定义的。它的独特之处在于,其对世界的理解和表征完全建立在海量的文本知识之上。在其自回归(auto-regressive)的生成过程中,它可以接收上下文作为外部观察(Observation),并把用户的提示(prompt)视为一个动作(Action)或新的观察。这个输入会促使模型转变其内部状态,从而对未来做出预测,输出新的内容。这个过程与世界模型从当前状态 S(t) 和动作 A(t) 出发,预测下一个状态 S'(t+1) 的基本范式是一致的。下面是一个前面提到过的自行车的例子,当我们通过文本给他两种不同的 action 时:如果你不减速,继续骑过去会发生什么?如果你下车,推着自行车过去会发生什么?LLM 会详细输出这两种选择会导致的截然不同的后果,甚至会详细到牵引力、动量和重心的变化。这和上面我们在 mental model 提到的人脑中的假想和推演未来相比,不是很接近吗?但是,Richard Sutton 最近的访谈对“LLM 是否是世界模型”这一问题提出了一些批判性的观点。Sutton 的核心论点是:LLMs 学习的是对话的上下文,而非现实世界的法则。他认为,一个真正的世界模型应该具备以下能力:预测在真实世界中“将会发生什么”理解事件的动态变化、后果以及因果关系能从直接的经验中学习,并根据结果来更新自己的理解而目前的大语言模型实际上做的是:在给定的上下文中预测“一个人会说什么”通过模仿人类生成的文本中的模式来进行学习它们缺乏与外部世界的直接互动,也没有内在的目标来衡量自身行为的正确性根据 Sutton 的观点,尽管 LLM 在语言回答上表现出色,但它们并不符合一个真正“世界模型”的标准,它们模拟的是语言的表象,而非世界运作的内在机理。Sutton 说的很有道理。但从某个角度看,这正是 LLM 作为这一类世界模型的本质。LLM 是拥有一个零碎且不完整的 (fragmented and incomplete)的世界模型。但这个世界模型是局部的 (local)、稀疏的 (sparse)、和不连贯的 (incoherent)。以及它需要借助外部的提示 (external prompts) 才能够将其碎片化的知识连接和组织起来。那为什么会这样呢? 这可能是因为语言本身就是对世界的一种局部、稀疏且不连贯的描述。因为 LLM 完全依赖于语言数据进行学习,它自然就继承了语言本身的这些局限性,导致其构建的世界模型也是碎片化的。
生成世界模型包含两类:1)基于规则的模拟,比如游戏引擎,CG 学科以及显式 3D 中更多研究的是这类;2)数据驱动的生成,比如视频生成模型。其他可能还有细分类,但大家主要关心的就是这两大类。B1 基于规则的模拟第一类是基于规则的模拟。这是一种经过时间考验并取得了巨大成功的方法。这种方法长远来看依旧不可替代,有很多地方依旧会需要他们,而且他们会继续发展。可能有点类似手机出来后,单反相机依旧有它的作用,而且将继续发展。它在许多领域都有着广泛的应用,下面的例子是摘自 GAMES101 的 PPT。视频游戏 (Video Games): 游戏世界中的物理交互、角色行为等都由预设的规则和引擎驱动。动画 (Animations): 动画电影(如《疯狂动物城》)中的角色动作和场景变化,也依赖于复杂的渲染和模拟规则。设计 (Design): 在室内设计、建筑设计等领域,通过模拟光照、材质等来预演最终效果。可视化 (Visualization): 在科学、工程、医学等领域,用于将复杂数据转化为直观的视觉图像。以游戏引擎(Game Engine)为例,可以说明基于规则的模拟(Rule-based Simulation) 的几个核心特点:自上而下 (Top-down): 它的规则是由人类自上而下、预先定义好的。明确且固定 (Explicit and fixed): 这些规则是人类设计的、明确且固定的,例如游戏中明确定义的重力规则和碰撞规则。确定性 (Deterministic): 系统的行为是确定且可预测的,在相同的输入下总会产生相同的结果。显著简化 (Significant simplification): 它对现实世界进行了极大的简化和抽象,只捕捉系统的核心逻辑,而忽略大量不相关的细节。例如,游戏引擎通常不会去追踪场景中每一片叶子或每一根草的状态和运动。有一个概念——数字孪生非常有关联,数字孪生的例子有英伟达的 Omniverse 。这是基于规则的模拟在工业领域中的一个重要应用。数字孪生技术可以为现实世界中的实体工厂创建一个精确的数字副本。如下图的 youtube 视频展示的,富士康利用 Omniverse 来构建其机器人工厂的数字孪生。通过这项技术,他们可以在这个虚拟的工厂中优化布局,以及加速机器人训练。这使得在实际部署之前,就能够在高度逼真的模拟环境中对整个生产流程进行测试、验证和优化。B2 数据驱动的生成与基于规则的模拟相反,数据驱动的生成方法具有以下特点:自下而上 (Bottom-up): 它是从数据中自下而上地学习并涌现出模式无预设规则 (No predefined rules): 它不依赖任何预设的规则,而是通过学习海量数据来掌握世界的规律 。例如,它并不懂牛顿运动定律,但在看了一百万个苹果下落的视频后,它就“知道”了苹果是会往下掉的概率性与涌现性 (Probabilistic and emergent): 它的行为是概率性的,并且会涌现出复杂的、未被明确编程的行为正如 OpenAI 关于 Sora 的描述中所说,视频生成模型正在成为“世界模拟器”(world simulators)。视频生成,特别是可交互的生成式视频,正在解锁视频世界模型的无限可能性。从 Genie 2 到 Genie 3 ,从交互到记忆,我们可以看到模型不仅能生成高质量的视频,更在逐步实现与生成世界的交互。用户不再仅仅是旁观者,而是可以成为虚拟世界中的参与者。可交互生成式视频(Interactive Generative Video, IGV)我们的 Survey 工作 A Survey of Interactive Generative Video 也较早思考了可交互生成式视频的五大构成部分,可交互生成式视频是一大类主要的视频世界模型。而 IGV 所展示的模块也正是视频世界模型的必要模块。生成(Generation): 能够以流式、实时和多模态的方式处理输入,并输出多模态控制 (Control): 包括对世界中的导航控制和交互控制动态 (Dynamics): 模拟物理规律并支持对物理规律的调整记忆 (Memory): 拥有静态记忆和动态记忆智能 (Intelligence): 具备推理和自我演化的能力,是系统更高阶的特性
最后,对世界模型的分类做一个总结。本文主要介绍了下面这张图。还有两个重要的补充:上面内容是为了分类,但实际上很多内容是融合与交叉的。生成世界模型是需要表征世界模型作为基础,无论是显式地包含或者隐式的包含。所以 Video World Model 和 V-JEPA/DINO-World ,以及 LLM 作为世界模型并不是争锋相对的,他们可以是相辅相成的在生成世界模型内部的分类中,基于规则和数据驱动这两种方法也不是水火不容的,它们在短期内有结合的方案,这一类并没有列在这里。【参考】https://www.xunhuang.me/blogs/world_model.htmlHa, David, and Jürgen Schmidhuber. "World models."Intuitive physics as probabilistic inference: https://cicl.stanford.edu/papers/smith2023probabilistic.pdfV-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and PlanningBack to the Features: DINO as a Foundation for Video World ModelsA path towards autonomous machine intelligenceA Survey of Interactive Generative Videohttps://openai.com/index/sora/https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
阅读原文
跳转微信打开