神经网络学习世界模型的条件探讨

原创章天任等 2025-10-28 14:04 北京

世界模型的“可学条件”是什么？

©作者 | 章天任、陈冠宇、陈峰

单位 | 清华大学 VIPLAB、千诀科技

邮箱 | trzhang@mail.tsinghua.edu.cn

相信 2025 年 AI 领域的大家都或多或少听说过“世界模型”（world model）——随着近两年大模型能力的不断提升，在许多方面达到甚至超过人类水平，我们对大模型的期望也水涨船高。

其中，“世界模型”就反映了一个重要期望：大模型能不能像人一样理解世界/预测世界？

近年来，在大语言模型（LLM）、强化学习（RL）、视频生成（video generation）等 AI 的各个子领域都涌现出了相当数量的世界模型相关研究。

然而，一个有些吊诡的现状是：“世界模型”这个词本身还没有一个公认的严格定义，这也就导致不同研究中“世界模型”的含义往往不尽相同，在讨论时难免产生混淆与误解。

2025 年 4 月，笔者恰好参加了 ICLR 2025 上的首届 world models workshop，现场可谓众星云集：Chelsea Finn、Stefano Ermon、Jürgen Schmidhuber、David Ha、Jeff Clune、Kun Zhang……

有趣的是，在 workshop 组织的 panel 上有个问题恰好就是“你所理解的 world model 是什么？”，而在场嘉宾们的回答也不尽相同。

可见，在世界模型这一概念已得到了广泛关注（也伴随着许多 hype）的今天，大家在“什么是世界模型”、“什么时候可以说神经网络学到了世界模型”等最基础的问题上仍未达成共识。

在这一背景下，本文拟对当前 AI 不同领域下的世界模型定义进行梳理，并介绍我们发表在 ICML 2025 上的工作：“When Do Neural Networks Learn World Models?”。

我们的工作同时也在 ICLR 2025 world models workshop 上作了 oral presentation，并获得了 Outstanding Paper Award。简而言之，我们在这篇工作中：

首次为学习世界模型给出了一般数学定义；

探讨了学习世界模型的关键难点：不可辨识性；

在理论层面研究了神经网络的归纳偏置（inductive bias）和世界模型间的联系，并给出了一类学习世界模型的充分条件：当模型具有对“简单解”的偏好时，世界模型具有可辨识性。

我们希望通过数学定义和分析框架的引入，让“世界模型”成为一个可以被严谨论述和研究的问题，也欢迎大家与我们共同探讨。

论文标题：

When Do Neural Networks Learn World Models?

论文链接：

https://arxiv.org/pdf/2502.09297

背景

本节先对 AI 领域现有的几种常见的 world model 定义进行简要归纳。

RL 领域的 world model：在机器学习领域，最先 popularize “world model” 这一概念的工作可能是 David Ha 和 Jürgen Schmidhuber 在 2018 年题为 “World Models” 的论文 [1]。

这篇工作做的内容是 RL，其中的 “world model” 本质上就是 “model-based RL” 中的 “model”，也即一个能够根据智能体的历史状态和动作预测未来状态的预测模型。

在具体实现时，[1] 中的 world model 实际上又可以分为两个模型：第一个模型学习智能体历史状态的表征，第二个模型在表征空间进行预测。后续 RL 和 robotics 领域中的相关工作大多也继承了这样的命名方式。

认知科学领域的 mental model：正如 [1] 中所提到的，以上这种 world model 设计一定程度上受到了认知科学中人脑的 mental model（有时被译为“心智模型”）的启发。

Mental model 的核心是 “an internal representation of external reality” [2]，也即“对于外部真实世界的内在表征”。这种表征可以被进一步用来做不同的下游任务，例如 reasoning 和 decision-making。

容易看到，这个定义放在机器学习的 context 下正对应我们更加熟知的 representation learning。

LM/LLM 领域的 world model：这类工作中对 world model 的定义和 mental model 比较接近，它们的主要内容就是去检查从 LM/LLM 学到的内部表征中是否真的能解码出环境状态或者人可以理解的高层语义，比如时间、空间、语句的真假等。

比较著名的工作包括 [3] 和 [4] 等。因为这类工作的核心都是对 LM/LLM 中间表征的可解释性研究，所以其中的 world model 也常常被写作 world representations。

Video generation 领域的 world model：最后，近来再次带火了 world model 这一概念的是 video generation 领域的一系列工作，包括 OpenAI 的 Sora、DeepMind 的 Veo 等。

这类工作则将重心放在视频的“下一帧预测”上，潜台词是“根据已有的帧 / prompt 生成高质量视频 = 对真实世界进行建模”。类比 RL 里的 world model，这里相当于将视频帧直接作为智能体的状态来进行预测，而区别在于并没有显式建模智能体的“动作”。

更进一步地，近期的一些工作也探索了带有动作交互的 action-conditioned video generation，比如最近刚刚发布的 DeepMind 的 Genie 3，World Labs 的 Marble 和 Meta 的 V-JEPA2 [5] 等等。

作个小总结，我们可以发现，以上几种对 “world model” 一词的用法虽然在具体实现上有一定出入，但核心不外乎两点：“表征”和“预测”。

在机器学习的 context 下，前者对应用一个 “encoder” 去对原始的输入/状态做 representation learning，而后者对应用一个 “decoder” 去根据学到的 representation 对未来的输入/状态做 prediction，这两者也恰恰是对我们一上来提到的“理解世界”和“预测世界”的一种自然落地形式。

但是，敏锐的读者会立即意识到一个问题：难道所有在结构/功能上满足以上两个条件的模型都是 world model 吗？

显然，仅仅按照这个方式定义的 “world model” 是 trivial 的——在实际使用中，我们真正关心的还是模型输出结果的泛化性，而非模型是否仅仅在形式上符合 “world model” 的基本架构。

例如，只有当一个 video generation model 生成的视频完全符合物理规律而不出现低级错误，我们才会相信这个 model 确实“理解”了世界，并真正具有了 world model 的一些特点。

那么，什么才是“world model”的合理数学定义呢？我们认为，这里的关键在于需要对模型学到的表征进行刻画。

仍以 video generation 为例，同样在训练集上达到最小 loss 的模型可能是从数据中提取出了真实世界的物理规律，也可能只是“记住”了训练视频中的全部 pattern。虽然在训练 loss 上看这两个模型一样，但这两个模型实际所学到的 representations 却是完全不同的，而只有前者具备泛化性。这也就引出了我们的核心观点：

对 world model 的学习应该被定义为一种特殊的 representation learning。

如何从数学上定义世界模型？

到这里，就可以介绍我们对 world model 的 formulation 了。先直接上定义：

定义 1（world model）：假定观测数据通过隐变量经某个可逆变换生成，那么如果一个表征满足对任意和上的一个变换，有，那么我们就说表征在的意义上学到了 world model。

数学符号可能比较抽象，但归根结底，这个定义的核心包括以下两点：

1. 假设了真实数据是由一族隐变量经由一个（非线性）生成模型产生的；

2. 将 world model 定义为由观测数据恢复真实隐变量的 representation learning（可以注意到，当变换是恒等变换时，world model 就等价于学习生成函数的逆函数）。以下我们会分别对这两点进行解释。

首先，为什么要有个数据生成模型？答案是为了刻画真实数据中必然存在的结构性：尽管数据本身的维度很高，但其中的“核心语义”部分往往可以被一个更低维的隐向量描述。

以图片为例，可以认为隐变量反映了图片中物体的基本属性、物体间的空间关系和物理规律等，而我们实际看到的图片则是经过一个复杂的非线性函数进一步“渲染”（生成）出的。

一般地，我们有，这也就是为什么相比于“无结构”的白噪声，真实数据一般都有很高的可压缩性（compressibility）。

另一方面，将上述数据生成过程反过来看，如果模型能从中逆向恢复，或者说“辨识”（identify）出隐变量，我们就可以认为模型确实“理解”了“数据实际上是怎么产生的”，这和我们对于 world model 的心理预期是一致的。

实践上，使用作为的 representation 无疑也可以带来很强的泛化性——例如，从训练数据中显式提取出的物理规律可以被迁移到不同于训练分布的场景。

简而言之，我们的 world model 定义可被一句话总结为：

World model 就是对真实观测数据的“求逆”！

当然，精确的“求逆”在实际问题中往往是很难且无必要的，对下游任务最优的 representation 往往也不唯一：例如，同样是对真实世界的高度抽象，人使用的自然语言也不止一种。

因此，我们在定义中通过引入变换的方式对“精确求逆”（也即求）的需求进行了放宽。当前，也不能是任意复杂的变换，否则这个定义就再次变得 trivial 了，所以实践中我们希望来自于一个比较“简单”的变换族，例如线性变换。

熟悉 non-linear ICA 或 causal representation learning 的读者可能会觉得我们的定义比较眼熟：的确，从更大的视角看，我们的定义本质上隶属于隐变量学习（latent variable learning）的大框架，因此和其他假设了数据生成模型的 setting 都有相似之处。

但一个重要的不同是：我们这里没有对隐变量的具体结构（也即数据的结构）进行进一步的假设。我们很快会看到，这一点正反映了我们考虑的 world model 学习与已有隐变量模型的重要区别。

世界模型学习的核心困难：可辨识性

在我们给出 world model 的定义后，学习 world model 的难点也就自然出现了：尽管真实数据具有高度结构性，但其具体的生成模型我们无从知晓，也无法对隐变量进行直接观测，那么怎么能保证模型学出的 representations 和隐变量之间的关系呢？

数学上，这恰恰对应了隐变量建模领域的一个经典问题，也即隐变量的可辨识性（identifiability）：如果存在一种算法让我们可以从观测数据中唯一恢复出隐变量，那么我们就说隐变量是可辨识的。

这意味着，只要真实数据的生成模型隐变量满足可辨识性，那么学到 world model 就是有可能的。

然而，可辨识性往往需要依赖更多条件。实际上，我们已经知道：如果不对隐变量的结构或数据生成函数的形式进行限制，那么是不可辨识的 [6]。

原因在于，此时对于完全相同的观测变量分布，可以存在（无数个）本质上不同的隐变量和数据生成函数与之对应，而我们无法判断其中哪一个是“真实”的生成模型。

为了解决不可辨识性问题，已有的方法往往会对或的结构进行假设，例如假设为线性函数，假设的不同维度互相独立（non-linear ICA），或假设不同维度之间的关系可被一个（可干预的）因果图表出（causal representation learning）等等。

然而，加入数据层面的额外结构假设尽管有助于在理论上获得可辨识性，但也限制了方法的适用范围。

另一方面，我们知道现有大模型的预训练范式实际上“大道至简”，以简单、可扩展的代理任务为主，看起来并不会直接满足上述对数据结构的具体假设。

从已有的观点看，通过这种方式训练出的大模型应当无法保证 world model 的可辨识性。然而，最近却有不少工作表明，大模型并不是“随机鹦鹉”，而确实可以 non-trivial 地学到一些数据生成过程的 representations [3]，且不少 representations 甚至还可以和人类抽象出的高层语义直接对应 [4]。

这个看似矛盾的结果自然引出了一个问题：是否还存在不依赖于观测数据结构的隐变量辨识条件可以被模型利用，从而实现 world model 的可辨识性？以下，我们将尝试对这个问题进行回答。

简单性偏置与布尔模型

为了回答上面的问题，让我们先回到可辨识性本身。上一节中已经提到，可辨识性的“冤家”是“多解性”，也即给定一个观测，存在多个不同的隐变量可以与之对应。怎么去除多解性呢？

这里需要注意，因为这些不同的隐变量都可以“解释”观测数据，所以是我们无法通过模型的训练 loss 来判断模型到底学到了哪个解的。

为了解决这个难题，我们的思路是利用模型自身的归纳偏置（inductive bias）：对参数量很大的神经网络来说，完成一个任务的解往往本身就不唯一。

已有很多工作表明，神经网络并不会在所有可完成任务的解中“随机”挑选一个，而是会带有“偏好”地挑选其中的一些解。这种没有被显式体现在 loss 函数中的归纳偏置可以起到进一步“过滤”多解的作用，也被认为是深度网络能够泛化的关键原因之一 [8]。

在本文中，我们考虑一种比较普适的神经网络归纳偏置：简单性偏置（simplicity bias）。顾名思义，简单性偏置是指神经网络会倾向于学到所有可以解决任务的解中较为“简单”/低复杂度的解。

以上图（图源自 [9]）为例，我们可以发现随着训练的进行，SGD 往往倾向于先学出低复杂度的线性分类面，再逐步过渡到更复杂、更非线性的分类面，这种“先学简单分类面”的偏好就是 simplicity bias 的一种体现。

无独有偶，simplicity bias 在人类的归纳推理中也起到了很重要的作用。作为一个著名的例子，考虑序列 2，4，6，8，……，对下一位进行预测。尽管我们知道序列的下一位可以是任何数字，但绝大部分人的第一感都是 “10”。

这是因为我们无意间也使用了“简单的答案更可能正确”的 simplicity bias。不论是神经网络或是人类的 simplicity bias，其本质都是“奥卡姆剃刀”原则的一种体现，也即“简单”的解往往比“复杂”的解更有泛化性。

不过，为了分析 simplicity bias 的具体影响，我们还有一个问题有待解决：如何度量神经网络学到的解/函数的“simplicity”？

实际上，这个问题会比看上去更加 non-trivial：虽然我们直观上会认为“二次函数应当比线性函数复杂”，但找到一个合适的度量将其推广到“任意函数”并不容易。

例如，algorithmic information theory 中的 Kolmogorov 复杂度提供了一个理论上具有普适性的复杂度度量框架，然而其本身却是不可计算的；尽管文献中也存在不少关于 Kolmogorov 复杂度的近似度量，但它们大多依赖额外的 compression 算法或使用场景受限，因而也很难用于一般意义下的理论分析。

幸运的是，在神经网络这一特殊场景下，我们可以通过利用一个基本事实来规避这个问题：尽管真实世界的数据生成函数的输入和输出可能是任意连续变量，但计算机能直接处理的变量一定是离散的。

而对于任何一个离散的变量，我们一定可以用一个二值（布尔）序列来无损编码它。我们因此可以不失一般性地假设定义 1 中的，。此时，生成函数也就相应变为了一个布尔函数（Boolean function）。

初看之下，引入这样的布尔函数模型似乎并未解决“复杂度度量”问题：即便我们将输入变量和隐变量编码为布尔变量，它们之间的关系仍然对应任何一个复杂布尔函数。然而这里的关键在于，布尔函数的 Fourier-Walsh 变换可以为我们提供一种比较自然的复杂度描述方式：

定义 2（Fourier-Walsh 变换）[10]：每个布尔函数都可以被唯一地表示为一个多线性多项式

其中，是多项式中的各个单项式，我们称为奇偶函数（parity function），是各个单项式的系数。

定义 2 意味着，不管一个布尔函数多么复杂，它都可以被分解成一系列奇偶函数（单项式）的线性组合，而的非线性部分全部体现在其所使用的奇偶函数上。

例如，定义在上的“最大值”函数就可以被等价表示为。

由此，我们可以自然地定义的复杂度为其所使用的奇偶函数的最高阶次，也叫做的阶（degree），记作。例如，对于，；而对于，。

直观上，这种复杂度是对函数“非线性程度”的一种度量。同时，通过将阶次理解为编码一个函数所需要的“码长”，我们也可以将其理解成 Kolmogorov 复杂度的一种近似。

这里，我们也可以更清楚地看出布尔函数模型的作用：可以证明，奇偶函数实际上构成了布尔函数空间的一组基（basis），而更一般的布尔函数的“复杂度”定义正来源于其经过 Fourier-Walsh 变换后对基函数的“使用”情况。

相比之下，任意连续函数构成的空间并没有一组类似的“基函数”存在，因此也很难把不同的函数通过基函数分解进行“公平比较”，从而定义和比较它们的复杂度。

表征的“无免费午餐”定理与 world model 辨识

在介绍主要结论之前，首先需要明确一些基础定义。

上节提到，我们定义下的 world model 学习本质上是一种 representation learning；而在实际场景中，representation learning 是通过各种不同的代理任务（proxy task）实现的，例如监督分类、对比学习、next-token prediction 等等。

具体地，我们考虑一个任务。模型去实现这个任务的方式有两种：第一种是直接端到端地拟合一个函数去逼近，而并不显示地学习输入的隐变量表示，我们称之为“扁平实现”（flat realization）。

同时，我们也可以把拆解为两个子函数的组合：，其中是从输入空间到隐变量空间的表征函数，而则从隐变量空间出发的预测函数，再分别对和进行拟合，我们称为“分层实现”（hierarchical realization）。

World model 学习的目标就是让模型采用分层实现来完成任务，并使得学到的表征函数满足。

基于上节介绍的 Fourier-Walsh 变换，我们可以分别度量这两种实现的复杂度：对于扁平实现，其复杂度就是的阶；对于分层实现，由于模型需要分别拟合和，我们定义其整体复杂度为的阶和的阶之和。

基于这个框架，我们就可以从理论上进一步研究 simplicity bias 对 representation learning 的影响。

首先，我们证明了如果只考虑单任务学习，结果其实有些“泼冷水”：此时，带有 simplicity bias 的模型更倾向于直接端到端拟合任务，而不显式引入额外的隐空间表征。

定理 1（单任务）：对于任意单任务，其所有实现中复杂度最小的解是某个“扁平实现”，其满足

原因在于，为了单任务来单独学隐空间表征往往是“不划算的”：对于任一任务，它在 Fourier-Walsh 变换下的多项式表达中使用的“基”一定是有限的，此时即使存在一个通用的表征，其中也可能包含了表达所不必要的基，从而引入了额外的复杂度。

作个类比，如果我们的任务只是解所有的形如的三次方程，那么就没有必要会去构造一个通用（而复杂）的三次方程求根公式，而是直接开方算出答案即可。这也可以解释为什么在数据分布较窄或有偏时，神经网络经常会学到“可完成任务但不可泛化”的 shortcuts [11]。

那么，如果训练任务不止一个呢？我们证明了，多任务学习确实能改变上述结果：多个任务共享一个表征，就可能让“分层实现”更划算。为此我们需要引入一个关键概念，称为任务的条件阶（conditional degree）：

定义 3（条件阶）：对于任务，定义其在表征下的条件阶为：

换句话说，如果引入一个表征之后，我们基于去做这个任务的复杂度相比于没有的时候更低，那么这个表征对就是有价值的，即具有正的条件阶。

推而广之，如果有足够多的任务都因为同一个表征而“更简单”，那么具有 simplicity bias 的神经网络也就自然会选择去学这个表征。我们有如下结果：

定理 2（多任务）： 对一组不相同任务，若存在表征使得：

其中，则分层实现的总复杂度比每个任务独立进行扁平实现的复杂度更低。

实践层面，我们知道现有预训练模型所使用的代理任务，如 next-token prediction，contrastive learning，masked image modeling 等都可以被理解成一种隐式的“多任务学习” [12]。

定理 2 为这种解释提供了进一步的 justification：对于任何一个具有 simplicity bias 的模型，多任务学习本身就有助于推动表征的涌现。

那么，多任务学习是不是就一定能得到 world model 呢？答案是否定的：尽管定理 2 说明了多任务有助于表征学习，但并未指明满足“复杂度最低”的表征具体有什么样的性质。

直观上我们也很容易知道，对于不同的任务分布，复杂度最低的表征可能也是不相同的。

作为最容易想到的一种情况，我们首先分析了：如果任务在全任务空间（也即所有二值函数构成的空间）中均匀采样会发生什么。

定理 3（表征的“无免费午餐”定理）：如果任务均匀采样自整个任务空间，那么对隐空间上的任何一个可逆变换，表征在所有任务下的期望复杂度为定值。

也即，在任务均匀采样的情况下，任何一个可以用来完成所有任务的表征的平均复杂度在任务数量趋于无穷时都完全一样。

类比大家更熟知的“无免费午餐”（no free lunch，NFL）定理[13]，我们称定理 3 为表征的 NFL 定理：原始 NFL 定理指出，当在所有可能的任务上取平均时，任意一个学习算法的性能都一样；而表征的 NFL 定理则说明，当在所有可能的任务上取平均时，任意一个信息量充分的表征的复杂度都一样。

换句话说，即使在多任务场景下，若任务是均匀采样，通过 simplicity bias 来辨识 world model 也是无法实现的。

为什么会这样？比较直观的解释是：不论我们选择了哪个表征，总有一些任务空间中的任务对它来说是“简单”的，而有另一些任务对它来说是“复杂”的。

例如，假如我们基于预训练得到了一个图像的语义表征，那么基于这个表征来做 classification、segmentation 等和“图像语义”高度相关的任务一定会更简单。

但是，如果我们考虑一个“预测图像中心像素点的 RGB 值”的“任务”，那么语义表征大概率反而不如原始图像的 pixel space。我们的证明过程表明了，当在全任务空间进行平均时，“简单任务”和“复杂任务”的作用就会恰好相互抵消。

幸运的是，我们知道现实任务并非“均匀分布”：大部分实际任务都和我们人类所理解的“语义”高度相关的。

还是回到上面的例子，预训练的图像表征之所以在实践中被大量使用，就是因为我们实际关心的任务集合中并不会出现类似于“预测图像中心像素点的 RGB 值”这样的“任务”。

对于涉及到自然语言的预训练任务，这个现象可能更加明显——语言自身的抽象性和“语义连贯”的要求本身就会过滤掉大量的“不合理任务”。

数学上看，可以将真实任务的特点抽象为一种“低阶性”：相比于完全均匀的任务分布，真实任务分布中会有更多的相对真实隐变量更低阶的函数。

比较有趣的是，我们证明了只要训练任务有一点点这种“低阶性”的倾向，考虑模型的 simplicity bias 后的“最简可完成任务表征”就对应我们想要的 world model！

定理 4（World model 辨识的充分条件）：若任务分布在一些足够低阶的任务上的概率密度大于均匀任务分布下这些任务的概率密度，则考虑 simplicity bias 的最优表征满足

其中是置换矩阵，是对角矩阵，。

定理 4 等价于：在置换（permutation）和按位取反（negation）的意义上辨识了 world model。

注意到这两个变换都非常简单：给定真实的隐变量，我们可以保证的得到的表征就是对的某些维度做了互换和反号，而并没有在本质上改变的结构。因此，这个结果还是相当强的。

与线性表征猜想（linear representation hypothesis，LRH）的联系：LRH 是近年 LM/LLM 研究中的一个著名猜想，它的内容是 LLM 中间层的表征往往和人可以理解的高层抽象语义直接对应，且这些语义在表征空间中被线性表出 [3, 4]。

学界普遍认为，这是对“大模型对数据产生了一定真正理解”这一观点的有力证据。然而，对于这种线性表征的形成原因，目前学界还没有公认的结论。

有趣的是，如果我们认为人所理解的高层语义可以对应 world model 中的隐变量，那么定理 4 实际上可以被视为 LRH 的一个“可证明”的二值版本：置换和取反正好对应于所有一阶布尔函数；若放在实数域，那么它们自然对应一阶实多项式，也即线性函数！

综上，对于 world model 的辨识，我们得到了一个比较全面的充分条件：

在模型具有 simplicity bias，采用多任务训练，且训练任务分布具有一定低阶性时，world model 具有可辨识性。

相比于已有分析为了取得可辨识性而对数据生成过程引入更多结构假设的做法，我们的结果对“数据”并没有严格要求，而是将更多的需求放在了“模型”和“任务”层面。我们认为，这样的理论框架和目前大模型采用的预训练范式是更加兼容的。

进一步地，我们分析了 world model 的一个核心优势：分布外（out-of-distribution，OOD）泛化。

在一个和长度泛化（length generalization）相关的 setting 上，我们证明了当下游任务满足一定条件时，带有 world model 的分层实现一定比扁平实现具有更小的 OOD 泛化误差。

受篇幅限制，对这部分内容感兴趣的读者可以参考我们原论文中的 4.3 节。

同时，以上我们主要讨论的是在函数空间层面，simplicity bias 如何结合任务分布去诱导 world model 的可辨识性；而在实际使用中，神经网络的具体结构设计可能会显著影响模型所“偏好”的函数族。

在论文中，我们也形式化地刻画了神经网络结构可以通过改变布尔函数空间的“函数基”影响 world model 的可辨识性。

在理论结果的基础上，我们在论文中也设计了一系列 proof-of-concept 实验。

从小规模的受控环境出发验证多任务训练和 simplicity bias 对 world model 学习的影响，并根据理论结果在两个代表性任务上对标准的 MLP、Transformer 网络结构进行了修改，从而构建了在这些任务上能更好地 extrapolate 和泛化的模型。也请感兴趣的读者参阅我们的原论文。

总结与展望

在本文中，我们从可辨识性的角度为 world model 学习给出了定义，并系统分析了神经网络学习 world model 的条件：

1. 多任务学习：单任务下好的 representations 不会自然涌现，但多任务能带来共享表征的动力；

2. 简单性偏置：神经网络及训练算法内在的 simplicity bias 是打破不可辨识性的重要力量；

3. 低阶任务分布：只有当训练任务分布对低阶任务有偏好时，world model 才能在多任务学习中被可靠地辨识。

以上理论结果也可以对算法设计产生启发：我们认为，如何人为地调整任务分布和网络结构设计来进一步增强代理任务的“低阶性”，可能是推动 world model 更快速、更精确地形成的关键。

具体而言，通过人为构造更“低阶”的自监督任务会更有利于引导模型捕捉 data generation 过程中的核心隐变量。例如，基于 representation 的预测任务可能比基于 pixel/token 的预测任务更好——这一点已经在最近一些预训练工作中有所体现 [14-16]。

作为更加具体的例子，在 LLM 或多模态模型的训练 pipeline 中，可以显式加入与世界规律相关的低阶任务（如常识推理、基本物理定律预测）作为辅助目标；在视频/多模态模型中，可以构造速度、加速度推断等 proxy task 来进一步 regularize 表征等等。

最后，如何设计一个“可微的复杂度度量”来对模型做 regularization 也是有意义的研究点。

作为小结，我们希望这项工作能够为未来关于 world model 的理论研究提供一个起点，同时也能在 representation learning 的意义上为理解和引导大模型的能力进化提供了一个可能的理论基础。

受作者水平所限，文中不少探讨仍然比较粗糙，权当抛砖引玉，希望读者不吝批评指正。展望未来，我们也希望 world model 能在 video generation 之外，在自动驾驶、具身智能等更多领域产生更大的实际价值。

参考文献

[1] Ha, D. and Schmidhuber, J. World models. arXiv preprint arXiv:1803.10122, 2018.

[2] Craik, K. J. W. The nature of explanation, volume 445. CUP Archive, 1967.

[3] Li, K., Hopkins, A. K., and Bau, D. Emergent world representations: Exploring a sequence model trained on a synthetic task. ICLR, 2023.

[4] Gurnee, W. and Tegmark, M. Language models represent space and time. ICLR, 2024.

[5] Assran, M. et al. V-jepa 2: Self-supervised video models enable understanding, prediction and planning, 2025.

[6] Hyvärinen, A., and Pajunen, P. Nonlinear independent component analysis: Existence and uniqueness results. Neural Networks, 12(3), 429–439, 1999.

[7] Khemakhem, I., Kingma, D. P., Monti, R. P., and Hyvärinen, A. Variational autoencoders and nonlinear ICA: A unifying framework. AISTATS, 2020.

[8] Zhang, C., Bengio, S., Hardt, M., Recht, B., and Vinyals, O. Understanding deep learning requires rethinking generalization. ICLR, 2017.

[9] Nakkiran, P., Kaplun, G., Kalimeris, D., Yang, T., Edelman, B., Zhang, F., and Barak, B. SGD on neural networks learns functions of increasing complexity. NeurIPS, 2019.

[10] O’Donnell, R. Analysis of boolean functions. arXiv Preprint arXiv:2105.10386, 2021.

[11] Geirhos, R. et al. Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11), 665–673, 2020.

[12] Radford, A. et al. Language models are unsupervised multitask learners, 2019.

[13] Wolpert, D. H. The lack of a priori distinctions between learning algorithms. Neural Computation, 8(7), 1341–1390，1996.

[14] Ren, S., Wang, Z., Zhu, H., Xiao, J., Yuille, A., & Xie, C. Rejuvenating image-GPT as strong visual representation learners. ICML, 2023.

[15] Yu, S., Kwak, S., Jang, H., Jeong, J., Huang, J., Shin, J., & Xie, S. Representation alignment for generation: Training diffusion transformers is easier than you think. ICLR, 2025.

[16] Tack, J., et al. LLM pretraining with continuous concepts. arXiv Preprint arXiv:2502.08524, 2025.

更多阅读