基于世界模型的强化学习框架: 做梦者

原创集智百科团队 2025-08-18 20:39 上海

一站式了解Dreamer的发展历程与核心技术

导语

Dreamer框架是一个基于模型的强化学习方法，其特征在于通过学习环境的潜在模型来进行高效的规划与决策，其中的潜在模型也被称为世界模型。Dreamer由Danijar Hafner等人于2019年提出，其核心思想是通过训练一个潜在的世界模型（world model），该模型通过对环境进行内在表示建模，来模拟未来的状态变化，并基于此进行长期规划以及策略学习。与传统的强化学习方法（如基于值函数的Q学习或策略梯度方法）不同，Dreamer不直接依赖于与环境的交互，而是通过学习环境的动态模型，结合模型预测进行策略优化，从而提高了样本效率，尤其在复杂任务中能显著减少对环境交互的依赖。该方法使得强化学习能够在有限的交互次数内达到较高的性能，并在多个控制任务中取得了显著的成功。

为了系统梳理因果涌现最新进展，北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔因果涌现系列读书会，目前已经持续到「因果涌现第六季」读书会，如果你对这一话题感兴趣，非常推荐你加入社区！

“集智百科精选”是一个长期专栏，持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目，集智百科希望打造复杂性科学领域最全面的百科全书，欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入，文末可以扫码报名加入百科志愿者！

↑↑↑扫码直达百科词条

关键词：强化学习，世界模型，Dreamer，潜在动力学模型

潘琳莉、程嘉 | 编译

1. 历史背景

2. Dreamer框架原理

2.1 世界模型架构

2.1.1 编码器-解码器（Encoder-Decoder）

2.1.2 潜在动力学模型（Latent Dynamics Model）

2.2 世界模型训练过程

2.2.1 表征学习阶段

2.2.2 重参数技巧与ELBO目标函数

2.3 规划与决策机制

2.3.1 潜在空间中的imagined trajectory

2.3.2 使用MPC或policy gradient进行action selection

2.4 策略网络与值函数

2.4.1 从在线规划到潜在空间策略学习

2.4.2 想象环境与模拟轨迹

2.4.3 价值函数训练

2.4.4 策略网络的训练与优化

3. 不同版本对比

3.1 关键改进

4. 应用与性能

4.1 在Mujoco、Atari、DMC等环境下的表现

4.1.1 DreamerV2

4.1.2 DreamerV3

4.2 与SAC、TD3、PPO等方法的对比

4.2.1 DreamerV3

4.3 在高维视觉输入上的优势

4.3.1 DreamerV3

4.4 其他应用

4.4.1 DreamerV2：消融研究

4.4.2 DreamerV3：BSuite 和 Minecraft 等拓展任务性能

5. 影响与发展

5.1 对后续研究的启发

5.2 世界模型在通用人工智能（AGI）中的作用展望

1. 历史背景

世界模型（World Models）的研究兴起于对强化学习（Reinforcement Learning，RL）中环境建模能力的不断探索，其本质上是基于模型的强化学习（Model-Based Reinforcement Learning, MBRL）的一种实现形式。与传统的MBRL不同，世界模型旨在构建一个能够模拟环境动态的内部模型，从而支持智能体在模拟空间中的推理、预测与规划。通过变分自编码器（ Variational Autoencoder，VAE）将观测序列编码为潜在状态，再利用循环神经网络（Recurrent Neural Network，RNN）建模潜在动力学，预测下一时刻的潜在状态，然后，解码器从下一时刻的潜在状态重构观测并预测即时奖励。相较于基于模型的强化学习这一更为宽泛的范畴，世界模型更强调通过学习潜在空间的紧凑表示，赋予智能体理解和预测环境动态的内在能力，不仅能预测未来状态和观测，还能预测奖励。这种“想象引擎” 让智能体能在内部模型中“做梦”（dream），提前演练策略，大幅减少与真实环境交互的昂贵成本。

早期的基于模型的强化学习方法以 Sutton 在 1990 年代提出的 Dyna 框架[1]为代表，其核心思想是结合模型学习与基于模型的规划，通过学习一个环境模型来辅助策略更新。然而，受限于当时的建模能力以及高维输入场景中的泛化难题，早期方法在复杂任务中表现有限。2018 年，Ha 与 Schmidhuber 提出了开创性的 World Models [2]框架，标志着现代神经世界模型研究的起点。该方法利用变分自编码器（VAE）对高维图像进行压缩编码，再借助 RNN 对潜在状态序列建模，并通过一个小型控制器在潜在空间中进行策略学习。这一框架首次展示了世界模型在可视化环境中实现类人行为的可行性与潜力。

在此基础上，Hafner 等人于 2019 年提出了 PlaNet（Planning Network）[3]，引入了更强表达能力的循环状态空间模型（Recurrent State Space Model, RSSM），并通过通过潜在空间模型预测控制（Model Predictive Control，MPC）实现了在像素级输入下的强化学习任务。PlaNet 不仅提升了建模精度，还首次系统地验证了世界模型在标准 RL 基准任务中的可行性。

随后，Hafner 团队持续优化PlaNet框架，在其基础上陆续提出了 DreamerV1（2020）[4]、DreamerV2（2021）[5] 和 DreamerV3（2023）[6]。Dreamer 的核心贡献在于彻底革新了基于模型的强化学习范式，实现了前所未有的数据效率、计算效率和泛化能力：

DreamerV1[4] : 首次在纯潜在空间中实现了端到端的 Actor-Critic 学习。智能体完全在由世界模型生成的、紧凑的潜在状态序列上进行策略（Actor）和价值（Critic）函数的训练，仅需与环境进行极少量交互（远少于当时主流的无模型方法如 PPO（Proximal Policy Optimization）、A3C（Asynchronous Advantage Actor-Critic）），就能学习到高性能策略。由于策略学习发生在低维潜在空间，避开了高维原始观测（如图像像素）的处理负担，计算效率也显著提升。

DreamerV2[5] : 在复杂的 Atari 游戏基准上取得了里程碑式成就——其性能首次达到甚至超越了当时顶尖的无模型（Model-Free）方法（如 Rainbow DQN）。这强有力地证明了世界模型不仅数据高效，而且具备强大的策略学习能力和泛化能力。DreamerV2 表明，基于模型的规划方法完全可以在最具挑战性的视觉输入 RL 任务中与依赖海量经验的无模型方法一较高下。

DreamerV3[6]: 通过引入自适应的归一化、平衡损失等创新技术，解决了算法在超参数敏感性和任务普适性上的关键挑战，实现了前所未有的通用性和鲁棒性 (Robustness)。单个固定配置的 DreamerV3 算法，无需针对特定任务调整超参数，就能在涵盖连续控制、视觉导航、复杂决策等超过 150 个多样化且极具挑战性的强化学习基准任务上取得优异且稳定的性能。DreamerV3 的高度通用性、卓越性能和鲁棒性，标志着世界模型技术迈向通用智能体的关键一步。其重大突破性成果于 2025 年发表在顶级期刊《Nature》[6] 上，成为世界模型领域迈向主流通用智能路径的重要里程碑。

2. Dreamer框架原理

世界模型为智能体提供可微的“内心沙盒”，使其能够在抽象潜在空间中重建并演化环境，减少对高风险真实交互的依赖。框架由编码器、解码器和潜在动力学模型协同构成。编码器用卷积网络等将高维观测压缩成信息充足的潜在状态，解码器再把潜在表示还原为可观测信号，用于校验想象世界并反向传播误差，潜在动力学模型依据当前潜在状态与动作预测下一潜在状态及奖励，并显式刻画环境的不确定性。整条闭环既大幅压缩计算开销，又在潜在空间保留关键因果结构。训练阶段交替执行两步。第一步在真实轨迹上同时最小化观测重建误差与一步预测误差，以塑造具有任务判别力的潜在表征；第二步让模型在自身生成的多步“想象”里优化变分下界或信息瓶颈正则，迫使动力学网络捕捉长期规律。

PlaNet 率先验证了该思路，而 Dreamer V1 至 V3 通过离散随机潜变量、对抗式奖励预测和深层自监督进一步提升了样本效率与稳定性。Dreamer 系列自最早的 PlaNet 提出后，研究者持续在模型结构、规划效率和训练鲁棒性方面迭代，逐步形成 Dreamer V1、V2、V3 等版本。每一代框架在继承“重构观测数据并在潜在空间建模环境动态”这一核心理念的基础上，引入更先进的推理网络、归纳偏置和优化策略，显著增强了基于模型的强化学习在高维视觉控制、棋类对弈以及复杂机器人任务中的表现力与泛化能力，但始终以 RSSM 为骨架，在潜在空间刻画环境的时序结构和潜在因果机制。决策阶段采用“想象加评估”的范式。代理先将当前观测编码为潜在状态，在模型内部并行生成大量虚拟轨迹并累计预测回报，然后使用交叉熵法、演化搜索或可微梯度从中选出价值最高的动作序列，从而获得前瞻规划能力与不确定性评估。Dreamer 的关键突破在于把这些想象轨迹当作伪经验，用于离线训练策略网络与价值网络。两者在潜在空间通过 Actor Critic 框架协同优化，实现实时控制与高效学习，使 Dreamer 系列在 Atari、MuJoCo 等基准上超越无模型算法，并提供可解释的规划路径和风险分析，为统一模型化与策略学习奠定了范式。

Dreamer框架原理示意图。引自[6]

2.1 世界模型架构

2.1.1 编码器-解码器（Encoder-Decoder）

在Dreamer框架中，深度模型基于编码器-解码器架构，从高维感知输入（如图像）中学习紧凑的潜在表示。编码器通常由卷积神经网络（CNN）构成，用于提取图像观测的高层特征。具体地，编码器将每个观测 $x t$ 映射为随机潜在变量 $z t$ 的分布参数，例如连续高斯分布的均值和方差，或离散多分类分布的概率值。在早期方法（如PlaNet和DreamerV1）中，潜在变量 $z t$ 采用连续高斯分布表示。编码器输出均值 $μ t$ 和标准差 $σ t$ ，并通过重参数化采样获得 $z t$ 。DreamerV2进一步引入了离散潜在表示：将图像编码为多个独立的分类随机变量，每个变量取值于有限类别集合。例如，DreamerV2将每幅图像映射为32个独立的分类分布，每个分布有32个可能类别，通过采样生成32个独热向量，最终连接形成潜在表示 $z t$ 。这种离散潜变量设计提升了模型对多模态不确定性的表达能力，使得世界模型能够更好地捕捉环境中潜在的离散变化。为了在反向传播中处理离散采样带来的不可导问题，Dreamer采用了直通梯度（straight-through gradient）技巧：1. 在前向传播中，从每个分类分布中采样硬的独热向量；2. 在反向传播时，使用对应的软概率分布作为梯度近似。这种处理方式兼顾了离散表示的表达力和可微分性，使得整个编码器模块能够通过标准反向传播高效训练。

• 编码器：在Dreamer框架中，编码器（Encoder）承担着将高维原始观测xt映射为低维潜在表示zt的关键任务。其设计不仅要高效提取观测中的关键信息，还需保证潜在表示能够支持环境动力学建模与未来轨迹模拟。Dreamer系列方法通常采用卷积神经网络（CNN）作为编码器的主体结构，主要特点包括：逐层卷积提取图像观测中的局部与全局特征；将输入x $t$ 映射为一组潜在分布参数（如均值、标准差或分类概率）。编码器最终输出的不是一个确定值，而是潜在变量 $z t$ 的概率分布参数，以便支持下游的随机采样与不确定性建模。

• 解码器与观测重构：解码器（observation model）负责从潜在状态重构原始观测。通常，解码器由卷积神经网络（CNN）的反向结构（如转置卷积）构成，用于将潜在表示还原为观测空间的分布参数。在Dreamer框架中，给定当前潜在状态（包括确定性隐状态 $h t$ 和随机成分 $z t$ ），解码器输出观测的概率分布，如图像像素的强度分布。具体地，对于图像重建任务：

1. PlaNet和DreamerV1/V2多采用高斯分布或伯努利分布对像素值建模；

2. 优化过程中，分别对应于均方误差（MSE）损失或对数似然损失。

3. DreamerV3进一步在解码器输出中引入了symlog变换处理：将原空间的像素或向量值应用对称对数压缩变换： $symlog$ (x)=sign(x)⋅log⁡(1+|x|)。

4. 在symlog空间计算均方误差损失。

这种变换能够在保持小值分辨率的同时压缩极端取值范围，提升了模型在不同尺度环境下的重构稳定性，避免了因大幅度数值变化导致的训练不稳定问题。

• Dreamer根据不同版本引入了两类潜在变量设计：

• 连续潜变量（PlaNet, DreamerV1）：1. 潜变量 $z t$ 建模为多维对角高斯分布；2. 编码器输出每一维的均值 $μ t$ 和标准差 $σ t$ ；3. 使用重参数化技巧（reparameterization trick）进行采样： $z t = μ t + σ t ⊙ ϵ$ ，其中；4. 保证采样过程可微，支持反向传播训练。

• 离散潜变量（DreamerV2及之后）：1. 潜变量 $z t$ 由多个独立的分类随机变量组成；2. 编码器输出每个分类变量的类别概率分布；3. 每个变量通过从分类分布中采样独热向量（one-hot vector）获得；4. 采样时采用直通梯度（straight-through gradient estimator）。这种离散化设计增强了模型捕捉环境中多模态、离散变化特征的能力，提升了世界模型在复杂动态系统中的建模灵活性。

• 潜在表示的先验与后验分布选择：在Dreamer框架中，世界模型为每个潜在变量指定先验分布 $p θ (z t | h t)$ 与后验分布 $q ϕ (z t | h t, x t)$ 。其中：先验分布描述在缺乏真实观测 $x t$ 时，模型基于确定性隐状态 $h t$ 对下一个潜在状态的预测；后验分布则是在观察到 $x t$ 后，对潜在状态 $z t$ 的推断。当使用连续高斯潜变量时，先验和后验均建模为对角高斯分布；当使用离散潜变量时，则为多分类分布，如独热向量的离散采样表示。训练过程中，通过最大化变分下界（ELBO）联合优化编码器与解码器参数，目标包含：重构对数似然（观测、奖励、终止标志）；潜在变量先验-后验之间的KL正则项。重构损失 $L pred$ 通常由以下部分组成：观测重建误差（ $- ln p θ (x t | h t, z t)$ ）；奖励预测误差（ $- ln p θ (r t | h t, z t)$ ）；终止信号预测误差。同时，引入KL正则项： $D KL (q ϕ (z t | h t, x t) ∥ p θ (z t | h t))$ ，以约束编码器后验接近动力学先验，防止编码器提取过多无关信息，提升潜在表示的可预测性与泛化能力。整体训练目标可表示为：。

2.1.2 潜在动力学模型（Latent Dynamics Model）

要理解 Dreamer 如何在高维感知与稀疏回报的环境中迅速学习并规划行动，首先需要把握其世界模型奠基的两块核心积木。其一是沿时间轴不断演化并支持前向想象的潜在动力学，其二是用概率方式捕捉瞬时不确定性与多重未来可能的潜在变量。首先先来了解一下这两个机制

• 潜在动力学：Dreamer 通过一套递归状态空间机制把时间序列的信息压缩到隐含的内部记忆里。每当智能体采取动作后，模型会依次执行两步。首先，它依据先前的隐藏记忆和刚刚的动作给出对下一时刻隐藏状态的预测，这一步融入了对未来的想象能力。接着，模型在真正观察到环境反馈后，用新的感官信息修正那一预测，从而细化记忆并降低不确定性。由于隐藏记忆是由循环神经网络门控单元持续更新，它能长期保留与任务相关的情境脉络；而通过不断在隐藏空间里进行想象式滚动，策略和价值函数得以在完全离线的内部世界中训练和改进，从而实现高数据效率的强化学习。

• 潜在变量：在每一个时间点，Dreamer都会为瞬时感知生成一组随机潜在变量，用来描述环境状态中那些肉眼不可见但又至关重要的细节。这些随机量以概率分布的形式存在，为模型提供了一种表达多重可能未来的手段。它们与稳定的隐藏记忆携手工作：隐藏记忆负责整合长期依赖，随机潜在变量捕捉短暂且具有多样性的要素。为了训练这部分表示，模型同时学习观测重建、奖励预测与折扣预测三项任务，使随机潜在变量既对环境外观负责，也对行为后果负责。结果便是在同一个紧凑的隐空间里统一了感知、决策与规划，让智能体能够在面对复杂或部分可见的世界时保持灵活而稳健的推断能力。

PlaNet引入了循环状态空间模型（RSSM），用于在潜在空间中建模环境动力学[3]。RSSM结合了确定性路径与随机路径：每个时间步的隐状态由一个确定性递归状态 $h t$ 和一个随机潜变量 $s t$ （亦记作 $z t$ ）共同组成。RSSM包含以下子模块：

1. 状态转移模型： $h t = f ϕ (h t - 1, s t - 1, a t - 1)$ 。通常由GRU等递归神经网络实现，依据前一时刻的 $h t - 1$ 、 $s t - 1$ 及动作 $a t - 1$ ，更新新的确定性状态 $h t$ ，赋予模型记忆能力，捕捉复杂非线性动态。

2. 动力学预测模型：采样规则为：。在缺乏观测时，根据当前 $h t$ 预测未来 $s t$ 。PlaNet和DreamerV1使用高斯分布，DreamerV2/V3则采用独立分类分布。先验使智能体可在潜在空间内递归生成潜在轨迹。

3. 编码器（后验估计）模型： $s t \sim q ϕ (s t ∣ h t, x t)$ 。给定真实观测 $x t$ ，编码器推断 $s t$ 的后验分布。训练时通过重构损失和KL散度正则化校正先验预测。

4. 观测解码器模型：。从 $h t$ 与 $s t$ 解码出 $x t$ ，通过最大化观测似然或最小化重构误差进行训练。

5. 奖励预测模型：。用以在潜在空间中预测奖励，辅助世界模型训练，并为策略优化提供模拟反馈。

6. 继续标志（终止预测）模型：。预测episode是否终止（ $c t \in 0, 1$ ），即预测折扣因子 $γ t$ 。DreamerV2版本起引入此机制，用于在想象轨迹中判定何时停止推理。

RSSM将环境建模为部分可观察马尔可夫决策过程（POMDP），确定性隐状态 $h t$ 累积历史信息，维持跨步连续性；随机潜变量 $s t$ 捕捉观测不确定性及新输入信息。这种设计具备重要意义：

1. 确定性路径（ $h t$ ）：通过递归网络（如GRU）累积特征，有效建模长期依赖与连贯记忆。

2. 随机路径（ $s t$ ）：引入建模灵活性，表达环境随机性、观测噪声与局部不可预测性。

• 多步预测与潜在轨迹训练：

由于RSSM需要支持智能体在潜在空间中进行规划与“想象”未来，其多步预测的准确性至关重要。传统的序列变分自编码器（VAE）训练方法——即在每个时间步重构观测并施加一次KL正则化——实际上只直接优化了单步状态转移，使得梯度仅能感知到单步预测误差。这种训练方式虽然在单步预测上效果良好，但在多步滚动预测中，误差易于累积，显著削弱了长期推理与规划的能力。为了解决这一问题，PlaNet提出了潜在超前（latent overshooting）的多步变分训练目标。其核心思想是：不仅对单步转移（即先验分布 $p (s t ∣ s t - 1, a t - 1)$ 与后验分布 $q (s t ∣ h t, x t)$ ）施加KL正则化，还在潜在空间中引入跨越多个时间步的变分监督。以两步超前训练为例，模型从时刻 $t - 2$ 起，仅基于先验动力学连续预测和，然后将预测得到的与基于真实观测得到的后验 $q (s t ∣ o \leq t)$ 进行KL正则化，从而优化连续转移过程中的准确性。更一般地，对于超前 $d$ 步的overshooting，训练目标中引入了如下KL项：

其中， $p (s t ∣ s t - d : t - 1)$ 表示从 $t - d$ 到 $t - 1$ 的先验连续预测， $q (s t ∣ o \leq t)$ 则是基于真实观测的后验分布。通过这种overshooting策略，RSSM的随机状态转移机制能够接收到连续多步的训练信号，梯度得以沿着多步预测链条反向传播，从而显著提升长时间尺度上的预测准确性。PlaNet的实验验证了latent overshooting在提升基于潜在模型的规划性能方面的有效性。

• KL正则化与平衡技术：

在RSSM的训练过程中，每一个时间步都需要保持先验预测与后验推断 $s t$ 的一致性，这一目标通常通过引入KL散度损失来实现。然而，在训练中存在一个关键挑战：编码器分布 $q (s t ∣ h t, x t)$ 与动力学先验分布 $p (s t ∣ h t)$ 之间可能出现学习速度不匹配或责任分配（credit assignment）问题。具体而言，当编码器过于强大时，模型可能倾向于仅依赖后验推断，从而使先验动力学变得无关紧要；反之，若动力学先验过强，则编码器可能无法有效地从观测数据中提取信息。为了应对这一问题，DreamerV2提出了KL balancing技巧，通过分别调整先验与后验的更新路径以实现平衡。具体做法是：将KL散度分解为两个部分；其中一部分以停止梯度（stop gradient）的后验分布为参考，用于更新动力学先验，促使先验动态更好地跟随后验推断；另一部分则以停止梯度的先验分布为参考，用于更新编码器后验，防止后验偏离潜在动态建模。这种双路径更新机制，有效避免了模型在训练过程中过度依赖后验推断的问题，促使动态预测模块与观测编码模块在训练中保持合理协作。在此基础上，DreamerV3进一步引入了自由nats（free nats）的机制，即为KL散度设定一个最小阈值。当实际KL值低于该阈值时，不再继续压缩KL损失，从而防止潜在状态退化为无信息的情况——即虽然动力学先验易于预测，但潜在状态本身携带的信息量极低或接近于零，仅仅是为了最小化KL散度。

• RSSM架构的改进与增强：在DreamerV3中，针对RSSM的模型架构进行了多项重要增强，旨在提升在不同任务环境下的训练稳定性与整体性能表现。具体而言，DreamerV3采用了分块GRU（Block GRU）作为序列建模的核心递归单元，并引入了RMSNorm归一化和SiLU激活函数，以改善梯度传播特性并增强训练过程的数值稳定性。分块GRU是一种将隐藏状态划分为若干独立子块、并在子块内部并行更新的递归结构。这种设计在扩展隐藏规模的同时，能够显著缓解传统RNN在大规模建模时常见的优化不稳定问题。得益于这些架构改进，DreamerV3的世界模型可以根据任务需求灵活扩展参数规模（从数千万到数亿量级），在不同规模下使用统一的超参数配置而无需专门调整，体现出优异的扩展性与稳健性。此外，在离散潜变量的建模方面，DreamerV3引入了1%均匀混合（unimix）策略，即将分类先验分布与均匀分布按99:1的比例进行线性混合。这一策略相当于在先验输出中注入了极小的平滑项，有效防止了预测概率在训练早期快速饱和至0或1的现象，从而提高了潜在动态建模的鲁棒性，减少了陷入局部极值或不稳定优化轨迹的风险。通过这些架构和正则化细节的系统性优化，DreamerV3的世界模型能够在多种不同环境中实现稳定训练——从像素级离散控制任务（如Atari游戏），到连续动作控制任务（如DMControl套件），再到极具挑战性的稀疏奖励开放世界环境（如Minecraft）等。更为重要的是，这种稳健性使得模型在不同任务间几乎无需针对性微调超参数配置，展现出出色的泛化能力与工程实用性。

2.2 世界模型训练过程

世界模型的训练过程每个版本略有不同，在此部分，以DreamerV1为例。DreamerV1是一种强化学习方法，通过学习一个紧凑的潜在世界模型（世界模型，World model），将高维图像输入编码为低维潜在状态，并根据状态预测下一个状态和奖励，从而高效地从图像输入中解决长期目标的任务。其训练过程可以分为多个阶段，每个阶段都有其关键的任务和目标。

2.2.1 表征学习阶段

在训练初期，DreamerV1需要学会从环境中收集的数据中提取出“有用的信息”，即通过一套神经网络将图像、动作以及环境奖励编码成一个较低维度的潜在空间。这个阶段的目标是学习一个世界模型，能够预测智能体在未来的状态和获得的奖励。这个过程是整个系统的基础，因为它为后续的策略优化和长远行为规划提供了所需的潜在表示。

在表征学习阶段，DreamerV1训练了三个关键部分：

• 表征模型（Representation Model）：

它负责将观测数据（例如，图像）转化为潜在的连续状态表示。换句话说，模型通过观察图像（ $o t$ ），推断出一个潜在状态（ $s t$ ）。它的目标是根据前一时刻的潜在状态、动作和观测数据来预测当前时刻的潜在状态。其数学公式为： $p (s t ∣ s t - 1, a t - 1, o t)$ 其中， $o t$ 是当前的观察， $s t$ 是历史的潜在状态， $a t - 1$ 是动作， $s t$ 是当前时刻的潜在状态。

• 转移模型（Transition Model）：转移模型的作用是根据历史的潜在状态和动作预测未来的潜在状态，从一个状态转移到下一个状态。它学习在给定当前潜在状态和动作的情况下，如何生成下一个潜在状态。这使得DreamerV1能够在潜在空间中进行“想象”，预测未来的状态。其公式为： $q (s t ∣ s t - 1, a t - 1)$

$• 奖励模型（Reward Model）：$ 奖励模型的任务是预测在某一潜在状态下，环境会给出多少奖励。它通过当前的潜在状态来预测未来可能的奖励。这一部分帮助模型理解每一步的“好坏”，从而更好地优化行为。其公式为： $q (r t ∣ s t)$ 式中， $r t$ 表示奖励。

表征学习阶段的目标是最大化变分下界（ELBO），目标函数为：

Dreamer 的组成部分。引自[4]

在实现中，表征模型采用卷积网络（CNN）提取图像特征，转移模型使用循环状态空间模型（RSSM）处理时间序列信息，并使用重参数化技巧和随机梯度反向传播（Kingma & Welling方法）[7]来训练整个模型。

2.2.2 重参数技巧与ELBO目标函数

在进行策略优化时，DreamerV1使用了重参数化技巧，将随机性引入可微分的路径中，从而使得梯度能够流畅地通过网络，优化潜在状态和策略网络。

例如，假设潜在状态 $s t$ 服从某个高斯分布 $N (μ, σ 2)$ ，重参数化技巧允许将其转化为：

这样，智能体可以通过调整 $μ$ 和 $σ$ 来优化潜在状态，而不依赖于直接的随机采样，这使得模型在训练时可以反向传播梯度，从而实现优化。

ELBO目标函数结合了重建观测误差、奖励误差和KL散度，通过最大化ELBO，确保模型在潜在空间中能够高效预测未来状态和奖励，同时保持潜在空间的良好结构。

这一变分目标与使用重参数化技巧相结合，使得潜在动力学模型和策略能够端到端地被深度神经网络优化。

2.3 规划与决策机制

在完成潜在动态模型的训练之后，智能体便具备了在潜在空间中进行前瞻性思考的能力——即在不依赖真实环境交互的前提下，基于当前潜在状态，利用训练好的世界模型模拟未来的状态演化与奖赏反馈。这一“想象能力”（imagination）是 Dreamer 系列算法的关键特征，也是在 PlaNet 等先导方法中首次系统化提出的。在此框架下，策略优化不再受限于真实数据的收集速度与环境延迟，而是可以在紧凑、高效的潜在空间中进行大规模并行 roll-out。这些 imagined trajectories 捕捉了模型关于未来状态—奖赏序列的预测，从而为智能体提供了丰富的“内省式”经验用于指导行为选择。接下来的部分将介绍 PlaNet 如何利用潜在空间生成高效的 imagined trajectories，并在此基础上，通过模型预测控制（MPC）或策略梯度等方式，完成对实际动作的选择与优化[3]。

2.3.1 潜在空间中的imagined trajectory

PlaNet 先将高维观测 $o t$ 经编码器 $q ϕ (s t ∣ o \leq t, a < t)$ 映射为低维潜在状态 $s t = [h t, z t]$ （确定性递归分量 $h t$ 与随机分量 $z t$ 共同构成 RSSM 结点）。在每个决策时刻，算法执行如下“三步式” 内省 roll-out：

·前向展开（model rollout）：从当前 $s 0$ 出发，给定动作序列 $a 0 : H - 1$ ，通过转移模型 $p θ (s t + 1 ∣ s t, a t)$ 并行展开 $H$ 步，预测下一潜在状态、奖励与终止概率，得到完整轨迹。

·并行化优势：所有运算均在 32–64 维潜在空间完成，无需像素级渲染或物理积分；一次 GPU 前向即可并行生成数万条轨迹，计算复杂度仅与 $batch size \times H$ 线性相关，可在毫秒级完成。

利用这些 imagined trajectories，PlaNet 在无需显式策略网络的前提下，借助 MPC-CEM 直接在潜在空间搜索最优动作序列，从而实现对视觉控制任务的高效在线规划、数据高利用率以及对环境随机性的鲁棒应对。

2.3.2 使用MPC或policy gradient进行action selection

在获得想象轨迹后，智能体需要根据这些虚拟演练的结果选择实际执行的动作。一般而言，可采取两种途径在想象轨迹上进行决策：其一是采用模型预测控制（MPC）进行在线规划；其二是采用策略梯度方法训练出一个策略网络直接输出动作。

$•$ 模型预测控制（MPC）：MPC 利用系统的动力学模型，在每个决策时刻通过有限时域优化实时生成控制输入。假设系统状态为 $s t$ ，作用于系统的控制动作为 $a t$ ，动力学模型表示为s $t + 1 = f (s t, a t)$ 。其中 $f$ 可以是通过系统辨识获得的线性或非线性模型，用于预测系统在当前状态 $s t$ 及动作 $a t$ 下的下一状态 $s t + 1$ 。在时刻 $t$ ，MPC 求解以下有限预测时域 $H$ 上的最优动作序列：

$其中$ $γ \in (0, 1]$ 为折扣因子， $r (s, a)$ 为即时奖赏函数， $H$ 称为预测时域，优化结果是一组使未来累积折扣奖赏最大的动作序列。随后仅执行序列中的第一个动作，环境推进后更新状态并重新求解优化问题，形成“滚动时域”（receding horizon）控制策略。MPC 的优点在于能够自然处理状态和动作约束，并具有对未来事件的预测能力；缺点则是每个时刻都要在线求解优化问题，计算开销较大，且对模型精度要求较高。

模型预测控制（Model Predictive Control, MPC）将决策问题转化为基于模型的序列优化过程：在每一个决策时刻，智能体从当前的潜在状态出发，搜索一系列未来动作，旨在最大化预期的累计回报。通常设定有限的规划视野 $H$ ，通过对候选动作序列进行随机采样与优化（如采用交叉熵法，Cross-Entropy Method, CEM）以评估其预期奖励，并选择回报最高的动作序列，执行其中的首个动作。PlaNet 算法正是基于此策略，利用 MPC 在潜在空间中实现高效的在线规划。该方法在每一步都结合最新观测信息重新生成规划序列，从而实现动态更新与快速响应。此类基于模型的控制方式充分发挥了世界模型对未来状态与回报的预测能力，即使在策略尚未成熟时，也能辅助代理做出较优的行动决策。然而，MPC 的一个主要限制在于其较高的计算成本——由于每个环境步长均需重新求解优化问题，因此在高频交互任务中可能成为性能瓶颈。

2.4 策略网络与值函数

尽管基于世界模型的在线规划方法（如 PlaNet 的 MPC-CEM 策略）能够充分利用模型的预测能力，并在任务早期提供良好性能，但这类方法在每一步都需高频、实时地执行代价昂贵的轨迹优化，因此在长期训练和高频交互任务中难以扩展。为了解决这一瓶颈，Dreamer 系列算法提出了一种新的路径：通过在潜在空间中生成高质量的 imagined trajectories，用于训练策略网络与价值网络，从而实现“思维先行”的策略学习。这一机制允许智能体脱离实际环境、在模型内部高效地反复试错，并通过 Actor-Critic 框架在潜在空间内持续优化其行为策略。下面将详细介绍 Dreamer 如何在这一模拟世界中训练策略网络（actor）与价值函数（critic），并探讨其在稳定性与泛化能力上的一系列优化设计。

2.4.1 从在线规划到潜在空间策略学习

在PlaNet中，智能体通过在线规划进行决策：每次动作选择时，基于当前学习到的世界模型，在潜在空间中采样并评估多个动作序列（如使用交叉熵方法CEM），选取累计奖励最高的动作执行[3]。尽管该方法充分利用了模型的预测能力，能够动态适应每次决策，但因每步都需大规模模型推演，计算开销极高，难以扩展至大规模或实时任务。Dreamer系列则提出了另一种路径：潜在空间内离线策略学习。Dreamer让智能体在世界模型生成的“想象轨迹”中反复训练，直接学习一个策略网络（Actor）根据潜在状态快速输出动作，同时配备价值网络（Critic）估计潜在状态的长期回报，为策略优化提供梯度信号。通过这一基于模型的Actor-Critic框架，Dreamer不仅继承了模型预测的优势，还显著降低了推理时的计算成本，实现了无需实时规划即可高效决策与执行的能力。

2.4.2 想象环境与模拟轨迹

Dreamer通过在潜在空间中进行想象（imagination）生成训练数据。整体流程如下：

首先，从真实环境交互中收集初步经验，并将其存入经验回放池。

随后，智能体在潜在空间中反复执行以下训练循环：

1. 从经验回放池中采样一批真实经历对应的潜在状态（即通过编码器将观测 $o t$ 编码得到的潜在表示 $z t$ ）作为想象轨迹Rollout的起点；

2. 在世界模型内部展开长度为 $H$ 步的潜在轨迹（通常 $H \approx 15$ ）扩展流程：

①策略网络（actor） $q ϕ (a τ ∣ s τ)$ 根据当前潜在状态 $z t$ 采样动作 $a t$ ；

②RSSM的转移模型 $q θ (s τ + 1 ∣ s τ, a τ)$ 根据 $z t$ 和 $a t$ 生成下一个潜在状态 $z t + 1$ ；

③奖励模型 $q θ (r τ ∣ s τ)$ 预测当前步的奖励 $r t$ ；

④终止模型判断是否达到episode结束条件。

通过上述过程，生成一条完全由世界模型预测产生的伪轨迹序列： $(z 0, a 0, r 0), (z 1, a 1, r 1), \dots, (z H)$ 。这样就构造了一个在潜在状态空间中“完全可观测的马尔可夫决策过程（MDP）” 。这些生成的轨迹是在潜在空间中进行的，并不需要实际执行在真实环境中。换句话说，DreamerV1在潜在状态空间中“提前演练”其行为。由于潜在状态的维度远小于原始观测（例如图像），且RSSM模块由神经网络实现，因此整个模拟过程可以在GPU上高度并行。DreamerV2的实验报告显示，其可以在单张GPU上并行生成多达2500条潜在轨迹。在这些模拟轨迹上，Dreamer分别训练价值网络（critic）与策略网络（actor），利用想象经验不断优化策略表现。

2.4.3 价值函数训练

在Dreamer框架中，价值网络以潜在状态（ $z t$ ）或更完整的隐状态对（ $h t$ ， $s t$ ）作为输入，输出一个标量（ $v ψ (z t)$ ），用于近似当前潜在状态下的期望折扣，累积回报。为了高效训练价值网络，Dreamer采用了基于想象轨迹的时序差分学习（temporal difference learning），并结合了λ-return方法，在训练中平衡偏差与方差。

具体地，给定一条想象轨迹：

其中 $z H$ 为轨迹末状态，可以为每个中间潜在状态构造目标价值。λ-return的基本思路是对不同步长 $n$ 的回报进行加权平均，定义为：

式中， $γ$ 是折扣因子， $r t$ 是每个时刻的奖励。并在 $n$ 趋近轨迹末端时截断。直观地说，λ-return在有限长度模拟轨迹内考虑累计奖励，并在终点使用价值网络估计 $v ψ (z H)$ 近似未来无穷远回报，从而为每个状态提供全局价值估计。

随后，价值网络通过最小化以下均方误差损失进行训练：。

为进一步提升训练的稳定性与鲁棒性，Dreamer引入了以下优化措施：

1. 终止状态折扣修正：对于预测为终止的状态，Dreamer根据折扣因子 $γ t$ ，对后续步骤的损失贡献进行累积折扣衰减。若模型预测某步后episode结束，相应的价值误差将按 $γ t$ 的乘积因子递减，避免无意义误差影响训练。

2. 回报尺度归一化（Symlog变换与Two-Hot编码）：为了适应不同任务环境下回报尺度差异，DreamerV3引入了对称log变换（symlog）与Two-Hot编码结合的方法：Symlog变换压缩回报尺度，公式为： $symlog (x) = sign (x) \cdot log (1 + | x |)$ 。训练时，价值网络回归symlog变换后的回报，推理时通过symexp（逆变换）还原实际值。此方法能有效抑制极端大回报带来的梯度爆炸，提升训练稳定性。同时，为了进一步平滑训练目标，DreamerV3将symlog后的目标值离散到相邻的离散桶，并采用Two-Hot编码表示概率分布。价值网络输出每个桶的概率预测，训练时使用交叉熵或KL散度作为损失。相比直接实数回归或One-Hot分桶，Two-Hot编码能减缓因跨度大导致的训练不稳定性，使价值估计更加平滑且精确。

3. 目标网络机制（Exponential Moving Average, EMA）：为了防止价值估计在训练中发生不稳定震荡，DreamerV3引入了目标价值网络。具体做法是：维护一个价值网络参数的指数滑动平均版本（EMA），并在训练中添加正则项，促使在线价值网络输出逐步向目标网络靠拢。

2.4.4 策略网络的训练与优化

在Dreamer框架中，策略网络（actor）的目标是输出能够最大化长期累积奖励的动作。策略的训练完全基于模型想象（imagination）生成的数据，而不是直接从真实环境中采样梯度信号。在一条想象轨迹中，策略网络希望在每一个潜在状态 $z t$ 选择动作，使得后继状态的价值 $v ψ (z t + 1)$ 最大化。换言之，策略优化的目标可以简化为在每一步最大化 $v ψ (z t)$ ，因此常通过最小化负的价值估计 $- v ψ (z t)$ 来训练。

Dreamer采用策略梯度（policy gradient）方法来优化这一目标。由于世界模型提供了可微分的潜在空间动力系统，Dreamer能够直接在潜在轨迹上进行梯度计算，实现高效的策略更新。

策略梯度计算与损失构建

在训练过程中，策略网络根据当前潜在状态 $z t$ 输出动作分布 $π θ (a t | z t)$ ，并通过采样获得动作 $a t$ ，一般来说，。RSSM根据 $a t$ 与 $z t$ 生成下一个潜在状态 $z t + 1$ ，并由价值网络估计 $v ψ (z t + 1)$ 。

为了统一适配连续与离散动作环境，Dreamer在想象轨迹中使用REINFORCE策略梯度近似目标：

其中，是基于λ-return构建的多步累计回报， $v ψ (z t)$ 为价值网络提供的基线，二者之差作为优势估计（advantage），用于减少策略梯度估计的方差。

策略网络的整体损失函数定义为：

其中，第一项是基于优势的策略梯度项，第二项是熵正则项（ $η$ 为熵系数），用于鼓励策略的随机性与探索。

鲁棒回报归一化

为了进一步提升训练稳定性，Dreamer引入了鲁棒回报归一化（robust return normalization）机制，以应对不同任务中奖励尺度差异带来的训练不平衡问题。具体做法是：在每个模拟批次中，收集所有，取第5百分位 $P 5$ 与第95百分位 $P 95$ ，定义有效范围： $S = P 95 - P 5$ 。并对 $S$ 进行指数滑动平均平滑处理。归一化优势的计算公式为：。这种归一化确保了在稀疏奖励或密集奖励环境中，优势尺度大致统一，熵正则项 $η H (π)$ 的相对影响力保持一致，有效避免了熵项在不同任务中失衡的问题。此外，Dreamer统一采用固定的小熵系数（如 $η = 3 \times 10 - 4$ ），无需根据任务单独调整。

世界模型冻结策略

为了保证训练的稳定性，Dreamer在策略优化阶段冻结世界模型参数，即策略网络更新过程中不会反向修改RSSM或奖励模型。这种设计保证了策略训练是在一个静态、稳定的模拟环境中进行，符合策略梯度理论假设，避免了模型和策略间相互干扰导致的震荡与不稳定。

3. 不同版本对比

3.1 关键改进

$•$ PlaNet → DreamerV1：

最大的转变是从planning-based (CEM) 切换为actor-critic based 策略学习。

支持端到端强化学习更新，训练效率更高。

$•$ DreamerV1 → DreamerV2：

$引入了更稳定的$ value bootstrap目标，缓解了价值训练过程中的variance问题。

训练更加稳定，在长时序任务上性能显著提升。

$•$ DreamerV2 → DreamerV3：

通用性增强，支持离散动作空间，显著扩展适用范围（如Atari游戏）。

引入任务自适应正则化（task-adaptive regularization），提升跨任务泛化能力。

世界模型结构更深层次，引入更强的隐状态表达能力。

4. 应用与性能

4.1 在Mujoco、Atari、DMC等环境下的表现

4.1.1 DreamerV2

DreamerV2 在 Atari 基准测试中表现出色，超越了多个强大的无模型算法。论文选取了 55 款 Atari 游戏进行实验，遵循特定的评估协议，使用单任务设置且每个代理仅使用单个环境实例。在与 IQN、Rainbow、C51 和 DQN 等无模型算法的对比中，DreamerV2 在所有四种聚合指标（Gamer Median、Gamer Mean、Record Mean、Clipped Record Mean）上均优于这些算法。例如，在 200M 环境步骤时，DreamerV2 的 Clipped Record Mean 得分为 0.28，而 IQN、Rainbow、C51 和 DQN 的该指标得分分别为 0.21、0.17、0.15 和 0.12。在个别游戏上，DreamerV2 在大多数游戏中取得了可比或更高的性能，如在 James Bond、Up N Down 和 Assault 等游戏上相比无模型代理有显著提升，但在 Video Pinball 游戏上表现欠佳，可能是因为世界模型的重建损失未鼓励学习有意义的潜在表示，游戏中最重要的物体 —— 球，仅占一个像素。

Atari 游戏性能，引自[5]

2 亿步时的Atari游戏性能。引自[5]

4.1.2 DreamerV3

在连续控制任务中（如 MuJoCo 控制基准套件），DreamerV3 在18个低维状态输入任务上取得了当前最优成绩，其平均得分显著超越此前表现领先的 D4PG 和 DMPO 等算法。在50万步交互的数据预算下，DreamerV3 不仅收敛速度更快，最终得分也更高，显示出强大的样本效率和泛化能力。同样地，在20个基于高维图像输入的 DeepMind Control Suite 控制任务中，DreamerV3 建立了新的性能标杆，全面超越了依赖数据增强的先进方法 DrQ-v2 和 CURL。即使在仅有100万步交互的数据限制下，DreamerV3 依然展现出更高的平均得分和更稳定的收敛趋势。在离散控制任务方面，DreamerV3 在 Atari 游戏基准上表现同样优异。在标准的200M帧设置（约5000万环境步）下，其得分中位数达到人类水平的302%，显著高于前一代 DreamerV2 的219%，也优于模型无关的强化学习方法如 Rainbow 和 IQN。此外，在注重数据效率的 Atari 100k 设置（仅40万环境步）中，DreamerV3 超越了 SimPLe、SPR、IRIS 等此前最佳算法，在26个游戏中的平均人类归一化得分中排名前列，仅略低于采用蒙特卡洛树搜索等技术的 EfficientZero。总体而言，DreamerV3 在不依赖任务特定调参的前提下，凭借统一的超参数配置，在涵盖低维与高维输入、连续与离散控制的多种环境中，均实现了更高的平均得分和更快的学习收敛，展现出卓越的通用性与性能上限。

DreamerV3 在多个基准环境中的平均得分表现。引自[6]

图中横轴对应不同测试环境，纵轴表示任务得分或人类归一化得分。图例中，蓝色柱表示使用统一超参数配置的 DreamerV3，灰色柱代表在各环境中经过精细调参的专家算法，绿色柱则为常用基线方法 PPO。可以看出，DreamerV3 在 Proprio Control（状态输入的连续控制任务）、Visual Control（图像输入的连续控制任务）以及 Atari 100k 和 200M 等典型基准中，均实现了最高的平均得分，全面领先于现有主流方法。

4.2 与SAC、TD3、PPO等方法的对比

4.2.1 DreamerV3

在各类任务环境中，DreamerV3 始终显著优于典型的模型无关深度强化学习算法。

在连续控制领域，DreamerV3 超越了 SAC/TD3 风格的多种方法，包括 DeepMind 提出的 D4PG、DMPO 和 MPO，在相同的交互步数条件下实现了更高的累计奖励。与这些高度依赖环境特定调参的离线策略算法不同，DreamerV3 采用统一超参数配置即可取得更优表现，展现出良好的泛化能力和可迁移性[6]。

在高维视觉输入任务中，DreamerV3 同样领先于依赖数据增强或对比学习的对手，如基于 SAC 的 DrQ-v2 及使用表征学习的 CURL。这进一步体现了 DreamerV3 在从图像观测中提取潜在动态结构方面的强大能力。

在离散动作空间下，DreamerV3 也取得了显著突破。在 Atari 游戏基准中，其最终得分超越了强化学习领域的经典代表 Rainbow 和 IQN，甚至超过了采用蒙特卡洛树搜索的模型规划方法 MuZero，且所需计算资源仅为后者的一小部分。

在具备程序生成特性和复杂视觉干扰的 ProcGen 基准中，DreamerV3 的整体表现与调参后的 PPG 相当，并略有超出，同时显著优于 Rainbow 等传统方法。

在需要高级空间和时间推理能力的 DeepMind Lab (DMLab) 3D 环境中，DreamerV3 在仅使用 1 亿帧（100M）数据的情况下，就已达到甚至超过 DeepMind 的分布式强化学习算法 IMPALA 在 10 亿帧（1B）下的表现，展现出数量级的样本效率提升。

此外，在所有测试环境中，DreamerV3 相较于 PPO 表现出压倒性优势。即使在不进行任务特定调参的情况下，DreamerV3 依然大幅超越高质量实现的 PPO 策略梯度算法。这充分表明，DreamerV3 不仅在最终得分上具有领先优势，更在数据效率和通用性方面实现了全面超越。

4.3 在高维视觉输入上的优势

4.3.1 DreamerV3

DreamerV3 在高维像素观测任务中展现出显著优势，能够无需针对图像任务进行特殊调整，便在视觉控制、Atari、ProcGen、DMLab、Minecraft 等典型像素输入环境中取得领先表现[6]。例如，在视觉控制套件中，DreamerV3 凭借统一配置、无任何额外数据增强，便超越了专为图像环境设计的强化学习算法，如 DrQ-v2 和 CURL，取得更高分数。

在具备程序生成关卡的 ProcGen 游戏中，DreamerV3 在仅使用 5000 万帧数据的情况下，便达到与经过调参优化的 PPO 派生算法（PPG）相当的表现，并显著优于 Rainbow 等传统方法。这些结果表明，DreamerV3 在处理高变异性视觉任务时具备出色的泛化能力和鲁棒性。

更为关键的是，DreamerV3 所构建的世界模型能够从高维像素观测中捕捉环境的潜在结构。上图展示了其在 DMLab 迷宫环境（上）与四足机器人任务（下）中的视频预测示例：在仅观察初始5帧真实图像后（True，左侧），模型可基于其内部状态连续预测未来45帧的环境演化（Model，右侧），而无需进一步依赖真实图像输入。结果显示，预测序列与真实轨迹在空间结构和动态变化上高度一致，表明 DreamerV3 能够有效学习3D迷宫的布局规则和机器人运动的动力学特征。

凭借这一结构化世界模型，DreamerV3 能够在需要复杂时空推理的任务中实现高效探索与长时规划。在 DMLab 的30个三维任务中，DreamerV3 仅用 1 亿帧交互数据（100M）即达到并超过 IMPALA 在 10 亿帧（1B）下的表现，实现了超过 10 倍的数据效率提升。

总体而言，DreamerV3 在高维视觉输入环境中展现出强大的表征学习与前瞻性规划能力，显著超越了多数模型无关强化学习算法的能力上限。

DreamerV3 在视觉输入中的表征学习与前瞻性规划能力示例图。引自[6]

4.4 其他应用

4.4.1 DreamerV2：消融研究

在探索DreamerV2算法卓越性能的成因时，研究人员开展了全面深入的消融研究。消融研究作为一种常用且有效的分析手段，通过系统地去除、改变模型中的特定组件，来精准观测这些调整对模型整体性能的影响，进而挖掘出模型中各个要素的重要性和作用机制。

在对DreamerV2的消融研究中，主要围绕几个关键部分展开。

在潜在变量的研究上，着重对比了DreamerV2所采用的分类潜在变量和DreamerV1运用的高斯潜在变量。大量实验结果表明，分类潜在变量在众多任务中展现出明显优势，在42个任务上的表现超越了高斯潜在变量。进一步探究发现，这可能得益于多个因素：从概率分布特性来看，分类先验能够完美适配聚合后的后验分布，而高斯先验在面对混合高斯后验时则难以匹配，这使得分类潜在变量在预测图像间复杂的多模态变化时更具优势；从数据表示角度，由分类潜在变量向量生成的稀疏性结构，有助于提升模型的泛化能力，其展平后的稀疏二进制向量在信息表达上更为高效；在优化难度方面，分类变量或许更容易进行优化，直通梯度估计器的特性减少了可能导致梯度异常的因素；在任务适配性上，分类变量更契合Atari游戏中诸如场景切换、物体出现或消失等非平滑变化的建模需求。

KL平衡也是本次消融研究的重点内容。研究结果显示，KL平衡在大部分任务（44个）中，表现优于标准的KL正则化方式。这一技术的核心价值在于，它能够引导世界模型学习到更为准确的先验动力学。在策略优化过程中，通过对先验交叉熵和后验熵的合理调整，鼓励模型朝着改进先验动力学、使其更接近真实后验的方向进行优化，从而为模型性能的提升奠定坚实基础。

模型梯度在DreamerV2的运行机制中扮演着关键角色。其中，图像梯度对于世界模型的正常运作至关重要，当停止图像梯度的输入时，大部分（51个）任务的性能出现了明显下降。这一现象充分证明，DreamerV2的世界模型高度依赖高维图像所提供的学习信号来构建对环境的有效认知。而对于奖励梯度，研究发现停止其输入后，在15个任务上性能有所提升，在22个任务上有所下降，还有18个任务持平。这一结果表明，不专门针对过往奖励进行预测学习的模型表示，在面对未曾经历的新情况时，可能具备更好的泛化性能，能够更灵活地应对不同场景。

在策略梯度的研究中，发现DreamerV2在学习策略时主要依赖强化梯度。虽然混合强化梯度和直通梯度在诸如《 James Bond》和《Seaquest》等个别游戏中，能够显著提升成绩，但单独使用直通梯度进行策略优化时，效果却不尽如人意，在44个任务中表现不佳。这主要是因为直通梯度本身存在一定偏差，无法像强化梯度那样为策略学习提供稳定且有效的引导。

综上所述，这些消融研究全面且细致地揭示了离散潜在变量、KL平衡、图像梯度和强化梯度等因素，在DreamerV2实现卓越性能过程中所发挥的不可或缺的作用。它们不仅为深入理解DreamerV2算法的内在机制提供了关键线索，也为后续对该算法的进一步优化和改进指明了方向，具有重要的理论和实践意义。

DreamerV2 智能体各种消融实验的裁剪记录归一化分数。引自[5]

通过 2 亿帧时的Atari性能对 DreamerV2 进行的消融实验，按最后一列排序。引自[5]

4.4.2 DreamerV3：BSuite 和 Minecraft 等拓展任务性能

除了在常规基准环境中的优异表现，研究者还系统评估了 DreamerV3 在多个具有挑战性的拓展任务中的性能表现。在 DeepMind BSuite 基准测试中（涵盖23个环境共468种配置），DreamerV3 再次取得了新的总体最优成绩，超越了此前表现最好的方法，如 Bootstrapped DQN 和 Muesli。尤其在奖励尺度变化显著的子任务上，DreamerV3 的表现提升尤为显著，体现出其通过归一化和稳定性增强机制在策略泛化方面的优势[6]。

在 Crafter 环境中（一个像素风格的开放世界生存游戏），DreamerV3 同样刷新了当前最高记录。与强调探索和记忆建模的强化学习算法相比（如基于 LSTM-SPCNN 架构的 PPO、OC-SA 探索方法、DreamerV2 及 Rainbow DQN 等），DreamerV3 实现了更高的平均得分和任务完成度，成为该环境下的新状态-of-the-art。这一结果显示，DreamerV3 所构建的世界模型不仅具备稀疏奖励条件下的策略搜索能力，也在长时间跨度的任务中展现出出色的记忆与规划能力。

最具突破性的成果来自于对复杂3D开放世界游戏 Minecraft 的探索。在该环境中，“获取钻石”被视为强化学习领域极具挑战性的长期目标任务。DreamerV3 是首个无需任何人类演示或预训练即可从零开始成功获取钻石的算法。上图展示了其在训练过程中的回报曲线：黑色线代表单次任务中获得钻石的最高回报（成功挖到钻石后回报陡增），灰色线表示回合平均回报。从图中可以看出，DreamerV3 在大约 3000 万步时首次完成钻石任务，随后完成频率稳步上升，至约 1 亿步时，多数运行均能稳定获取钻石。论文报告显示，在 40 个不同随机种子的实验中，有 24 个至少成功获得过一颗钻石，其中表现最优的代理甚至在第6个回合便成功挖掘出钻石。相比之下，多种强基线方法虽然能够推进至获取铁镐等中级目标，但在相同数据预算下无一能成功获得钻石。

综上所述，DreamerV3 在 BSuite、Crafter 以及 Minecraft 等具代表性的高难度任务中均实现了突破性进展，进一步验证了其无需特定调参即可适应多样环境，并在处理稀疏奖励与长期依赖问题中具备显著优势。

DreamerV3 在 Minecraft “获取钻石”任务中的学习曲线。引自[6]

上图中横轴为环境交互步数（采用对数刻度），纵轴表示每个回合的累计奖励，其中包括关键物品获取的进度奖励，成功获得钻石时的单回合得分最高可达约 12 分。图中黑色曲线表示训练过程中达到的单回合最高得分，灰色曲线则表示所有回合的平均得分。从图中可以观察到，DreamerV3 随着训练的深入，逐步学习并解锁关键工具链（如木镐、石镐、铁镐），最终成功获得钻石。值得强调的是，DreamerV3 是首个在完全无任何人类演示或专家数据辅助的条件下，从零开始完成“获取钻石”任务的强化学习算法，标志着其在复杂开放世界任务中的探索与规划能力达到新高度。

5. 影响与发展

Dreamer 系列框架作为近年来世界模型研究中最具代表性的成果之一，不仅在算法性能上取得了显著突破，也在理论架构和实践策略上对后续研究产生了深远影响。自 PlaNet 到 DreamerV1/V2，再到 DreamerV3 在 2025 年发表于《Nature》，其开创的 “端到端潜在空间建模+策略学习”架构，解决了传统 MBRL 在高维感知与长期规划中的根本性难题，将世界模型从图像重构辅助的预测模型演化为具备决策能力和泛化能力的智能代理，极大拓宽了基于模型强化学习（MBRL）的应用边界。

5.1 对后续研究的启发

Dreamer 系列提出的关键思想——在潜在空间中建模环境动态并进行策略优化，为后续研究提供了可扩展且高效的范式。在 Dreamer 的基础上，一系列工作相继发展：

$•$ DayDreamer（2023）[8]将 Dreamer 的策略迁移能力扩展到现实机器人系统中，实现在现实世界中低样本效率下的持续学习与控制，标志着世界模型从模拟器走向真实物理环境的一大步。

$•$ World Models + LLM（2023-2025）：近年来，研究者尝试将大型语言模型（LLM）与世界模型结合，构建能够进行语言理解、因果推理和行动规划的多模态智能体。例如，将 Dreamer 的潜在空间表示与 LLM 的推理能力对接，使智能体不仅能够理解图像中的物理动态，还能通过语言进行任务解释与目标设定，开启了世界模型与通用语言智能协同发展的新范式。

$•$ 此外，Dreamer 框架也被广泛用于多智能体系统、元学习、自监督强化学习等方向，成为构建可解释、具备抽象理解能力的智能体核心模块。

5.2 世界模型在通用人工智能（AGI）中的作用展望

从认知科学角度看，人类智能的形成离不开对世界的建模与模拟。在这一意义上，世界模型为构建具备“内在模拟能力”的通用智能体提供了关键路径。Dreamer 系列的成功表明，智能体能够仅凭环境交互数据，在潜在空间中构建出具备预测、规划与决策能力的内部模型，这种能力在实现 AGI 的多个核心方面具有深远意义：

$•$ 抽象理解与因果推理：通过学习世界的潜在状态转换规律，世界模型有望掌握环境背后的因果结构，从而实现高阶认知与可解释性推理。

$•$ 跨任务泛化与迁移能力：在潜在空间中建模的特征具有任务无关性，使得训练得到的世界模型能够在多任务甚至多模态场景中迁移使用，是实现通用学习的基础。

$•$ 与语言、记忆系统融合：世界模型与 LLM、多模态记忆系统结合后，有望构建出既能“看”又能“思考”的认知智能体，支撑对现实世界的长时推理与复杂任务执行。

$•$ 自主性与内在动机：通过世界模型，智能体能够自主进行“梦境”式模拟、预测未来状态、评估行动结果，具备类人类的自主探索与内在驱动机制。

因此，可以预见，随着 Dreamer 系列方法在表达能力、训练稳定性和可解释性方面的进一步提升，世界模型将逐渐成为构建通用人工智能（AGI）系统不可或缺的基础模块。

参考文献：

1. Richard S. Sutton. Dyna, an integrated architecture for learning, planning, and reacting. SIGART Bull., 2(4):160–163, July 1991. ISSN 0163-5719. doi: 10.1145/122344.122377. URL https://doi.org/10.1145/122344.122377.

2. HA D, SCHMIDHUBER J. World Models[J/OL]. arXiv.org, 2018. DOI:10.48550/arxiv.1803.10122.

3. HAFNER D, LILLICRAP T, FISCHER I, etl. Learning Latent Dynamics for Planning from Pixels[J]. arXiv.org, 2019.

4. Hafner D, Lillicrap T, Ba J, et al. Dream to Control: Learning Behaviors by Latent Imagination[C]//International Conference on Learning Representations.

5. Hafner D, Lillicrap T P, Norouzi M, et al. Mastering Atari with Discrete World Models[C]//International Conference on Learning Representations.

6. Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2

7. D. P. Kingma and M. Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114,2013.

8. Wu P, Escontrela A, Hafner D, et al. Daydreamer: World models for physical robot learning[C]//Conference on robot learning. PMLR, 2023: 2226-2240.

作者简介

本词条由集智俱乐部众包生产，难免存在纰漏和问题，欢迎大家留言反馈，一经采纳，可以获得对应的积分奖励噢！

加入我们

亲爱的社区伙伴与知识探索者：

我们诚挚邀请热爱知识分享的您，加入集智百科词条编写志愿团队！无论您是领域专家，还是对特定主题充满热忱的学习者，这里都有您的舞台。通过编写百科词条，您将为全球读者传递权威知识，同时获得专家指导与个人能力跃升的双重成长。

📝 志愿者职责

创作新词条：覆盖复杂系统、人工智能等前沿领域

迭代经典内容：更新现有词条，守护知识的准确性与时效性

质量守护者：参与内容校对审核，共建精品知识库

🌟 我们期待您

集智读书会成员（需完成共创任务并获得退费资格）

拥有清晰表达复杂概念的写作能力

对特定领域有深度研究或强烈兴趣

具备信息检索与整合素养

怀揣责任感与协作精神，愿为知识共享赋能

🎁 您将收获

百科积分（支持兑换集智俱乐部周边：文化衫、复杂科学知识卡等）

集智俱乐部创始人张江教授亲自指导写作

科研助理晋升通道：表现优异者可加入张江教授科研团队

加入张江组发起的任何一期读书会并完成共创任务即可让我们一起，用知识连接世界！

因果涌现读书会第六季

在霓虹灯的闪烁、蚁群的精密协作、人类意识的诞生中，隐藏着微观与宏观之间深刻的因果关联——这些看似简单的个体行为，如何跨越尺度，涌现出令人惊叹的复杂现象？因果涌现理论为我们揭示了答案：复杂系统的宏观特征无法通过微观元素的简单叠加解释，而是源于多尺度动态交互中涌现的因果结构。从奇异值分解（SVD）驱动的动态可逆性分析，到因果抽象与信息分解的量化工具，研究者们正逐步构建起一套跨越数学、物理与信息科学的理论框架，试图解码复杂系统的“涌现密码”。

为了系统梳理因果涌现最新进展，北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔发起「因果涌现第六季」读书会，组织对本话题感兴趣的朋友，深入研读相关文献，激发科研灵感。

读书会将从2025年3月16日开始，每周日早9:00-11:00，持续时间预计10周左右。每周进行线上会议，与主讲人等社区成员当面交流，之后可以获得视频回放持续学习。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入，共同探讨。

详情请见：因果涌现第六季——动力学、因果抽象与信息分解

推荐阅读

1. 走向通用人工智能之路，世界模型为何不可或缺？

2. AI“社会实验室”：模拟大型社会互动的世界模型

3. 什么是世界模型？为什么Sora不是 world simulator？

4. 涌现动力学如何用来分析复杂系统？ | 新课上线

5. 集智学园精品课程免费开放，解锁系统科学与 AI 新世界

6. 高考分数只是张入场券，你的科研冒险在这里启航！

7. 系统科学前沿十讲：理解自然、生命与社会的复杂性

点击“阅读原文”，报名读书会

阅读原文

跳转微信打开

1. 历史背景

2. Dreamer框架原理

2.1 世界模型架构

2.1.1 编码器-解码器（Encoder-Decoder）

2.1.2 潜在动力学模型（Latent Dynamics Model）

2.2.1 表征学习阶段

2.3.1 潜在空间中的imagined trajectory

2.4 策略网络与值函数

2.4.4 策略网络的训练与优化

3. 不同版本对比

3.1 关键改进

$•$ PlaNet → DreamerV1：

最大的转变是从planning-based (CEM) 切换为actor-critic based 策略学习。

支持端到端强化学习更新，训练效率更高。

$•$ DreamerV1 → DreamerV2：

$引入了更稳定的$ value bootstrap目标，缓解了价值训练过程中的variance问题。

训练更加稳定，在长时序任务上性能显著提升。

$•$ DreamerV2 → DreamerV3：

通用性增强，支持离散动作空间，显著扩展适用范围（如Atari游戏）。

引入任务自适应正则化（task-adaptive regularization），提升跨任务泛化能力。

世界模型结构更深层次，引入更强的隐状态表达能力。

4. 应用与性能

4.1 在Mujoco、Atari、DMC等环境下的表现

4.1.1 DreamerV2

4.1.2 DreamerV3

4.2 与SAC、TD3、PPO等方法的对比

4.2.1 DreamerV3

4.3 在高维视觉输入上的优势

4.3.1 DreamerV3

4.4 其他应用

4.4.1 DreamerV2：消融研究

4.4.2 DreamerV3：BSuite 和 Minecraft 等拓展任务性能

5. 影响与发展

5.1 对后续研究的启发

5.2 世界模型在通用人工智能（AGI）中的作用展望

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

1. 历史背景

2. Dreamer框架原理

2.1 世界模型架构

2.1.1 编码器-解码器（Encoder-Decoder）

2.1.2 潜在动力学模型（Latent Dynamics Model）

2.2.1 表征学习阶段

2.3.1 潜在空间中的imagined trajectory

2.4 策略网络与值函数

2.4.4 策略网络的训练与优化

3. 不同版本对比

3.1 关键改进

• PlaNet → DreamerV1：

最大的转变是从planning-based (CEM) 切换为actor-critic based 策略学习。

支持端到端强化学习更新，训练效率更高。

• DreamerV1 → DreamerV2：

引入了更稳定的value bootstrap目标，缓解了价值训练过程中的variance问题。

训练更加稳定，在长时序任务上性能显著提升。

• DreamerV2 → DreamerV3：

通用性增强，支持离散动作空间，显著扩展适用范围（如Atari游戏）。

引入任务自适应正则化（task-adaptive regularization），提升跨任务泛化能力。

世界模型结构更深层次，引入更强的隐状态表达能力。

4. 应用与性能

4.1 在Mujoco、Atari、DMC等环境下的表现

4.1.1 DreamerV2

4.1.2 DreamerV3

4.2 与SAC、TD3、PPO等方法的对比

4.2.1 DreamerV3

4.3 在高维视觉输入上的优势

4.3.1 DreamerV3

4.4 其他应用

4.4.1 DreamerV2：消融研究

4.4.2 DreamerV3：BSuite 和 Minecraft 等拓展任务性能

5. 影响与发展

5.1 对后续研究的启发

5.2 世界模型在通用人工智能（AGI）中的作用展望

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

$•$ PlaNet → DreamerV1：

$•$ DreamerV1 → DreamerV2：

$引入了更稳定的$ value bootstrap目标，缓解了价值训练过程中的variance问题。

$•$ DreamerV2 → DreamerV3：