原创 集智百科团队 2025-08-18 20:39 上海
一站式了解Dreamer的发展历程与核心技术
导语
Dreamer框架是一个基于模型的强化学习方法,其特征在于通过学习环境的潜在模型来进行高效的规划与决策,其中的潜在模型也被称为世界模型。Dreamer由Danijar Hafner等人于2019年提出,其核心思想是通过训练一个潜在的世界模型(world model),该模型通过对环境进行内在表示建模,来模拟未来的状态变化,并基于此进行长期规划以及策略学习。与传统的强化学习方法(如基于值函数的Q学习或策略梯度方法)不同,Dreamer不直接依赖于与环境的交互,而是通过学习环境的动态模型,结合模型预测进行策略优化,从而提高了样本效率,尤其在复杂任务中能显著减少对环境交互的依赖。该方法使得强化学习能够在有限的交互次数内达到较高的性能,并在多个控制任务中取得了显著的成功。
为了系统梳理因果涌现最新进展,北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔因果涌现系列读书会,目前已经持续到「因果涌现第六季」读书会,如果你对这一话题感兴趣,非常推荐你加入社区!
“集智百科精选”是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入,文末可以扫码报名加入百科志愿者!
↑↑↑扫码直达百科词条
关键词:强化学习,世界模型,Dreamer,潜在动力学模型
潘琳莉、程嘉 | 编译
目录
1. 历史背景
2. Dreamer框架原理
2.1 世界模型架构
2.1.1 编码器-解码器(Encoder-Decoder)
2.1.2 潜在动力学模型(Latent Dynamics Model)
2.2 世界模型训练过程
2.2.1 表征学习阶段
2.2.2 重参数技巧与ELBO目标函数
2.3 规划与决策机制
2.3.1 潜在空间中的imagined trajectory
2.3.2 使用MPC或policy gradient进行action selection
2.4 策略网络与值函数
2.4.1 从在线规划到潜在空间策略学习
2.4.2 想象环境与模拟轨迹
2.4.3 价值函数训练
2.4.4 策略网络的训练与优化
3. 不同版本对比
3.1 关键改进
4. 应用与性能
4.1 在Mujoco、Atari、DMC等环境下的表现
4.1.1 DreamerV2
4.1.2 DreamerV3
4.2 与SAC、TD3、PPO等方法的对比
4.2.1 DreamerV3
4.3 在高维视觉输入上的优势
4.3.1 DreamerV3
4.4 其他应用
4.4.1 DreamerV2:消融研究
4.4.2 DreamerV3:BSuite 和 Minecraft 等拓展任务性能
5. 影响与发展
5.1 对后续研究的启发
5.2 世界模型在通用人工智能(AGI)中的作用展望
1. 历史背景
1. 历史背景
世界模型(World Models)的研究兴起于对强化学习(Reinforcement Learning,RL)中环境建模能力的不断探索,其本质上是基于模型的强化学习(Model-Based Reinforcement Learning, MBRL)的一种实现形式。与传统的MBRL不同,世界模型旨在构建一个能够模拟环境动态的内部模型,从而支持智能体在模拟空间中的推理、预测与规划。通过变分自编码器( Variational Autoencoder,VAE)将观测序列编码为潜在状态,再利用循环神经网络(Recurrent Neural Network,RNN)建模潜在动力学,预测下一时刻的潜在状态,然后,解码器从下一时刻的潜在状态重构观测并预测即时奖励。相较于基于模型的强化学习这一更为宽泛的范畴,世界模型更强调通过学习潜在空间的紧凑表示,赋予智能体理解和预测环境动态的内在能力,不仅能预测未来状态和观测,还能预测奖励。这种“想象引擎” 让智能体能在内部模型中“做梦”(dream),提前演练策略,大幅减少与真实环境交互的昂贵成本。
早期的基于模型的强化学习方法以 Sutton 在 1990 年代提出的 Dyna 框架[1]为代表,其核心思想是结合模型学习与基于模型的规划,通过学习一个环境模型来辅助策略更新。然而,受限于当时的建模能力以及高维输入场景中的泛化难题,早期方法在复杂任务中表现有限。2018 年,Ha 与 Schmidhuber 提出了开创性的 World Models [2]框架,标志着现代神经世界模型研究的起点。该方法利用变分自编码器(VAE)对高维图像进行压缩编码,再借助 RNN 对潜在状态序列建模,并通过一个小型控制器在潜在空间中进行策略学习。这一框架首次展示了世界模型在可视化环境中实现类人行为的可行性与潜力。
在此基础上,Hafner 等人于 2019 年提出了 PlaNet(Planning Network)[3],引入了更强表达能力的循环状态空间模型(Recurrent State Space Model, RSSM),并通过通过潜在空间模型预测控制(Model Predictive Control,MPC)实现了在像素级输入下的强化学习任务。PlaNet 不仅提升了建模精度,还首次系统地验证了世界模型在标准 RL 基准任务中的可行性。
随后,Hafner 团队持续优化PlaNet框架,在其基础上陆续提出了 DreamerV1(2020)[4]、DreamerV2(2021)[5] 和 DreamerV3(2023)[6]。Dreamer 的核心贡献在于彻底革新了基于模型的强化学习范式,实现了前所未有的数据效率、计算效率和泛化能力:
DreamerV1[4] : 首次在纯潜在空间中实现了端到端的 Actor-Critic 学习。智能体完全在由世界模型生成的、紧凑的潜在状态序列上进行策略(Actor)和价值(Critic)函数的训练,仅需与环境进行极少量交互(远少于当时主流的无模型方法如 PPO(Proximal Policy Optimization)、A3C(Asynchronous Advantage Actor-Critic)),就能学习到高性能策略。由于策略学习发生在低维潜在空间,避开了高维原始观测(如图像像素)的处理负担,计算效率也显著提升。
DreamerV2[5] : 在复杂的 Atari 游戏基准上取得了里程碑式成就——其性能首次达到甚至超越了当时顶尖的无模型(Model-Free) 方法(如 Rainbow DQN)。这强有力地证明了世界模型不仅数据高效,而且具备强大的策略学习能力和泛化能力。DreamerV2 表明,基于模型的规划方法完全可以在最具挑战性的视觉输入 RL 任务中与依赖海量经验的无模型方法一较高下。
DreamerV3[6]: 通过引入自适应的归一化、平衡损失等创新技术,解决了算法在超参数敏感性和任务普适性上的关键挑战,实现了前所未有的通用性和鲁棒性 (Robustness)。单个固定配置的 DreamerV3 算法,无需针对特定任务调整超参数,就能在涵盖连续控制、视觉导航、复杂决策等超过 150 个多样化且极具挑战性的强化学习基准任务上取得优异且稳定的性能。DreamerV3 的高度通用性、卓越性能和鲁棒性,标志着世界模型技术迈向通用智能体的关键一步。其重大突破性成果于 2025 年发表在顶级期刊 《Nature》[6] 上,成为世界模型领域迈向主流通用智能路径的重要里程碑。
2. Dreamer框架原理
2. Dreamer框架原理
世界模型为智能体提供可微的“内心沙盒”,使其能够在抽象潜在空间中重建并演化环境,减少对高风险真实交互的依赖。框架由编码器、解码器和潜在动力学模型协同构成。编码器用卷积网络等将高维观测压缩成信息充足的潜在状态,解码器再把潜在表示还原为可观测信号,用于校验想象世界并反向传播误差,潜在动力学模型依据当前潜在状态与动作预测下一潜在状态及奖励,并显式刻画环境的不确定性。整条闭环既大幅压缩计算开销,又在潜在空间保留关键因果结构。训练阶段交替执行两步。第一步在真实轨迹上同时最小化观测重建误差与一步预测误差,以塑造具有任务判别力的潜在表征;第二步让模型在自身生成的多步“想象”里优化变分下界或信息瓶颈正则,迫使动力学网络捕捉长期规律。
PlaNet 率先验证了该思路,而 Dreamer V1 至 V3 通过离散随机潜变量、对抗式奖励预测和深层自监督进一步提升了样本效率与稳定性。Dreamer 系列自最早的 PlaNet 提出后,研究者持续在模型结构、规划效率和训练鲁棒性方面迭代,逐步形成 Dreamer V1、V2、V3 等版本。每一代框架在继承“重构观测数据并在潜在空间建模环境动态”这一核心理念的基础上,引入更先进的推理网络、归纳偏置和优化策略,显著增强了基于模型的强化学习在高维视觉控制、棋类对弈以及复杂机器人任务中的表现力与泛化能力,但始终以 RSSM 为骨架,在潜在空间刻画环境的时序结构和潜在因果机制。决策阶段采用“想象加评估”的范式。代理先将当前观测编码为潜在状态,在模型内部并行生成大量虚拟轨迹并累计预测回报,然后使用交叉熵法、演化搜索或可微梯度从中选出价值最高的动作序列,从而获得前瞻规划能力与不确定性评估。Dreamer 的关键突破在于把这些想象轨迹当作伪经验,用于离线训练策略网络与价值网络。两者在潜在空间通过 Actor Critic 框架协同优化,实现实时控制与高效学习,使 Dreamer 系列在 Atari、MuJoCo 等基准上超越无模型算法,并提供可解释的规划路径和风险分析,为统一模型化与策略学习奠定了范式。
Dreamer框架原理示意图。 引自[6]
2.1 世界模型架构
2.1.1 编码器-解码器(Encoder-Decoder)
在Dreamer框架中,深度模型基于编码器-解码器架构,从高维感知输入(如图像)中学习紧凑的潜在表示。编码器通常由卷积神经网络(CNN)构成,用于提取图像观测的高层特征。具体地,编码器将每个观测
• 编码器:在Dreamer框架中,编码器(Encoder)承担着将高维原始观测xt映射为低维潜在表示zt的关键任务。其设计不仅要高效提取观测中的关键信息,还需保证潜在表示能够支持环境动力学建模与未来轨迹模拟。Dreamer系列方法通常采用卷积神经网络(CNN)作为编码器的主体结构,主要特点包括:逐层卷积提取图像观测中的局部与全局特征;将输入x
• 解码器与观测重构:解码器(observation model)负责从潜在状态重构原始观测。通常,解码器由卷积神经网络(CNN)的反向结构(如转置卷积)构成,用于将潜在表示还原为观测空间的分布参数。在Dreamer框架中,给定当前潜在状态(包括确定性隐状态
1. PlaNet和DreamerV1/V2多采用高斯分布或伯努利分布对像素值建模;
2. 优化过程中,分别对应于均方误差(MSE)损失或对数似然损失。
3. DreamerV3进一步在解码器输出中引入了symlog变换处理:将原空间的像素或向量值应用对称对数压缩变换:
4. 在symlog空间计算均方误差损失。
这种变换能够在保持小值分辨率的同时压缩极端取值范围,提升了模型在不同尺度环境下的重构稳定性,避免了因大幅度数值变化导致的训练不稳定问题。
• Dreamer根据不同版本引入了两类潜在变量设计:
• 连续潜变量(PlaNet, DreamerV1):1. 潜变量;4. 保证采样过程可微,支持反向传播训练。
• 离散潜变量(DreamerV2及之后):1. 潜变量
• 潜在表示的先验与后验分布选择:在Dreamer框架中,世界模型为每个潜在变量指定先验分布。
2.1.2 潜在动力学模型(Latent Dynamics Model)
要理解 Dreamer 如何在高维感知与稀疏回报的环境中迅速学习并规划行动,首先需要把握其世界模型奠基的两块核心积木。其一是沿时间轴不断演化并支持前向想象的潜在动力学,其二是用概率方式捕捉瞬时不确定性与多重未来可能的潜在变量。首先先来了解一下这两个机制
• 潜在动力学:Dreamer 通过一套递归状态空间机制把时间序列的信息压缩到隐含的内部记忆里。每当智能体采取动作后,模型会依次执行两步。首先,它依据先前的隐藏记忆和刚刚的动作给出对下一时刻隐藏状态的预测,这一步融入了对未来的想象能力。接着,模型在真正观察到环境反馈后,用新的感官信息修正那一预测,从而细化记忆并降低不确定性。由于隐藏记忆是由循环神经网络门控单元持续更新,它能长期保留与任务相关的情境脉络;而通过不断在隐藏空间里进行想象式滚动,策略和价值函数得以在完全离线的内部世界中训练和改进,从而实现高数据效率的强化学习。
• 潜在变量:在每一个时间点,Dreamer都会为瞬时感知生成一组随机潜在变量,用来描述环境状态中那些肉眼不可见但又至关重要的细节。这些随机量以概率分布的形式存在,为模型提供了一种表达多重可能未来的手段。它们与稳定的隐藏记忆携手工作:隐藏记忆负责整合长期依赖,随机潜在变量捕捉短暂且具有多样性的要素。为了训练这部分表示,模型同时学习观测重建、奖励预测与折扣预测三项任务,使随机潜在变量既对环境外观负责,也对行为后果负责。结果便是在同一个紧凑的隐空间里统一了感知、决策与规划,让智能体能够在面对复杂或部分可见的世界时保持灵活而稳健的推断能力。
PlaNet引入了循环状态空间模型(RSSM),用于在潜在空间中建模环境动力学[3]。RSSM结合了确定性路径与随机路径:每个时间步的隐状态由一个确定性递归状态
1. 状态转移模型:
2. 动力学预测模型:采样规则为:。在缺乏观测时,根据当前
3. 编码器(后验估计)模型:
4. 观测解码器模型:。从
5. 奖励预测模型:。用以在潜在空间中预测奖励,辅助世界模型训练,并为策略优化提供模拟反馈。
6. 继续标志(终止预测)模型:。预测episode是否终止(
RSSM将环境建模为部分可观察马尔可夫决策过程(POMDP),确定性隐状态
1. 确定性路径(
2. 随机路径(
• 多步预测与潜在轨迹训练:
由于RSSM需要支持智能体在潜在空间中进行规划与“想象”未来,其多步预测的准确性至关重要。传统的序列变分自编码器(VAE)训练方法——即在每个时间步重构观测并施加一次KL正则化——实际上只直接优化了单步状态转移,使得梯度仅能感知到单步预测误差。这种训练方式虽然在单步预测上效果良好,但在多步滚动预测中,误差易于累积,显著削弱了长期推理与规划的能力。为了解决这一问题,PlaNet提出了潜在超前(latent overshooting)的多步变分训练目标。其核心思想是:不仅对单步转移(即先验分布和
,然后将预测得到的
与基于真实观测得到的后验
其中,
• KL正则化与平衡技术:
在RSSM的训练过程中,每一个时间步都需要保持先验预测与后验推断
• RSSM架构的改进与增强:在DreamerV3中,针对RSSM的模型架构进行了多项重要增强,旨在提升在不同任务环境下的训练稳定性与整体性能表现。具体而言,DreamerV3采用了分块GRU(Block GRU)作为序列建模的核心递归单元,并引入了RMSNorm归一化和SiLU激活函数,以改善梯度传播特性并增强训练过程的数值稳定性。分块GRU是一种将隐藏状态划分为若干独立子块、并在子块内部并行更新的递归结构。这种设计在扩展隐藏规模的同时,能够显著缓解传统RNN在大规模建模时常见的优化不稳定问题。得益于这些架构改进,DreamerV3的世界模型可以根据任务需求灵活扩展参数规模(从数千万到数亿量级),在不同规模下使用统一的超参数配置而无需专门调整,体现出优异的扩展性与稳健性。此外,在离散潜变量的建模方面,DreamerV3引入了1%均匀混合(unimix)策略,即将分类先验分布与均匀分布按99:1的比例进行线性混合。这一策略相当于在先验输出中注入了极小的平滑项,有效防止了预测概率在训练早期快速饱和至0或1的现象,从而提高了潜在动态建模的鲁棒性,减少了陷入局部极值或不稳定优化轨迹的风险。通过这些架构和正则化细节的系统性优化,DreamerV3的世界模型能够在多种不同环境中实现稳定训练——从像素级离散控制任务(如Atari游戏),到连续动作控制任务(如DMControl套件),再到极具挑战性的稀疏奖励开放世界环境(如Minecraft)等。更为重要的是,这种稳健性使得模型在不同任务间几乎无需针对性微调超参数配置,展现出出色的泛化能力与工程实用性。
2.2 世界模型训练过程
世界模型的训练过程每个版本略有不同,在此部分,以DreamerV1为例。DreamerV1是一种强化学习方法,通过学习一个紧凑的潜在世界模型(世界模型,World model),将高维图像输入编码为低维潜在状态,并根据状态预测下一个状态和奖励,从而高效地从图像输入中解决长期目标的任务。其训练过程可以分为多个阶段,每个阶段都有其关键的任务和目标。
2.2.1 表征学习阶段
在训练初期,DreamerV1需要学会从环境中收集的数据中提取出“有用的信息”,即通过一套神经网络将图像、动作以及环境奖励编码成一个较低维度的潜在空间。这个阶段的目标是学习一个世界模型,能够预测智能体在未来的状态和获得的奖励。这个过程是整个系统的基础,因为它为后续的策略优化和长远行为规划提供了所需的潜在表示。
在表征学习阶段,DreamerV1训练了三个关键部分:
• 表征模型(Representation Model):
它负责将观测数据(例如,图像)转化为潜在的连续状态表示。换句话说,模型通过观察图像(
• 转移模型(Transition Model):转移模型的作用是根据历史的潜在状态和动作预测未来的潜在状态,从一个状态转移到下一个状态。它学习在给定当前潜在状态和动作的情况下,如何生成下一个潜在状态。这使得DreamerV1能够在潜在空间中进行“想象”,预测未来的状态。其公式为:
表征学习阶段的目标是最大化变分下界(ELBO),目标函数为:
其中,
Dreamer 的组成部分。引自[4]
在实现中,表征模型采用卷积网络(CNN)提取图像特征,转移模型使用循环状态空间模型(RSSM)处理时间序列信息 ,并使用重参数化技巧和随机梯度反向传播(Kingma & Welling方法)[7]来训练整个模型 。
2.2.2 重参数技巧与ELBO目标函数
在进行策略优化时,DreamerV1使用了重参数化技巧,将随机性引入可微分的路径中,从而使得梯度能够流畅地通过网络,优化潜在状态和策略网络。
例如,假设潜在状态
这样,智能体可以通过调整
ELBO目标函数结合了重建观测误差、奖励误差和KL散度,通过最大化ELBO,确保模型在潜在空间中能够高效预测未来状态和奖励,同时保持潜在空间的良好结构。
这一变分目标与使用重参数化技巧相结合,使得潜在动力学模型和策略能够端到端地被深度神经网络优化。
2.3 规划与决策机制
在完成潜在动态模型的训练之后,智能体便具备了在潜在空间中进行前瞻性思考的能力——即在不依赖真实环境交互的前提下,基于当前潜在状态,利用训练好的世界模型模拟未来的状态演化与奖赏反馈。这一“想象能力”(imagination)是 Dreamer 系列算法的关键特征,也是在 PlaNet 等先导方法中首次系统化提出的。在此框架下,策略优化不再受限于真实数据的收集速度与环境延迟,而是可以在紧凑、高效的潜在空间中进行大规模并行 roll-out。这些 imagined trajectories 捕捉了模型关于未来状态—奖赏序列的预测,从而为智能体提供了丰富的“内省式”经验用于指导行为选择。接下来的部分将介绍 PlaNet 如何利用潜在空间生成高效的 imagined trajectories,并在此基础上,通过模型预测控制(MPC)或策略梯度等方式,完成对实际动作的选择与优化[3]。
2.3.1 潜在空间中的imagined trajectory
PlaNet 先将高维观测
·前向展开(model rollout):从当前与终止概率
,得到完整轨迹
。
·并行化优势:所有运算均在 32–64 维潜在空间完成,无需像素级渲染或物理积分;一次 GPU 前向即可并行生成数万条轨迹,计算复杂度仅与
利用这些 imagined trajectories,PlaNet 在无需显式策略网络的前提下,借助 MPC-CEM 直接在潜在空间搜索最优动作序列,从而实现对视觉控制任务的高效在线规划、数据高利用率以及对环境随机性的鲁棒应对。
2.3.2 使用MPC或policy gradient进行action selection
在获得想象轨迹后,智能体需要根据这些虚拟演练的结果选择实际执行的动作。一般而言,可采取两种途径在想象轨迹上进行决策:其一是采用模型预测控制(MPC)进行在线规划;其二是采用策略梯度方法训练出一个策略网络直接输出动作。
,环境推进后更新状态并重新求解优化问题,形成“滚动时域”(receding horizon)控制策略。MPC 的优点在于能够自然处理状态和动作约束,并具有对未来事件的预测能力;缺点则是每个时刻都要在线求解优化问题,计算开销较大,且对模型精度要求较高。
模型预测控制(Model Predictive Control, MPC)将决策问题转化为基于模型的序列优化过程:在每一个决策时刻,智能体从当前的潜在状态出发,搜索一系列未来动作,旨在最大化预期的累计回报。通常设定有限的规划视野
2.4 策略网络与值函数
尽管基于世界模型的在线规划方法(如 PlaNet 的 MPC-CEM 策略)能够充分利用模型的预测能力,并在任务早期提供良好性能,但这类方法在每一步都需高频、实时地执行代价昂贵的轨迹优化,因此在长期训练和高频交互任务中难以扩展。为了解决这一瓶颈,Dreamer 系列算法提出了一种新的路径:通过在潜在空间中生成高质量的 imagined trajectories,用于训练策略网络与价值网络,从而实现“思维先行”的策略学习。这一机制允许智能体脱离实际环境、在模型内部高效地反复试错,并通过 Actor-Critic 框架在潜在空间内持续优化其行为策略。下面将详细介绍 Dreamer 如何在这一模拟世界中训练策略网络(actor)与价值函数(critic),并探讨其在稳定性与泛化能力上的一系列优化设计。
2.4.1 从在线规划到潜在空间策略学习
在PlaNet中,智能体通过在线规划进行决策:每次动作选择时,基于当前学习到的世界模型,在潜在空间中采样并评估多个动作序列(如使用交叉熵方法CEM),选取累计奖励最高的动作执行[3]。尽管该方法充分利用了模型的预测能力,能够动态适应每次决策,但因每步都需大规模模型推演,计算开销极高,难以扩展至大规模或实时任务。Dreamer系列则提出了另一种路径:潜在空间内离线策略学习。Dreamer让智能体在世界模型生成的“想象轨迹”中反复训练,直接学习一个策略网络(Actor)根据潜在状态快速输出动作,同时配备价值网络(Critic)估计潜在状态的长期回报,为策略优化提供梯度信号。通过这一基于模型的Actor-Critic框架,Dreamer不仅继承了模型预测的优势,还显著降低了推理时的计算成本,实现了无需实时规划即可高效决策与执行的能力。
2.4.2 想象环境与模拟轨迹
Dreamer通过在潜在空间中进行想象(imagination)生成训练数据。整体流程如下:
首先,从真实环境交互中收集初步经验,并将其存入经验回放池。
随后,智能体在潜在空间中反复执行以下训练循环:
1. 从经验回放池中采样一批真实经历对应的潜在状态(即通过编码器将观测
2. 在世界模型内部展开长度为
①策略网络(actor)
②RSSM的转移模型
③奖励模型
④终止模型判断是否达到episode结束条件。
通过上述过程,生成一条完全由世界模型预测产生的伪轨迹序列:
2.4.3 价值函数训练
在Dreamer框架中,价值网络以潜在状态(
具体地,给定一条想象轨迹:
其中。λ-return的基本思路是对不同步长
式中,
随后,价值网络通过最小化以下均方误差损失进行训练:。
为进一步提升训练的稳定性与鲁棒性,Dreamer引入了以下优化措施:
1. 终止状态折扣修正:对于预测为终止的状态,Dreamer根据折扣因子
2. 回报尺度归一化(Symlog变换与Two-Hot编码):为了适应不同任务环境下回报尺度差异,DreamerV3引入了对称log变换(symlog)与Two-Hot编码结合的方法:Symlog变换压缩回报尺度,公式为:
3. 目标网络机制(Exponential Moving Average, EMA):为了防止价值估计在训练中发生不稳定震荡,DreamerV3引入了目标价值网络。具体做法是:维护一个价值网络参数的指数滑动平均版本(EMA),并在训练中添加正则项,促使在线价值网络输出逐步向目标网络靠拢。
2.4.4 策略网络的训练与优化
在Dreamer框架中,策略网络(actor)的目标是输出能够最大化长期累积奖励的动作。策略的训练完全基于模型想象(imagination)生成的数据,而不是直接从真实环境中采样梯度信号。在一条想象轨迹中,策略网络希望在每一个潜在状态
Dreamer采用策略梯度(policy gradient)方法来优化这一目标。由于世界模型提供了可微分的潜在空间动力系统,Dreamer能够直接在潜在轨迹上进行梯度计算,实现高效的策略更新。
策略梯度计算与损失构建
在训练过程中,策略网络根据当前潜在状态。RSSM根据
为了统一适配连续与离散动作环境,Dreamer在想象轨迹中使用REINFORCE策略梯度近似目标:
其中,是基于λ-return构建的多步累计回报,
策略网络的整体损失函数定义为:
其中,第一项是基于优势的策略梯度项,第二项是熵正则项(
鲁棒回报归一化
为了进一步提升训练稳定性,Dreamer引入了鲁棒回报归一化(robust return normalization)机制,以应对不同任务中奖励尺度差异带来的训练不平衡问题。具体做法是:在每个模拟批次中,收集所有,取第5百分位
。这种归一化确保了在稀疏奖励或密集奖励环境中,优势尺度大致统一,熵正则项
世界模型冻结策略
为了保证训练的稳定性,Dreamer在策略优化阶段冻结世界模型参数,即策略网络更新过程中不会反向修改RSSM或奖励模型。这种设计保证了策略训练是在一个静态、稳定的模拟环境中进行,符合策略梯度理论假设,避免了模型和策略间相互干扰导致的震荡与不稳定。
3. 不同版本对比
3. 不同版本对比
3.1 关键改进
• PlaNet → DreamerV1:
最大的转变是从planning-based (CEM) 切换为actor-critic based 策略学习。
支持端到端强化学习更新,训练效率更高。
• DreamerV1 → DreamerV2:
引入了更稳定的 value bootstrap目标,缓解了价值训练过程中的variance问题。
训练更加稳定,在长时序任务上性能显著提升。
• DreamerV2 → DreamerV3:
通用性增强,支持离散动作空间,显著扩展适用范围(如Atari游戏)。
引入任务自适应正则化(task-adaptive regularization),提升跨任务泛化能力。
世界模型结构更深层次,引入更强的隐状态表达能力。
4. 应用与性能
4. 应用与性能
4.1 在Mujoco、Atari、DMC等环境下的表现
4.1.1 DreamerV2
DreamerV2 在 Atari 基准测试中表现出色,超越了多个强大的无模型算法。论文选取了 55 款 Atari 游戏进行实验,遵循特定的评估协议,使用单任务设置且每个代理仅使用单个环境实例。在与 IQN、Rainbow、C51 和 DQN 等无模型算法的对比中,DreamerV2 在所有四种聚合指标(Gamer Median、Gamer Mean、Record Mean、Clipped Record Mean)上均优于这些算法。例如,在 200M 环境步骤时,DreamerV2 的 Clipped Record Mean 得分为 0.28,而 IQN、Rainbow、C51 和 DQN 的该指标得分分别为 0.21、0.17、0.15 和 0.12。在个别游戏上,DreamerV2 在大多数游戏中取得了可比或更高的性能,如在 James Bond、Up N Down 和 Assault 等游戏上相比无模型代理有显著提升,但在 Video Pinball 游戏上表现欠佳,可能是因为世界模型的重建损失未鼓励学习有意义的潜在表示,游戏中最重要的物体 —— 球,仅占一个像素。
Atari 游戏性能,引自[5]
2 亿步时的Atari游戏性能。 引自[5]
2 亿步时的Atari游戏性能。引自[5]
4.1.2 DreamerV3
在连续控制任务中(如 MuJoCo 控制基准套件),DreamerV3 在18个低维状态输入任务上取得了当前最优成绩,其平均得分显著超越此前表现领先的 D4PG 和 DMPO 等算法。在50万步交互的数据预算下,DreamerV3 不仅收敛速度更快,最终得分也更高,显示出强大的样本效率和泛化能力。同样地,在20个基于高维图像输入的 DeepMind Control Suite 控制任务中,DreamerV3 建立了新的性能标杆,全面超越了依赖数据增强的先进方法 DrQ-v2 和 CURL。即使在仅有100万步交互的数据限制下,DreamerV3 依然展现出更高的平均得分和更稳定的收敛趋势。在离散控制任务方面,DreamerV3 在 Atari 游戏基准上表现同样优异。在标准的200M帧设置(约5000万环境步)下,其得分中位数达到人类水平的302%,显著高于前一代 DreamerV2 的219%,也优于模型无关的强化学习方法如 Rainbow 和 IQN。此外,在注重数据效率的 Atari 100k 设置(仅40万环境步)中,DreamerV3 超越了 SimPLe、SPR、IRIS 等此前最佳算法,在26个游戏中的平均人类归一化得分中排名前列,仅略低于采用蒙特卡洛树搜索等技术的 EfficientZero。总体而言,DreamerV3 在不依赖任务特定调参的前提下,凭借统一的超参数配置,在涵盖低维与高维输入、连续与离散控制的多种环境中,均实现了更高的平均得分和更快的学习收敛,展现出卓越的通用性与性能上限。
DreamerV3 在多个基准环境中的平均得分表现。 引自[6]
图中横轴对应不同测试环境,纵轴表示任务得分或人类归一化得分。图例中,蓝色柱表示使用统一超参数配置的 DreamerV3,灰色柱代表在各环境中经过精细调参的专家算法,绿色柱则为常用基线方法 PPO。可以看出,DreamerV3 在 Proprio Control(状态输入的连续控制任务)、Visual Control(图像输入的连续控制任务)以及 Atari 100k 和 200M 等典型基准中,均实现了最高的平均得分,全面领先于现有主流方法。
4.2 与SAC、TD3、PPO等方法的对比
4.2.1 DreamerV3
在各类任务环境中,DreamerV3 始终显著优于典型的模型无关深度强化学习算法。
在连续控制领域,DreamerV3 超越了 SAC/TD3 风格的多种方法,包括 DeepMind 提出的 D4PG、DMPO 和 MPO,在相同的交互步数条件下实现了更高的累计奖励。与这些高度依赖环境特定调参的离线策略算法不同,DreamerV3 采用统一超参数配置即可取得更优表现,展现出良好的泛化能力和可迁移性[6]。
在高维视觉输入任务中,DreamerV3 同样领先于依赖数据增强或对比学习的对手,如基于 SAC 的 DrQ-v2 及使用表征学习的 CURL。这进一步体现了 DreamerV3 在从图像观测中提取潜在动态结构方面的强大能力。
在离散动作空间下,DreamerV3 也取得了显著突破。在 Atari 游戏基准中,其最终得分超越了强化学习领域的经典代表 Rainbow 和 IQN,甚至超过了采用蒙特卡洛树搜索的模型规划方法 MuZero,且所需计算资源仅为后者的一小部分。
在具备程序生成特性和复杂视觉干扰的 ProcGen 基准中,DreamerV3 的整体表现与调参后的 PPG 相当,并略有超出,同时显著优于 Rainbow 等传统方法。
在需要高级空间和时间推理能力的 DeepMind Lab (DMLab) 3D 环境中,DreamerV3 在仅使用 1 亿帧(100M)数据的情况下,就已达到甚至超过 DeepMind 的分布式强化学习算法 IMPALA 在 10 亿帧(1B)下的表现,展现出数量级的样本效率提升。
此外,在所有测试环境中,DreamerV3 相较于 PPO 表现出压倒性优势。即使在不进行任务特定调参的情况下,DreamerV3 依然大幅超越高质量实现的 PPO 策略梯度算法。这充分表明,DreamerV3 不仅在最终得分上具有领先优势,更在数据效率和通用性方面实现了全面超越。
4.3 在高维视觉输入上的优势
4.3.1 DreamerV3
DreamerV3 在高维像素观测任务中展现出显著优势,能够无需针对图像任务进行特殊调整,便在视觉控制、Atari、ProcGen、DMLab、Minecraft 等典型像素输入环境中取得领先表现[6]。例如,在视觉控制套件中,DreamerV3 凭借统一配置、无任何额外数据增强,便超越了专为图像环境设计的强化学习算法,如 DrQ-v2 和 CURL,取得更高分数。
在具备程序生成关卡的 ProcGen 游戏中,DreamerV3 在仅使用 5000 万帧数据的情况下,便达到与经过调参优化的 PPO 派生算法(PPG)相当的表现,并显著优于 Rainbow 等传统方法。这些结果表明,DreamerV3 在处理高变异性视觉任务时具备出色的泛化能力和鲁棒性。
更为关键的是,DreamerV3 所构建的世界模型能够从高维像素观测中捕捉环境的潜在结构。上图展示了其在 DMLab 迷宫环境(上)与四足机器人任务(下)中的视频预测示例:在仅观察初始5帧真实图像后(True,左侧),模型可基于其内部状态连续预测未来45帧的环境演化(Model,右侧),而无需进一步依赖真实图像输入。结果显示,预测序列与真实轨迹在空间结构和动态变化上高度一致,表明 DreamerV3 能够有效学习3D迷宫的布局规则和机器人运动的动力学特征。
凭借这一结构化世界模型,DreamerV3 能够在需要复杂时空推理的任务中实现高效探索与长时规划。在 DMLab 的30个三维任务中,DreamerV3 仅用 1 亿帧交互数据(100M)即达到并超过 IMPALA 在 10 亿帧(1B)下的表现,实现了超过 10 倍的数据效率提升。
总体而言,DreamerV3 在高维视觉输入环境中展现出强大的表征学习与前瞻性规划能力,显著超越了多数模型无关强化学习算法的能力上限。
DreamerV3 在视觉输入中的表征学习与前瞻性规划能力示例图。引自[6]
4.4 其他应用
4.4.1 DreamerV2:消融研究
在探索DreamerV2算法卓越性能的成因时,研究人员开展了全面深入的消融研究。消融研究作为一种常用且有效的分析手段,通过系统地去除、改变模型中的特定组件,来精准观测这些调整对模型整体性能的影响,进而挖掘出模型中各个要素的重要性和作用机制。
在对DreamerV2的消融研究中,主要围绕几个关键部分展开。
在潜在变量的研究上,着重对比了DreamerV2所采用的分类潜在变量和DreamerV1运用的高斯潜在变量。大量实验结果表明,分类潜在变量在众多任务中展现出明显优势,在42个任务上的表现超越了高斯潜在变量。进一步探究发现,这可能得益于多个因素:从概率分布特性来看,分类先验能够完美适配聚合后的后验分布,而高斯先验在面对混合高斯后验时则难以匹配,这使得分类潜在变量在预测图像间复杂的多模态变化时更具优势;从数据表示角度,由分类潜在变量向量生成的稀疏性结构,有助于提升模型的泛化能力,其展平后的稀疏二进制向量在信息表达上更为高效;在优化难度方面,分类变量或许更容易进行优化,直通梯度估计器的特性减少了可能导致梯度异常的因素;在任务适配性上,分类变量更契合Atari游戏中诸如场景切换、物体出现或消失等非平滑变化的建模需求。
KL平衡也是本次消融研究的重点内容。研究结果显示,KL平衡在大部分任务(44个)中,表现优于标准的KL正则化方式。这一技术的核心价值在于,它能够引导世界模型学习到更为准确的先验动力学。在策略优化过程中,通过对先验交叉熵和后验熵的合理调整,鼓励模型朝着改进先验动力学、使其更接近真实后验的方向进行优化,从而为模型性能的提升奠定坚实基础。
模型梯度在DreamerV2的运行机制中扮演着关键角色。其中,图像梯度对于世界模型的正常运作至关重要,当停止图像梯度的输入时,大部分(51个)任务的性能出现了明显下降。这一现象充分证明,DreamerV2的世界模型高度依赖高维图像所提供的学习信号来构建对环境的有效认知。而对于奖励梯度,研究发现停止其输入后,在15个任务上性能有所提升,在22个任务上有所下降,还有18个任务持平。这一结果表明,不专门针对过往奖励进行预测学习的模型表示,在面对未曾经历的新情况时,可能具备更好的泛化性能,能够更灵活地应对不同场景。
在策略梯度的研究中,发现DreamerV2在学习策略时主要依赖强化梯度。虽然混合强化梯度和直通梯度在诸如《 James Bond》和《Seaquest》等个别游戏中,能够显著提升成绩,但单独使用直通梯度进行策略优化时,效果却不尽如人意,在44个任务中表现不佳。这主要是因为直通梯度本身存在一定偏差,无法像强化梯度那样为策略学习提供稳定且有效的引导。
综上所述,这些消融研究全面且细致地揭示了离散潜在变量、KL平衡、图像梯度和强化梯度等因素,在DreamerV2实现卓越性能过程中所发挥的不可或缺的作用。它们不仅为深入理解DreamerV2算法的内在机制提供了关键线索,也为后续对该算法的进一步优化和改进指明了方向,具有重要的理论和实践意义。
DreamerV2 智能体各种消融实验的裁剪记录归一化分数。引自[5]
通过 2 亿帧时的Atari性能对 DreamerV2 进行的消融实验,按最后一列排序。引自[5]
4.4.2 DreamerV3:BSuite 和 Minecraft 等拓展任务性能
除了在常规基准环境中的优异表现,研究者还系统评估了 DreamerV3 在多个具有挑战性的拓展任务中的性能表现。在 DeepMind BSuite 基准测试中(涵盖23个环境共468种配置),DreamerV3 再次取得了新的总体最优成绩,超越了此前表现最好的方法,如 Bootstrapped DQN 和 Muesli。尤其在奖励尺度变化显著的子任务上,DreamerV3 的表现提升尤为显著,体现出其通过归一化和稳定性增强机制在策略泛化方面的优势[6]。
在 Crafter 环境中(一个像素风格的开放世界生存游戏),DreamerV3 同样刷新了当前最高记录。与强调探索和记忆建模的强化学习算法相比(如基于 LSTM-SPCNN 架构的 PPO、OC-SA 探索方法、DreamerV2 及 Rainbow DQN 等),DreamerV3 实现了更高的平均得分和任务完成度,成为该环境下的新状态-of-the-art。这一结果显示,DreamerV3 所构建的世界模型不仅具备稀疏奖励条件下的策略搜索能力,也在长时间跨度的任务中展现出出色的记忆与规划能力。
最具突破性的成果来自于对复杂3D开放世界游戏 Minecraft 的探索。在该环境中,“获取钻石”被视为强化学习领域极具挑战性的长期目标任务。DreamerV3 是首个无需任何人类演示或预训练即可从零开始成功获取钻石的算法。上图展示了其在训练过程中的回报曲线:黑色线代表单次任务中获得钻石的最高回报(成功挖到钻石后回报陡增),灰色线表示回合平均回报。从图中可以看出,DreamerV3 在大约 3000 万步时首次完成钻石任务,随后完成频率稳步上升,至约 1 亿步时,多数运行均能稳定获取钻石。论文报告显示,在 40 个不同随机种子的实验中,有 24 个至少成功获得过一颗钻石,其中表现最优的代理甚至在第6个回合便成功挖掘出钻石。相比之下,多种强基线方法虽然能够推进至获取铁镐等中级目标,但在相同数据预算下无一能成功获得钻石。
综上所述,DreamerV3 在 BSuite、Crafter 以及 Minecraft 等具代表性的高难度任务中均实现了突破性进展,进一步验证了其无需特定调参即可适应多样环境,并在处理稀疏奖励与长期依赖问题中具备显著优势。
DreamerV3 在 Minecraft “获取钻石”任务中的学习曲线。引自[6]
上图中横轴为环境交互步数(采用对数刻度),纵轴表示每个回合的累计奖励,其中包括关键物品获取的进度奖励,成功获得钻石时的单回合得分最高可达约 12 分。图中黑色曲线表示训练过程中达到的单回合最高得分,灰色曲线则表示所有回合的平均得分。从图中可以观察到,DreamerV3 随着训练的深入,逐步学习并解锁关键工具链(如木镐、石镐、铁镐),最终成功获得钻石。值得强调的是,DreamerV3 是首个在完全无任何人类演示或专家数据辅助的条件下,从零开始完成“获取钻石”任务的强化学习算法,标志着其在复杂开放世界任务中的探索与规划能力达到新高度。
5. 影响与发展
5. 影响与发展
Dreamer 系列框架作为近年来世界模型研究中最具代表性的成果之一,不仅在算法性能上取得了显著突破,也在理论架构和实践策略上对后续研究产生了深远影响。自 PlaNet 到 DreamerV1/V2,再到 DreamerV3 在 2025 年发表于《Nature》,其开创的 “端到端潜在空间建模+策略学习”架构,解决了传统 MBRL 在高维感知与长期规划中的根本性难题,将世界模型从图像重构辅助的预测模型演化为具备决策能力和泛化能力的智能代理,极大拓宽了基于模型强化学习(MBRL)的应用边界。
5.1 对后续研究的启发
Dreamer 系列提出的关键思想——在潜在空间中建模环境动态并进行策略优化,为后续研究提供了可扩展且高效的范式。在 Dreamer 的基础上,一系列工作相继发展:
5.2 世界模型在通用人工智能(AGI)中的作用展望
从认知科学角度看,人类智能的形成离不开对世界的建模与模拟。在这一意义上,世界模型为构建具备“内在模拟能力”的通用智能体提供了关键路径。Dreamer 系列的成功表明,智能体能够仅凭环境交互数据,在潜在空间中构建出具备预测、规划与决策能力的内部模型,这种能力在实现 AGI 的多个核心方面具有深远意义:
因此,可以预见,随着 Dreamer 系列方法在表达能力、训练稳定性和可解释性方面的进一步提升,世界模型将逐渐成为构建通用人工智能(AGI)系统不可或缺的基础模块。
参考文献:
1. Richard S. Sutton. Dyna, an integrated architecture for learning, planning, and reacting. SIGART Bull., 2(4):160–163, July 1991. ISSN 0163-5719. doi: 10.1145/122344.122377. URL https://doi.org/10.1145/122344.122377.
2. HA D, SCHMIDHUBER J. World Models[J/OL]. arXiv.org, 2018. DOI:10.48550/arxiv.1803.10122.
3. HAFNER D, LILLICRAP T, FISCHER I, etl. Learning Latent Dynamics for Planning from Pixels[J]. arXiv.org, 2019.
4. Hafner D, Lillicrap T, Ba J, et al. Dream to Control: Learning Behaviors by Latent Imagination[C]//International Conference on Learning Representations.
5. Hafner D, Lillicrap T P, Norouzi M, et al. Mastering Atari with Discrete World Models[C]//International Conference on Learning Representations.
6. Hafner, D., Pasukonis, J., Ba, J. et al. Mastering diverse control tasks through world models. Nature 640, 647–653 (2025). https://doi.org/10.1038/s41586-025-08744-2
7. D. P. Kingma and M. Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114,2013.
8. Wu P, Escontrela A, Hafner D, et al. Daydreamer: World models for physical robot learning[C]//Conference on robot learning. PMLR, 2023: 2226-2240.
作者简介
本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈,一经采纳,可以获得对应的积分奖励噢!
加入我们
亲爱的社区伙伴与知识探索者:
我们诚挚邀请热爱知识分享的您,加入集智百科词条编写志愿团队!无论您是领域专家,还是对特定主题充满热忱的学习者,这里都有您的舞台。通过编写百科词条,您将为全球读者传递权威知识,同时获得专家指导与个人能力跃升的双重成长。
📝 志愿者职责
创作新词条:覆盖复杂系统、人工智能等前沿领域
迭代经典内容:更新现有词条,守护知识的准确性与时效性
质量守护者:参与内容校对审核,共建精品知识库
🌟 我们期待您
集智读书会成员(需完成共创任务并获得退费资格)
拥有清晰表达复杂概念的写作能力
对特定领域有深度研究或强烈兴趣
具备信息检索与整合素养
怀揣责任感与协作精神,愿为知识共享赋能
🎁 您将收获
百科积分(支持兑换集智俱乐部周边:文化衫、复杂科学知识卡等)
集智俱乐部创始人张江教授亲自指导写作
科研助理晋升通道:表现优异者可加入张江教授科研团队
因果涌现读书会第六季
在霓虹灯的闪烁、蚁群的精密协作、人类意识的诞生中,隐藏着微观与宏观之间深刻的因果关联——这些看似简单的个体行为,如何跨越尺度,涌现出令人惊叹的复杂现象?因果涌现理论为我们揭示了答案:复杂系统的宏观特征无法通过微观元素的简单叠加解释,而是源于多尺度动态交互中涌现的因果结构。从奇异值分解(SVD)驱动的动态可逆性分析,到因果抽象与信息分解的量化工具,研究者们正逐步构建起一套跨越数学、物理与信息科学的理论框架,试图解码复杂系统的“涌现密码”。
为了系统梳理因果涌现最新进展,北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔发起「因果涌现第六季」读书会,组织对本话题感兴趣的朋友,深入研读相关文献,激发科研灵感。
读书会将从2025年3月16日开始,每周日早9:00-11:00,持续时间预计10周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。
推荐阅读
3. 什么是世界模型?为什么Sora不是 world simulator?
5. 集智学园精品课程免费开放,解锁系统科学与 AI 新世界
点击“阅读原文”,报名读书会
