PaperAgent 09月19日 19:48
空间智能模型新进展:3D/4D世界模型技术综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

李飞飞的World Labs发布了空间智能模型新成果Marble平台,标志着3D世界生成迎来新突破。本文献综述首次系统梳理了3D/4D世界模型的技术进展,明确了其定义、分层分类法、数据集与评测指标。文章将世界模型分为VideoGen、OccGen、LiDARGen三大类,分别对应视频流、体素Occupancy和点云序列,并深入探讨了各模态的关键技术挑战与最新方法。同时,综述提出了一套统一的评测体系,旨在解决当前术语碎片化、评测标准不一的问题,为自动驾驶、机器人、XR等领域的发展提供坚实的技术基础。

💡 **3D/4D世界模型定义与分类**: 本综述首次系统性地定义了3D/4D世界模型,将其理解为在原生三维或四维表示上,生成或预测几何合理、语义可控、时空一致的场景,以支持感知-决策-仿真全链路任务。文章将现有技术划分为三大类:VideoGen(处理多视角视频流)、OccGen(处理体素Occupancy)和LiDARGen(处理点云序列),并进一步细分为“数据引擎”、“动作解释器/预测器”和“神经/自回归模拟器”等功能角色,构建了一个“三模态 × 四功能”的全景图,为理解和比较不同技术提供了清晰的框架。

🚀 **各模态技术深度解析与挑战**: 文章深入剖析了VideoGen、OccGen和LiDARGen这三种核心模态的技术细节。VideoGen通过“时空编剧”的方式,利用BEV/HD-Map约束生成长视频,实现动作-结果可微分仿真,但面临长时序一致性、多视角几何对齐等挑战。OccGen则将世界构建为“可交互的乐高”,通过扩散模型补全稠密语义体素,预测未来4D occupancy,并支持可编辑的开放世界,但也需解决细粒度动态物体补全和长时序误差累积问题。LiDARGen直接进行“点云编剧”,利用扩散/流匹配生成逼真点云,实现点云级别的动作推演,并支持4D点云序列闭环生成,关键挑战在于保持扫描线结构和处理点云稀疏性。

📊 **统一评测体系的构建**: 针对当前“各玩各的”的碎片化评测现状,本综述提出并汇总了五类评测指标,包括生成质量(FID/FVD、FRD/FPD等)、预测质量(IoU@1s/2s/3s等)、以规划为中心的评测(碰撞率、PDMS等)、重建质量(PSNR/SSIM等)以及下游任务评测(3D检测mAP、BEV分割mIoU等)。这一统一的评测体系旨在为3D/4D世界模型的研究和发展提供一个更客观、全面和可比的标准,促进技术的健康发展和应用落地。

2025-09-19 11:15 湖北

前两天,李飞飞创业公司World Labs发布空间智能模型新成果,并推出可预览和创建3D世界的Marble平台。并发帖子表示她对3D世界生成的进展感到兴奋。

那么这背后都有哪些黑科技?今天分享一篇最新3D、4D世界模型技术最新全面系统性综述

2D 视频生成卷到头了,但真实物理世界天生是 3D+时间维度的

自动驾驶、机器人、XR、数字孪生都需要几何一致、可交互、长时序的时空场景。

缺乏统一术语 & 碎片化严重:同样叫“world model”,有人指视频生成,有人指预测器,有人指闭环仿真器。

图 1:综述整体框架

本综述首次系统梳理 3D/4D 原生表示(RGB-D、Occupancy Grid、LiDAR Point Cloud)的世界模型,给出明确定义、分层分类法、数据集与评测指标,并开源持续维护。

分层分类法

3D/4D World Model = 在原生三维或四维表示上,生成(Generative)或预测(Predictive)几何合理、语义可控、时空一致的场景,  以支持感知-决策-仿真全链路任务。

图 2:三模态 × 四功能全景图(来源:论文 Figure 2) |

模态

代表表示

功能角色(4 类)

VideoGen

多视角视频流

① Data Engine ② Action Interpreter ③ Neural Simulator

OccGen

体素 Occupancy

① Scene Representor ② Occ Forecaster ③ Autoregressive Simulator

LiDARGen

点云序列

① Data Engine ② Action Forecaster ③ Autoregressive Simulator

各模态深度拆解

VideoGen——把视频生成做成“时空编剧”典型方法时间线(2021-2025)图 3:VideoGen 代表方法逐年汇总(来源:论文 Figure 3)

Data Engine:MagicDrive、DiVE、DreamForge 等用 BEV/HD-Map 做几何约束,生成多视角长视频,解决长尾数据稀缺。

Action Interpreter:GAIA-1/2、DriveWM、Vista 把“转向+速度”映射到未来帧,实现动作-结果可微分仿真。

Neural Simulator:DriveArena、DreamForge 在闭环里交替“生成-决策”,替代传统游戏引擎渲染管线。

VideoGen模型分类
关键挑战:长时序一致性(InfinityDrive)、多视角几何对齐(DiST-4D)、稀疏标注下的可控性(MaskGWM)。

OccGen——把世界变成“可交互的乐高”图 5:OccGen 三功能分类(来源:论文 Figure 5) |

Scene Representor:SSD、SemCity 用扩散模型把稀疏 occupancy 补全为稠密语义体素,提升感知鲁棒性。

Occupancy Forecaster:OccWorld、OccSora、T3Former 以 ego-action 为条件,预测未来 3s 的 4D occupancy,误差 < 30 cm。

Autoregressive Simulator:DynamicCity、UniScene 支持“布局→时序体素→多传感数据”一条龙,实现可编辑的大型开放世界

OccGen
关键挑战:细粒度动态物体(自行车、行人)补全、长时序误差累积、与下游规划器端到端联合训练。

LiDARGen——直接“点云编剧”图 6:LiDARGen 三功能分类(来源:论文 Figure 6)

Data Engine:R2DM、LiDM、WeatherGen 用扩散/流匹配生成逼真点云,解决恶劣天气、稀有场景数据不足。

Action Forecaster:Copilot4D、ViDAR 把“历史点云 + 未来轨迹”映射到未来点云,实现点云级别的动作推演

Autoregressive Simulator:LiDARCrafter、LidarDM 支持4D 点云序列闭环生成,可直接喂给下游检测/规划网络做训练。

关键挑战:保持扫描线结构、处理点云稀疏性、跨模态与图像语义对齐。

统一评测体系——不再“各玩各的”

表 14:五类评测指标总表(来源:论文 Table 14) |

Generation Quality:FID/FVD、FRD/FPD、Consistency、Controllability、Human Preference

Forecasting Quality:IoU@1s/2s/3s、Chamfer Distance、Temporal Consistency

Planning-Centric:Open-Loop L2/碰撞率、Closed-Loop PDMS/ADS

Reconstruction Quality:PSNR/SSIM/LPIPS、Novel-View IoU

Downstream:3D Det mAP、BEV 分割 mIoU、VQA Top-1

    https://arxiv.org/pdf/2509.07996
    3D and 4D World Modeling: A Survey
    https://github.com/worldbench/survey

    推荐阅读


      每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      3D世界模型 4D世界模型 空间智能 计算机视觉 深度学习 综述 World Model Spatial Intelligence Computer Vision Deep Learning Survey
      相关文章