2025-10-24 16:55 湖北
维度 选项 一句话释义 Decision-Coupled 为「决策」量身定做,强耦合策略 General-Purpose 通用视频生成器,下游任务即插即用 Sequential 自回归,一步一帧,省显存但误差会累积 Global 一次预测全序列,速度快但吃算力 GLV / TFS / SLG / DRR 从「一把向量」到「3D 高斯」,保真度递增、效率递减 推荐阅读 动手设计AI Agents:(编排、记忆、插件、workflow、协作)🌏 为什么你需要关心“世界模型”?
具身 AI (Embodied AI)的核心痛点是“我动之后,世界会变成什么样?”世界模型(World Model)就是智能体的“脑内小宇宙”——它先模拟未来,再决定当下。从 Dreamer 到 Sora,从机器人到自动驾驶,世界模型正在统一感知→预测→决策的全链路。这篇 2025 年 10 月发布的 综述,首次用三维坐标轴把散落一地的文献重新拧成一股绳,堪称“具身 AI 地图”。Fig-1 论文整体框架图1:世界模型的三大分类轴——功能、时间、空间
🧩 三轴 taxonomy:给每篇论文贴「坐标」
Table-I 机器人领域代表方法表1:机器人/通用域代表方法「坐标」一览(对应论文 Table I)
功能 时间 空间 Table-II 自动驾驶代表方法表2:自动驾驶域代表方法「坐标」一览(对应论文 Table II)
📊 性能擂台:像素生成、场景理解、控制任务
1️⃣ 像素生成 - nuScenes 视频表4:nuScenes 视频生成排行榜2️⃣ 场景理解 - 4D Occupancy 预测指标:mIoU↑COME(GT ego)平均 mIoU 34.23%,领先第二名 7 个点结论:给「真值轨迹」当外挂,长期预测直接起飞表5:Occ3D-nuScenes 4D Occupancy 预测(对应论文 Table V)3️⃣ 控制任务 - DMC/RLBenchDreamerV3 在 5M step 内 20 任务平均 823 分,依旧能打VidMan 在 RLBench 18 任务平均成功率 67%,把「视频扩散+IDM」玩出花Table-VI DMC 控制得分表6:DMC 控制任务得分
Table-VII RLBench 操作成功率表7:RLBench 操作成功率
🚧 具身智能Agents安全挑战
具身人工智能的迅猛进展,凸显了对更先进、更一体化模型的迫切需求——这些模型必须能够感知、解读并预测环境动态。在此背景下,世界模型(World Models, WMs) 被提出,旨在赋予具身智能体预见未来环境状态并填补知识缺口的能力,从而增强其规划与执行行动的水平。自动驾驶或机器人领域中世界模型的示意图。当前观测和条件被用于预测未来观测,任务包括新场景(黄色)或控制动作(蓝色)的生成。我们的病理标准使得能够对这两个任务生成的输出进行安全性评估。然而,当模型与具身智能体深度耦合时,确保预测结果对智能体自身及环境均安全便成为根本前提。本文围绕自动驾驶与机器人两大领域,对世界模型进行了全面的文献综述,并特别关注场景生成与控制生成任务的安全隐患。开展了实证分析:收集并检验当前最先进模型的预测输出,识别并归类常见故障(文中称为 pathologies),并对结果给予量化评估。图 2:当前最优(SoTA)世界模型在场景生成任务中的典型故障示例。Visual Quality:MagicDrive-DiT 生成的帧出现模糊与失真Temporal Consistency:Open-Sora 的时序不一致导致物体“闪现”Traffic Adherence:Comsos 违反交通规则(红灯通行)Physical Conformity:Vista 出现车辆漂浮的物理违规Condition Consistency:This&That 输出与文本提示不符
图 3:当前最优世界模型在控制生成任务中的典型故障示例。(a) RoboGen 抓取姿态异常(b) Octo 轨迹与指令条件不一致 (c)(d) MILE 产生碰撞与物理违规
A Comprehensive Survey on World Models for Embodied AI https://arxiv.org/html/2510.16732https://github.com/Li-Zn-H/AwesomeWorldModelshttps://arxiv.org/pdf/2510.05865The Safety Challenge of World Models for Embodied AI Agents: A Review
每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~
