夕小瑶科技说 08月14日
从Genie 3看懂“世界模型”:为什么说它比语言模型更接近AGI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文聚焦于DeepMind最新发布的Genie 3,一个100%可控的实时AI世界引擎。文章深入探讨了“世界模型”这一核心概念,并将其与大语言模型进行了对比。与语言模型依赖海量文本不同,世界模型需要整合图像、视频、物理规律和因果关系等复杂数据,训练成本和技术门槛均远高于前者。Genie 3通过实时生成高质量、可交互的三维环境,展现了AI在理解世界方面的重大进展,并强调了这一能力对于实现通用人工智能(AGI)的必要性,认为真正的智能源于对世界的感知和经验,而非仅仅是语言的模拟。

🧠 Genie 3 是一个革命性的AI世界引擎,它通过实时生成高质量、可交互的3D环境,让AI能够以第一人称视角“体验”和“理解”世界。与前代产品相比,Genie 3在画面清晰度、帧率和互动性上有了质的飞跃,能够实时响应用户的指令,构建出逼真的场景,例如模拟在冰川湖畔奔跑或置身飓风现场。

💬 世界模型是AI理解世界的基础,它需要整合视觉、动作、物理规律和因果关系等多种复杂信息,而这与大语言模型主要依赖文本数据有着本质区别。训练世界模型面临数据获取、处理的巨大挑战,例如需要海量的视频数据和强大的计算资源,因此其发展比大语言模型更为缓慢和艰难。

⚙️ 世界模型的构建不仅是生成“像世界”的模拟器,更重要的是为AI提供“行为试错”的空间。通过在模拟环境中进行“行动-反馈-更新”的闭环学习,AI可以像人类一样在想象中学习和试错,从而发展出通用策略。这使得AI能够进行更深层次的推理和规划,是实现通用人工智能(AGI)的关键路径。

💡 真正的智能并非源于语言能力,而是基于对世界的真实感知和经验。Genie 3代表了AI从“模仿聪明”走向“理解世界”的转变。它强调AI需要具备“运动皮层”和“感觉神经”,通过身体记忆和与世界的互动来构建内在模型,才能实现真正意义上的通用智能,而非仅仅停留在语言层面的“聪明”或“能说会道”。

原创 R.Zen 2025-08-14 11:18 北京

昨天,Google 的一位开发负责人和 DeepMind CEO Demis Hassabis 进行了一场对谈。

视频地址:https://www.youtube.com/watch?v=njDochQ2zHs

整个访谈信息量很大,既聊到了 AGI 的进展、AI 需要具备的能力,也重点提到了不久前发布的 Genie 3 ——一个 100% 可控的实时 AI 世界引擎。

很多人可能只看过它的视频 demo,觉得这不过是 Google 做了个高端的视频生成器。

但其实,Genie 3 背后藏着的是一个目前最值得被认真讨论的概念:「世界模型(World Model)」

我们今天就想借着这次访谈,来跟你聊聊一个你可能从来没仔细想过的问题:

一个 AI 如果不理解这个世界,它还能算智能吗?

Genie,不只是视频生成器

回答这个问题前,我们先来真正的认识一下 Genie 系列。

Genie 这个名字不是最近才有的。早在 2024 年,DeepMind 就发布了第一代 Genie,它的主打口号是「用视频训练 AI 来理解世界」。

那时候它的能力很有限,只能根据用户输入的图像或语义,生成十几秒钟的视频片段。质量也比较糙,帧率低、画面模糊,有时候人物动作还会扭曲成一团,和我们平常用 Midjourney 做图、用 Runway 做视频的那种差不了多少。

但 DeepMind 当时的野心其实藏得很深。他们是拿这些视频当教材,想让 AI 从中学会物理规律、空间动态和因果关系。就像小孩看动画片能学到“水是会流的”“人摔倒了要起身”。

到了 Genie 2,已经能生成更连贯的 3D 环境了。

比如一个人在屋子里走路、滑雪、翻滚……但互动很有限,大多数时候你只能看着 AI 演一小段短片。你也不能插手、不能下指令,它就是个自动播放的窗口。而且,记忆是断裂的:如果你刚刚看到了一个红色滑雪板,下一帧它可能直接变成了绿色;一个物体刚刚出现在你左边,过了两秒它可能凭空消失。

所以从实用性上讲,Genie 1 和 2 更像是一种概念证明:我们能用视频教 AI“梦见”一个世界,但它还无法维持住梦的连贯性。

而到了 Genie 3,情况彻底变了。

它不但画面提升到了 720p 的清晰度,还能稳定地以 24FPS 的速率实时生成画面。

这是什么概念?就是说你在 AI 生成的世界里每走一步,它都能立刻刷新你眼前的场景,没有顿挫、没有卡顿,就像在玩一款开放世界游戏。但你别忘了,这是 AI 实时创造的

来看下和 genie2 的对比:

不仅如此,Genie 3 还首次引入了「提示式世界事件」(Promptable World Events)机制。你不只是能走动、能看,你还可以实时地给它下剧情指令。

从控制方式来看,Genie 3 也不再是看视频这么简单,而是真正支持第一人称视角导航实时互动,在世界中生活

你想把一段山林小径变成 AI 的世界?给一句 prompt:

“在冰川湖畔奔跑,穿行于林中分岔小径,跨越流淌的山间溪流。坐落在美丽的白雪皑皑的群山和松林之间。丰富的野生动物使旅程充满乐趣。”

Genie 3 会立刻为你生成这样一个环境。你可以进到这个场景里,看到水流怎么绕着石头走、鸟怎么飞、天光怎么洒下来。

再比如说生成一个飓风现场:

Genie 3 把它变成一整个可交互的三维环境。你可以置身其中,用第一人称视角看着海浪一波波打到公路上,棕榈树在风中剧烈摇摆。

好真实。。

这也解释了为什么 Demis Hassabis 在访谈里会多次强调,“Genie 是我们在模拟世界理解这件事上最重要的一步”,是 DeepMind 从 AlphaGo 一路走来,最想实现的梦想之一。“能生成一个世界”,本身就是对 AI 是否理解世界的最好测试。

而 Genie 3 通过每一帧想出来的细节,给了一个前所未有的答案。

为什么世界模型进展比大语言模型慢?

但看到这儿你可能会有个疑问:

为什么类似 GPT 的大语言模型更新一代比一代快,厂牌也越来越多,而世界模型似乎从未走进大众视野,始终只有几家在孤独地推进?

要理解这个问题,不妨先问自己:训练一个 AI 学会“说话”,和让它“理解世界”,哪个更难?

语言模型这些年突飞猛进,很大一部分,是因为它自带“开挂”:一是数据多,二是成本低。

互联网上几十 TB 的文本语料随便爬,公众号文章、小说、维基百科、知乎、Reddit……人类已经把世界用语言描绘得密密麻麻。

更核心的点在于,语言本质上是一维序列,训练方式也很“直给”——一句话接一句话,预测下一个词就行,成本低、效率高。

可世界模型呢?

它要做是预测下一个世界

    数据问题:世界模型吃的是“视频 + 物理 + 因果”,哪有那么多现成的?

你要训练 AI“理解世界”,靠纯文本没戏。
它需要的是图像、视频、动作轨迹、物理动态、空间结构、因果链条……这些信息不但数据量大,而且高度复杂。

比如一帧高清图像,相当于几万个 token,一段视频可能就是上百万 token;而且它还涉及时序、空间一致性、甚至角色之间的交互与反馈,你得把世界一帧一帧讲清楚

关键是,这些数据哪来的?

不像语言模型能爬网页,世界模型得靠自己造:

    DeepMind 用 Minecraft 自己合成环境

    Meta 从机器人采集第一人称视频

    英伟达的 Cosmos 模型背后,是千万小时的车载视频 +LiDAR+ 深度图 + 边缘图 + 多模态标签…

而哪怕你搞到了数据,还得经历: 拆分 → 去噪 → 注释 → 去重 → 分词 → 空间结构 → 跨模态对齐 → token 压缩…

NVIDIA 就指出,哪怕只训练一个 720p 的 5 秒视频模型,也要 PB 级视频 + 百万美元级别 GPU 资源,初创公司基本连门都摸不到。

    算法挑战:不是一句话接一句话,而是物理世界不能出 bug

语言模型的任务是生成“合理的句子”。哪怕它胡说八道点,只要读起来通顺,你可能都没发现。

但世界模型不是这样。它必须做到因果成立、物理合理、空间连续。  比如:

    一个杯子从桌上掉下去,不能下一帧就消失了;

    一辆车拐了弯,必须维持方向,不能突然漂移上天;

    一个角色说“我要出门”,下秒不能直接出现在山顶…

也就是说,它不仅要生成内容,还得维持这个世界的逻辑闭环。而要做到这点,模型内部得构建一个完整的“模拟器”,能预测结果、想象未来、评估路径、对未知场景做出合理回应——

这背后的计算复杂度,是语言模型的 指数级上升

就像 DreamerV3,为了让 AI 在脑海中模拟 Minecraft 场景,得在每一帧里,预测图像、奖励、是否终止、行为反馈,每一项都连着下一步,出错一步,全盘崩塌。

    架构难题:你不能只堆参数,你得造一个“小宇宙”

语言模型的进展,很大程度上得益于 Transformer 架构和算力砸下去:上下文窗口越来越大,模型越来越深。

但世界模型呢?

你不能靠堆 transformer 就解决问题,因为它面临的是更复杂的问题:

    既要看图像,又要预测运动

    既要记住过去,还要能推演未来

    既要生成细节,又要逻辑连贯

    还得考虑“动作—反馈—后果”的因果链条

所以,不同公司都在尝试自己的混合架构:  DeepMind 的 DreamerV3 用的是循环状态空间模型(RSSM)

NVIDIA 的 Cosmos-Reason1 用的是 Mamba + MLP + Transformer 混合体

Meta 的 NWM 用的是 CDiT,一种能减少 FLOPs 的条件扩散网络

我们可以说,GPT 的成功来自「压缩」:把全人类写下来的语言压缩成一个预测器。

而世界模型的成功,得靠「建构」:从视觉、动作、因果里,搭建出一个有逻辑可循的小宇宙。

这就像一个是抄书抄到极致,另一个是自己写小说还得设定世界观。哪个更难,一目了然。

说到底,世界模型这么难做,为什么还要做?

因为它是我们离 AGI 最近的一条路。甚至可以说,如果没有世界模型,就不可能有真正意义上的通用人工智能。

人类认知的根基,从来不是语言,而是经验。语言是我们记录世界的方式,而不是感知世界的方式。

Jürgen Schmidhuber 很早就指出:一个具身智能体若想有效学习,必须在脑海中构建出环境的“内部模型”——这个模型就是所谓的 world model。借助它,智能体可以在没有真实交互成本的情况下,在想象中进行“行动—反馈—更新”闭环,从而像人类一样,在梦中学习、在梦中试错、在梦中总结出通用策略。

这一观点,在 2018 年的《World Models》论文中首次被系统验证。他们训练一个生成式 RNN 去模拟游戏场景,然后在这个模拟出来的世界中训练控制策略。最后,这个只在“梦中”练习过的策略,居然可以在真实游戏环境中直接上场,完成任务。证明了世界模型不仅“像人话”,而且“顶用”。

Yann LeCun 同样把世界模型放在核心地位。他曾公开强调:“没有对世界的建模,AI 就无法进行真正的推理。”LeCun 提出的 JEPA(Joint Embedding Predictive Architecture)尝试跳出像素层面的建模,转向预测隐藏状态的抽象表示,强调的是“预测未来潜在表征”的能力,而非逐像素生成。这种思路与人类认知极为相似——我们并不是逐帧还原画面,而是基于抽象模型推测世界会如何演化。

今天我们聊的 Genie 3 也继承了这种观念。它可以预测某个动作将如何影响场景、可以回忆之前帧的状态来确保逻辑一致性——这些能力正是世界模型的核心。

语言模型(如 GPT-5)虽然能生成条理清晰的文字,但终究只能在“语言的世界”里活动。它们对重力、摩擦、遮挡、空间关系等知识,都是靠语言语料“猜”出来的。而世界模型的目标,是让 AI 在脑中建立一个物理上可信的现实模型。

你可以感知一下两种 AI:

    一个是只能背《骑车技巧大全》的 GPT,它可以告诉你“骑车要掌握平衡”“拐弯要减速”,但它自己从未骑过。

    另一个是在沙盒世界里骑了上千小时虚拟自行车的 Genie 3,即使它不会写出一句“优雅”的教学文本,它也能精准地避开障碍、掌握重心、实时调整策略。

AGI 要的,是后者。

如果语言模型是大脑的“逻辑中枢”,那世界模型就是 AI 的“运动皮层”与“感觉神经”。没有这些组成部分,AGI 只能停留在嘴皮子功夫。

而且,世界模型不只是为了建一个“看起来像世界”的模拟器,而是为了给智能体提供「行为试错」的空间。它是智能体意识的投影空间,是规划与预演的底座,是让智能体能够脱离人类提示、自主做出策略选择的前提。

语言模型能计划,但无法验证计划是否可行。世界模型可以在脑中试运行每个 plan 的分支,挑出最优路径。

这就是为什么所有追求通用智能的研究团队,最终都会走到世界模型这条路上。

写在最后

所以,我们还是得回到那个最开始的问题:

一个 AI 如果不理解这个世界,它还能算智能吗?

Genie 3 给出的答案是:不能。

至少,不能算真正的智能。

你当然可以让语言模型模仿一个“聪明人”的样子。它能考满分、能讲道理、能写得头头是道。但它的“聪明”,就像一个从没出过门、靠听别人描述来理解世界的孩子。你和它说“地震来了”,它想象的是文字,不是晃动的地面;你说“风吹过树叶”,它浮现的是词组,不是沙沙的响声。

而 Genie 3,是第一批试图让 AI “走出门去看世界”的模型。这种能力,可能远没有语言模型那样能说会道,但它代表着智能真正的底色。

就像人类不是因为能说话才变得聪明,而是因为从小就摔过跤、烧过水、淋过雨、被风吹过,在这些一次次身体记忆中,我们才逐渐理解了这个世界。理解世界,才有后来的思考与表达。

所以,真正的智能,必须先从感知这个世界开始。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Genie 3 世界模型 AI理解世界 通用人工智能 DeepMind
相关文章