智源社区 08月07日
全球独家首测Genie 3,实验室细节曝光超震撼!AGI最后一块拼图已实现
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind发布了其最新的世界模型Genie 3,标志着AI在模拟真实世界和交互式环境方面取得了重大突破。Genie 3能够实时生成长达数分钟、分辨率高达720p的逼真视频,并通过文本指令即可添加新物体或生成角色,为AI智能体的训练开辟了全新可能。前谷歌DeepMind员工称其性能“难以置信”,并认为Genie 3将彻底颠覆游戏行业,是迈向AGI的最后一块拼图。该技术在视觉一致性、物理学习和泛化能力方面表现出色,有望成为下一代AI应用的核心驱动力,甚至催生“YouTube 2.0”或全新的虚拟现实体验。

🌟 Genie 3实现从静态视频到交互式世界的飞跃,标志着世界模型和AGI发展的新前沿。它能够生成分辨率高达720p、长达数分钟的逼真视频,并且是完全实时的,相较于Genie 2,其交互性和模拟时长均有显著提升,为AI智能体的训练提供了前所未有的可能性。

🚀 Genie 3的核心优势在于其强大的“可提示的世界事件”功能,用户仅通过文本命令即可在生成的环境中添加新物体、生成角色,极大地增强了AI训练的灵活性和效率。前谷歌DeepMind员工Tejas Kulkarni称其为“难以置信”,并认为它将彻底颠覆游戏行业,是通往AGI的最后一块拼图。

💡 Genie 3展现了出色的视觉一致性和“自发”的记忆能力,即使移开视线,物体依然保持原样,这种一致性并非明确编程,而是AI模型自身涌现的能力。这使得它能够模拟更复杂、更具长期一致性的虚拟环境,为训练机器人和模拟现实世界场景提供了强大支持。

🎮 Genie 3具备学习物理知识的能力,能在没有底层引擎的情况下学习游戏引擎和非刚体物理学,尤其擅长处理角色走动和风格化环境。其逼真的漫游效果、出色的全局照明和灯光效果,以及强大的视觉记忆,使其在游戏开发和虚拟现实领域具有巨大潜力,甚至有望成为VR的杀手级用例。

🚧 尽管Genie 3取得了显著进步,但仍存在一些挑战,例如物理学模拟的精确性、社交和多智能体交互的复杂性、长时间指令遵循以及动作空间的限制。目前它仍处于研究原型阶段,但其代表的AI新一代能力,已预示着未来人工智能发展的方向。

编辑:Aeneas

昨晚,「第三次世界大战」彻底打响了。

GPT-5发布前夕,三大模型厂商齐上阵,2025年8月5日应该是会被载入AI发展史册的一天。

战火硝烟之际,谷歌DeepMind祭出的世界模型Genie 3,可谓一枚重磅炸弹,代表着世界模型的全新前沿。

可以说,从静态视频到交互式世界的飞跃,它标志着世界模型和AGI发展的转折点。

要知道,一年前的Genie 2还是这个样子的,仅仅一年,Genie 3居然就进化成了右边这个样子……

要知道,Genie 2并不是实时的,还需要再等几秒钟;但Genie 3是完全实时的

并且,Genie能支持大约10秒的生成,Genie 2能支持20秒,而到了Genie 3,则可以模拟数分钟的交互式环境。

可以说,Genie 3改变了一切。

而这位Youtuber提前去了谷歌DeepMind的伦敦总部,对Genie 3进行了全球独家首测,放出的30分钟视频中,为我们揭露了更多炸裂细节。


谷歌前员工内测:它将永远颠覆游戏行业!


无需预先构建3D模型,仅通过文本描述,Genie 3可以在720p分辨率下生成数分钟的一致性视频。

而这个「可提示的世界事件」功能就更是炸裂,仅仅通过文本命令,就可以添加新物体、生成角色,为训练AI智能体开辟了全新的可能性。

就在刚刚,前谷歌DeepMind员工Tejas Kulkarni也分享了自己的Genie 3使用初体验。

以下为他的独家实测demo。

他的评价就是四个字——「难以置信!」

总结来说,这是他尝试过的第一个性能如此之好,并且具有长期世界一致性的神经游戏引擎,或者说世界模型。

他相信,Genie 3的诞生,将彻底颠覆游戏行业。可以说,它就是我们离实现完全AGI之前的最后一块拼图。

在很多方面,它更像ASI而不是AGI。因为保真度和泛化能力已经达到人类水平,并将迅速超越人类,它可以和3D人工智能及LLM结合起来,彻底颠覆3A游戏。

根据这位前员工的说法,Genie 3的亮点可以总结如下。

真正的通用,启动时间很快,可推广到其他工业和现实世界场景。

会学习物理知识。在没有底层引擎的情况下学习游戏引擎和非刚体物理学。对于角色走动的风格化环境非常有效。

比视频模型有趣得多。

逼真的漫游,无人机拍摄效果极好。

全局照明和灯光效果很赞。

视觉记忆非常强大。

当然,它还存在一些未解决问题。

物理学很难。(尝试积木塔中的经典直觉物理实验时,它失败了)

社交和多智能体交互很难,1v1战斗游戏不起作用。

长时间的指令遵循和简单的组合游戏逻辑失败(例如收集一些点/钥匙等,走到门口,解锁等等)。

动作空间有限。

远非真正的游戏引擎,但让我们瞥见了未来。

而且,Kulkarni也着重cue到了Genie 3被官方提到的一大亮点——记忆功能

即使过了20-30秒,看到的某个东西依然会保持原样


揭秘Genie 3诞生:全球独家首测,实验室细节超震撼


而Genie 3一发布,Youtuber「Machine Learning Street Talk」也紧接着放出了对幕后团队的采访视频。

他们实地探测了实验室的情况,揭秘了Genie 3的诞生过程。

在此过程中,主持人不断惊呼:这是我见过最令人叹为观止的技术!

在谷歌DeepMind的伦敦总部,他试用完Genie 3后这样说道:这项技术将成为下一个万亿美元的产业,甚至成为VR的杀手级用例。

这期节目的嘉宾,正是Genie 3的幕后功臣——谷歌DeepMind的两位研究者Shlomi Fuchter和Jack Parker Holder。

有趣的是,跟之前的采访不同,这次他们对Genie 3架构的技术关键细节讳莫如深。

主持人评论:可以理解,毕竟小扎正像松露猎犬一样四处巡回狩猎。但他建议小扎别这么干,因为这些研究者做的是「上帝一般的工作」,如果小扎真的很想要,就自己做一个吧。 (狗头)

全球独家首测


可以说,Genie 3令人印象深刻的一大记忆点,就是它的一致性。

它所创造的世界拥有可靠的记忆。如果我们将视线从某个物体上移开,然后再回头看,它仍然会在那里。

让人出乎意料的是,两位研究者解释道,这种一致性并非明确编程的;它是强大的AI模型中突然出现的一种令人惊讶的「自发」能力。

而且,它代表着一个巨大的飞跃。之前的Genie 2已经算是一次重大的飞跃了,但它的速度不足以实现实时交互,而且分辨率也低得多。

这次不同的是,Genie 3 分辨率高达720p,具有交互性和照片级的逼真度,每次运行可以流畅运行几分钟。

而且,Genie 3代表着训练机器人的杀手级应用。

团队认为, Genie 3将彻底改变AI训练的格局。与其在现实世界中训练自动驾驶汽车或机器人(这既缓慢又危险),不如创建无限的模拟环境。

你甚至可以触发一些罕见事件,例如一只鹿跑过马路,以此教会AI如何安全地应对突发情况。

Genie 3跟传统的游戏引擎或模拟器不同,也并不像生成视频模型,但它的确具有这三者的特点。

本质上来说,它是一个交互式的世界模型和视频生成器。

这是技术上迈进的一大步。要知道,在1996年的地震引擎中,它还需要对物理、规则和交互进行明确的编程。

然而Genie 3所代表的新一代AI,却能直接从视频数据中学习现实世界的动态。

而且,它还能让我们实时控制世界中的智能体。

这种转变,就彻底摆脱了手工编码模拟器的局限。要知道,前者最先进的平台XLAND,也只是像卡通一样,跟现实世界相去甚远。

但是现在,只需一个简单的提示,就能生成想要训练智能体的任何交互式世界了。

Genie的第一个版本,经过了30000小时2D平台游戏记录的训练。

它的核心创新,就是一个时空视频tokenizer,一个潜在动作模型,以及一个预测未来状态的自回归动力学模型。

仅通过分析游戏录像中的帧间变化,Genie就能发现8个在不同环境中保持一致的离散动作,它可以无需接受针对这些动作的明确训练,就知道什么是跳跃,什么是向左移动。

可以说,这是一个OMG时刻!

仅仅10个月后,Genie 2就问世了,而且具备了3D功能,视觉保真度达到了虚幻引擎的级别。

Holder向Hassabis介绍:这是团队某人在加州拍的照片,而他们可以让Genie将其转化成一个交互式世界。

而今天的Genie 3一来,直接做到了720p的分辨率,达到了惊人的级别。

有趣的是,Shlomi对Veo 3了如指掌,此次他们也将Genie架构的元素和Veo做了结合。

因此,Genie 3的主要特点就是具有多样化的环境、漫长的视野和可提示的世界事件。

比如在这个滑雪世界中,我们可以创造另一个滑雪者,或者一群跑下雪坡的鹿。

这对模拟自动驾驶等罕见事件的建模,就显得意义重大!

另外,谷歌DeepMind还认为:训练机器人模拟可以作为真实玩家的主要用例。这样,就能省下惊人的成本。

如果我们能像《黑镜》一样,在计算机中就能模拟任何可能的情况,为什么还要在世界中模拟呢?

研究者使用模拟环境训练智能体执行特定任务的例子

遗憾的是,Genie 3目前还有一个短板——它并不具备创造力。

现实世界与虚拟世界的最大不同,就是前者充满着创造力,也就是说可能发生的事件之树会不断生长。

在未来,我们或许能有一个外循环,使系统更加开放。

最终,Genie 3代表着娱乐的未来——

它这可能会催生「YouTube 2.0」或一种全新的虚拟现实形式,让用户可以像哲学里的体验机一样,共同创造和探索无尽的互联世界。

虽然Genie 3目前仍处于研究原型阶段,尚未向公众开放,但它代表着我们朝着从零开始创造真正的人工世界迈出了重要的一步。

参考资料:
https://www.youtube.com/watch?v=ekgvWeHidJs
https://x.com/tejasdkulkarni/status/1952737669894574264?t=GxoL_FaKqWAeuAFUPYWOCg&s=19


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Genie 3 谷歌DeepMind 世界模型 AGI 游戏行业
相关文章