36kr 08月06日
谷歌深夜放出「创世引擎」Genie 3,一句话秒生宇宙,终极模拟器觉醒
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind发布了新一代通用世界模型Genie 3,其核心亮点在于能够实时生成高分辨率(720p)、高帧率(20-24fps)且具有数分钟连贯性的动态交互世界。相较于前代,Genie 3在生成时长和一致性方面实现了巨大飞跃,能够模拟物理现象、自然生态、奇幻场景以及历史时空,并支持文本驱动的世界事件生成,极大地增强了沉浸感和探索性。该模型被视为通往AGI的关键基石,为AI智能体的训练和评估提供了前所未有的模拟环境,标志着世界模型技术进入了一个全新的发展阶段。

🌟 Genie 3实现史无前例的实时交互世界模拟,能够以20-24帧/秒的速度生成720p分辨率的动态画面,并保持数分钟内容一致性。这标志着AI在理解和创造复杂交互环境方面取得了重大突破,被誉为“游戏引擎2.0时代”。

🌳 Genie 3具备强大的世界模拟能力,不仅能逼真地模拟物理世界(如水流、光照)和自然世界(如森林、生物),还能创造出充满想象力的动画奇幻场景,甚至能够穿越时空重现历史场景,让用户身临其境。

💬 Genie 3支持“由提示词驱动的世界事件”这一创新交互形式,用户可以通过简单的文本指令即时改变世界状态,如引入新物体、角色或改变天气,极大地丰富了交互体验和反事实场景的探索,提升了AI智能体的学习效率。

🧠 Genie 3能够保持长达一分钟的视觉记忆,即使在复杂交互中也能调取先前的环境信息,确保了世界在时间维度上的连贯性和一致性。这一“涌现”能力使其生成的动态世界比依赖显式3D表征的模型更加丰富和灵活。

🚀 作为通往AGI的关键基石,Genie 3为AI智能体的训练提供了广阔的模拟空间,能够帮助训练更复杂的智能体,并用于评估其性能和弱点。它的出现加速了人类在通用人工智能领域的探索进程,预示着一个AI驱动的互动创意新未来。

全球最强「世界AI模拟器」今夜诞生!

刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。

一句话,Genie 3即可生成一个动态世界。

令人惊艳的是,它能以每秒20-24帧速度,实时生成720p画面,还能持续数分钟一致性。

相比于前代,Genie 3在生成时长方面也得到了史诗级的加强——一口气能搞定长达数分钟,且内容连贯的可交互世界。

英伟达Jim Fan高度评价,「这就是游戏引擎2.0时代」!

总有一天,UE5所有复杂功能,都能被一个数据驱动的「注意力权重」吸纳。

未来,只需要将手柄指令作为输入,即可渲染一段时空中的像素画面。

如今,Genie 3的问世,标志着世界模拟AI迈向了全新高度,加速了人类通向AGI/ASI的终极目标。

AI实时交互模拟,真·矩阵世界

一直以来,「世界模型」被业界看作是通往AGI道路上的关键基石。

因为,它能让AI智能体在无限丰富的模拟环境中接受训练。

十多年来,谷歌DeepMind一直在模拟环境领域引领前沿研究,从训练AI智能体玩转即时战略游戏,到为开放式学习和机器人技术开发模拟环境。

正是在这些研究的推动下,他们开发出了「世界模型」。

它能够利用其对世界的理解,来模拟世界的方方面面,从而让AI智能体可以预测环境如何演变,以及自身行为带来的影响。

去年,谷歌DeepMind首次放出世界模型——Genie 1和Genie 2,它们能为AI智能体生成全新的环境。

此外,Veo 2、Veo 3模型相继迭代,也在不断突破视频生成的技术前沿,能够深刻理解物理世界的规律。

每一款模型,都标志着世界模拟在不同能力维度上的进步。

而Genie 3,是谷歌DeepMind首个支持「实时交互」的世界模型。

相较于Genie 2,一致性和真实感均有提升。

谷歌DeepMind研究员Ali Eslami惊叹道,Genie 3绝对是自ChatGPT以来最令人印象深刻的演示。

2016年,他曾研究「神经表示与渲染」隐约看到通往这一目标路径,但没想到这一天来得这么快。

Hassabis同样感慨道,上世纪90年代,当自己设计模拟游戏时,曾梦想有一天实现这一技术。如今,愿望终于达成。

接下来,具体看看Genie 3具备哪些强大能力?

· 模拟物理世界

理解物理世界,是任何一个世界模型必备能力。

Genie 3不仅可以生成水流、光照等自然现象,还能与复杂环境进行交互。

· 模拟自然世界

Genie 3还可以生成充满生命力的自然系统,不论是错综复杂的森林、花草等植物,还是各种生物,都能让人仿佛置身于真实生态之中。

· 创建动画奇幻世界

不仅如此,Genie 3的想象力也没有边界。

它能创造出奇幻场景,以及富有表现力的动画角色,比如彩虹桥上的卡通狐狸、森林中的萤火虫等等。

· 探索地点与历史场景

更令人想不到的是,Genie 3还能玩穿越。

不论是重现古代文明的辉煌,还是探索不同的地方,它都能带你跨越时空,体验景点的独特魅力。

不得不说,Genie 3的实时交互能力,令人叹为观止。

那么,谷歌DeepMind是如何具体实现的呢?

一分钟视觉记忆,Genie 3涌现了

要实现Genie 3的实时交互与长时程一致性,技术团队攻克了诸多难题。

在自回归地生成每一帧画面的过程中,模型必须考虑到随时间推移而不断延长的先前轨迹。

举个栗子,当玩家在一分钟后重访某个地点时,模型必须调取一分钟前的相关信息。

为了实现实时交互,这种计算必须在新用户输入抵达时每秒执行多次,以做出即时响应。

此外,要让AI生成的世界富有沉浸感,就必须在很长的时间跨度内保持物理上的一致性。

然而,自回归地生成一个环境,通常比一次性生成整个视频的技术难度更大,因为微小误差会随时间累积。

尽管面临这一挑战,Genie 3生成的环境仍能在数分钟内基本保持一致,其视觉记忆最远可追溯到一分钟前。

如下图可见,建筑左侧的树木在交互过程中始终如一,即使时隐时现也保持稳定。

Genie 3的一致性是一种涌现能力。

NeRFs和高斯溅射(Gaussian Splatting)虽然也能实现一致的可导航3D环境,但它们依赖于提供显式的3D表征。

相比之下,Genie 3 生成的世界则远为动态和丰富,因为它们是模型根据世界描述和用户行为逐帧创造出来的。

一句话,一个世界

除了导航输入,Genie 3还支持一种更具表现力的文本交互形式,团队称之为「由提示词驱动的世界事件」。

直白讲,一句话生成世界。

不论是改变天气,还是引入新物体或角色,这种能力大幅提升了沉浸感。

与此同时,它也拓展了反事实(即what if)场景的广度,可供 AI 智能体在经验学习中用于处理各种意外情况。

比如,在北美大草原上,你可以让Genie 3即时生成一辆绿色拖拉机、一位骑马的人;在滑雪场景中,生成一个衣服上印有「Genie 3」的人,或是一个香蕉滑翔伞;在伦敦街景中,还可以空降Dragon。

智能体「试炼场」

为了验证Genie 3所创世界,对未来AI智能体训练的兼容性,团队为新版SIMA智能体生成了多个世界。

在每个世界中,都指示该智能体去达成一系列特定目标。

它会通过向Genie 3发送导航指令,来尝试完成任务。假设让它走向和面机和面包架,Genie 3都能指示智能体去完成目标。

与所有其他环境一样,Genie 3并不知道智能体的目标,它只是根据智能体的行为来模拟世界的未来走向。

由于Genie 3能够保持一致性的能力,现在可以执行更长的动作序列,以实现更复杂的目标。

局限性

尽管Genie 3拓展了世界模型的能力边界,但也存在一定的局限性,具体包含以下5点:

有限的动作空间

虽然由「提示词驱动的世界事件」允许广泛的环境干预,但这些干预不一定由AI智能体自身执行。AI智能体目前能直接执行的动作范围仍然有限。

与其他智能体的交互和模拟

在共享环境中精确模拟多个独立智能体之间的复杂互动,仍是研究领域的一大挑战。

真实世界位置的准确表征

Genie 3 目前还无法以完美的地理精度模拟真实世界的地点。

文本渲染

通常只有在输入的世界描述中提供了文本信息时,模型才能生成清晰易读的文字。

有限的交互时长

模型目前可支持数分钟的连续交互,而非长达数小时的持续互动。

世界模型,分水岭已至

尽管如此,Genie 3是世界模型发展的一个重要里程碑。

它能为教育和培训创造新机遇,帮助学生学习、助力专家积累经验。

它不仅能为机器人和自主系统等 AI 智能体提供广阔的训练空间,还能用于评估智能体的性能并探究其弱点。

在迈向AGI征途中,Genie 3描绘了一个由AI加持,充满交互与创意的世界,一个世界模型全新的未来。

再次狙击Genie 3之后,OpenAI团队Steven Heidel献上彩虹屁,「真是一个见证AGI时刻」。

神仙打架的好戏,正式开演。

参考资料:

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

本文来自微信公众号“新智元”,作者:新智元,编辑:桃子 好困,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Genie 3 世界模型 AI模拟 谷歌DeepMind AGI
相关文章