谷歌DeepMind推出SIMA 2：能像人一样玩游戏、推理和学习的智能体

新智元报道

编辑：定慧

【新智元导读】如果一个AI，像人类一样看屏幕、敲键鼠、自己练级变强，这种游戏搭子，你愿意拥有吗？可能不久将来，类似王者荣耀、DOTA 2这样的游戏就可以选择和AI组队，而不是和人组队了！

想象一个智能体，它「出生」在一个虚拟3D游戏中，能推理，能学习。

并且，它不走后门，去操纵游戏底层指令，而是和人一样，只「观看」屏幕画面，并且使用「虚拟键盘和鼠标」来进行操作。

也就是，创造一个智能体，但完完全全「像人一样」去打游戏。

这就是谷歌DeepMind推出的SIMA 2智能体！

一个能陪你在虚拟世界中一同游戏、推理和学习的智能体。

我觉得DeepMind才是那个不忘初心的「Open」AI公司。

不管是从下围棋的AlphaGo再到破解生命之谜的AlphaFold等等Alpha系列。

然后还有谷歌主打的Gemini大模型系列，以及世界模型Genie 3系列，等等。

可以说谷歌在AI领域是全方面、全栈式发力。

SIMA 2可以说是朝着通用人工智能方向迈出的重要一步。

SIMA，全称Scalable Instructable Multiworld Agent，可扩展指令多世界智能体。

别看现在它只是观看屏幕打游戏，如果能够「像人」一样理解游戏画面并做出正确的操作。

那么可以将这种推理和理解能力扩展到其他世界中，甚至也可以拓展到具身智能，这就是SIMA真正的野心。

这意味着，可能不久以后，我们就可以在游戏中组队类似SIMA智能体。

我的DOTA2、我的王者荣耀、我的英雄联盟手游好像终于有救，希望以后的MOBA类游戏都能出一个类似的选项，选择和AI组队，而不是和人组队。

推理的力量在SIMA 1中，智能体学会了执行超过600种语言指令技能，例如拍梯子、打开地图。

在SIMA 2中，智能体已经可以突破单纯的指令跟随的局限。

通过将Gemini作为智能体的核心引擎，SIMA 2不仅能响应指令，还能对指令进行思考与推理。

比如下面MineDojo游戏中，SIMA 2可以完全在这个「从未见过」的游戏中，靠着推理能力完成任务。

SIMA 2是用什么数据训练的呢？

DeepMind使用带有人类演示视频、语言标签以及Gemini生成标签的混合数据对SIMA 2进行训练。

某种意义上，这种思路和特斯拉FSD的端到端具有异曲同工之妙，再更深一步，只要给AI数据和算力，AI肯定能学会「人类这点能力」。

SIMA 2不仅能响应用户提问，还能对其自身行为及所处环境进行逻辑推理。

研究人员在博客中也感慨，与SIMA 2互动时，真的感觉更像是在与一个「伙伴、游戏搭子」一起系统合作。

这或许也算是SIMA 2通过游戏上的「图灵测试」。

谷歌认为这个能力的底层逻辑还是Gemini带来的，靠着强大的推流能力，SIMA 2可以在复杂的3D环境中进行感知。

泛化能力飞跃
谷歌推出SIMA 2，除了用游戏训练是初期最合适的手段外，另一个考量就是增强智能体的泛化能力。

SIMA 2能够理解并完成长期复杂的任务。

短期指令，比如左转、走三步、爬梯子都是比较容易了，但是如何完整的「打通」游戏关卡才是验证通用能力的关键。

SIMA 2现在可以在未经预训练的情况下攻克全新的游戏。（左边是Gemini的推理过程，右边是SIMA在操作游戏）

除了语言指令，SIMA 2还能理解多模态的提示。

比如，用户在画面中绘制一个路线草图，SIMA理解玩家的意思，然后再操作。

在游戏中画个红框+箭头，让智能体据此操作。

其他的理解能力还有，符号。

比如用户发送一个🪓+树木的表情符号，然后智能体就屁颠颠的说「好吧，我不睡，我去砍树去」。

泛化能力的另一个体现是在不同游戏之间的迁移。

比如A游戏中学会的「挖掘」，可以应用于B游戏的「采集」。

下面这个图展示SIMA 2相对SIMA 1能力的巨大提升。

终极考验：畅游想象世界
谷歌为了测试SIMA 2的泛化能力，使用了Genie 3来配合。

Genie 3生成全新的3D模拟世界，然后让SIMA 2在这些「架空世界」中行动。

Genie 3本身会遵循物理规律生成世界，但是和真实世界的展现又可能完全不同。

谷歌的测试结果是，SIMA 2依然能保持良好的环境适应能力。

可扩展的多任务自我提升
SIMA 2最令人兴奋的能力是能够自我学习，自我进化，自我提升。

谷歌说在整个训练过程中，SIMA 2智能体能够通过试错和基于Gemini的反馈引导，执行更加复杂的任务。

在最初从人类示范中学习后，SIMA 2能够过渡到完全通过自主游戏继续学习。

在全新世界学习时，无需额外的人类生成数据。

左侧展示的是初代SIMA 2智能体未能完成的任务示例。

而右侧则显示经过多轮训练迭代后，SIMA 2已实现自我提升，整个过程完全无需人类反馈或游戏数据介入。

SIMA 2能在很多不同类型的游戏里运行，这对检验「通用智能」非常关键。

在这些游戏中，智能体可以学会各种技能、练习复杂的推理，还能通过自己玩游戏不断提升能力。

不过，SIMA 2目前还是研究阶段的系统，离真正的「通用具身智能」还有距离。

它在处理那种特别长、特别复杂、需要很多步推理和反复检查目标的大任务时，还是会吃力。

它对交互过程的记忆也不算长，只能在有限的上下文里工作，以保证响应足够快。

另外，想要只用键盘鼠标就做出非常精细的操作，或者稳定地看懂复杂的3D场景，这些在整个领域里都还是难题。

这项研究说明了一条新的路：

通过大量、多类型的虚拟世界数据，加上Gemini很强的推理能力，可以训练出一个通用的智能体，把原本分散在不同专用系统里的能力整合到一起。

SIMA 2也为未来的机器人应用打下了基础。

它学到的能力——比如导航、用工具、和他人协作完成任务——正是将来让机器人在现实世界中成为「智能助手」所需要的底层模块。

参考资料：

https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

文章原文

新智元报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签