新智元 前天 17:27
谷歌DeepMind推出SIMA 2:能像人一样玩游戏、推理和学习的智能体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind发布了SIMA 2智能体,这是一个革命性的AI,能够通过观看屏幕并使用虚拟键盘鼠标与人类一同在3D虚拟游戏中进行互动、推理和学习。SIMA 2基于Gemini大模型,突破了简单的指令跟随,能够理解复杂任务并进行推理,甚至在未见过的新游戏中独立完成目标。它通过混合数据训练,展现出强大的泛化能力,能迁移学习技能,理解多模态提示,并在Genie 3生成的虚拟世界中保持适应性。SIMA 2还具备自我学习和提升的能力,有望为通用人工智能和未来机器人应用奠定基础。

🎮 **游戏伙伴与通用推理:** SIMA 2被设计成一个能够像人类一样“玩”游戏的智能体,它不依赖游戏底层指令,而是通过观察屏幕画面和使用虚拟键鼠进行操作。这使其能够理解和执行超过600种语言指令,并能对指令进行思考与推理,甚至在全新的、未见过3D游戏中独立完成复杂任务,这标志着其在通用人工智能方向迈出的重要一步。

💡 **Gemini驱动的强大能力:** SIMA 2的核心引擎是谷歌的Gemini大模型,这赋予了它强大的感知、推理和理解能力。它不仅能响应用户指令,还能对自身行为和所处环境进行逻辑推理,甚至能够理解用户通过绘制路线草图或使用符号(如🪓+树木)传达的意图,极大地增强了其交互性和智能性。

🚀 **卓越的泛化与迁移学习:** SIMA 2的训练着重于增强其泛化能力,使其能够理解并完成长期、复杂的任务,并能在不同游戏之间迁移学习到的技能。例如,在一个游戏中学会的“挖掘”技能可以应用于另一个游戏中的“采集”操作。它甚至能在Genie 3生成的、遵循物理规律但可能与真实世界完全不同的全新3D模拟世界中保持良好的环境适应能力。

🔄 **可扩展的多任务自我提升:** SIMA 2最令人兴奋的特性之一是其自我学习和进化的能力。在初始阶段通过人类示范和混合数据进行训练后,它能够过渡到完全自主游戏来继续学习和提升,无需额外的人类干预或特定游戏数据。通过多轮训练迭代,SIMA 2能够实现自我提升,完成最初可能失败的任务,这展示了其巨大的潜力和可扩展性。


  新智元报道  

编辑:定慧
【新智元导读】如果一个AI,像人类一样看屏幕、敲键鼠、自己练级变强,这种游戏搭子,你愿意拥有吗?可能不久将来,类似王者荣耀、DOTA 2这样的游戏就可以选择和AI组队,而不是和人组队了!
想象一个智能体,它「出生」在一个虚拟3D游戏中,能推理,能学习。

并且,它不走后门,去操纵游戏底层指令,而是和人一样,只「观看」屏幕画面,并且使用「虚拟键盘和鼠标」来进行操作。

也就是,创造一个智能体,但完完全全「像人一样」去打游戏。

这就是谷歌DeepMind推出的SIMA 2智能体!

一个能陪你在虚拟世界中一同游戏、推理和学习的智能体。

我觉得DeepMind才是那个不忘初心的「Open」AI公司。

不管是从下围棋的AlphaGo再到破解生命之谜的AlphaFold等等Alpha系列。


然后还有谷歌主打的Gemini大模型系列,以及世界模型Genie 3系列,等等。


可以说谷歌在AI领域是全方面、全栈式发力。

SIMA 2可以说是朝着通用人工智能方向迈出的重要一步。

SIMA,全称Scalable Instructable Multiworld Agent,可扩展指令多世界智能体。

别看现在它只是观看屏幕打游戏,如果能够「像人」一样理解游戏画面并做出正确的操作。

那么可以将这种推理和理解能力扩展到其他世界中,甚至也可以拓展到具身智能,这就是SIMA真正的野心。

这意味着,可能不久以后,我们就可以在游戏中组队类似SIMA智能体。

我的DOTA2、我的王者荣耀、我的英雄联盟手游好像终于有救,希望以后的MOBA类游戏都能出一个类似的选项,选择和AI组队,而不是和人组队。

推理的力量在SIMA 1中,智能体学会了执行超过600种语言指令技能,例如拍梯子、打开地图。

在SIMA 2中,智能体已经可以突破单纯的指令跟随的局限。

通过将Gemini作为智能体的核心引擎,SIMA 2不仅能响应指令,还能对指令进行思考与推理。

比如下面MineDojo游戏中,SIMA 2可以完全在这个「从未见过」的游戏中,靠着推理能力完成任务。

SIMA 2是用什么数据训练的呢?

DeepMind使用带有人类演示视频、语言标签以及Gemini生成标签的混合数据对SIMA 2进行训练。

某种意义上,这种思路和特斯拉FSD的端到端具有异曲同工之妙,再更深一步,只要给AI数据和算力,AI肯定能学会「人类这点能力」。

SIMA 2不仅能响应用户提问,还能对其自身行为及所处环境进行逻辑推理。

研究人员在博客中也感慨,与SIMA 2互动时,真的感觉更像是在与一个「伙伴、游戏搭子」一起系统合作。

这或许也算是SIMA 2通过游戏上的「图灵测试」。

谷歌认为这个能力的底层逻辑还是Gemini带来的,靠着强大的推流能力,SIMA 2可以在复杂的3D环境中进行感知。

泛化能力飞跃
谷歌推出SIMA 2,除了用游戏训练是初期最合适的手段外,另一个考量就是增强智能体的泛化能力。

SIMA 2能够理解并完成长期复杂的任务。

短期指令,比如左转、走三步、爬梯子都是比较容易了,但是如何完整的「打通」游戏关卡才是验证通用能力的关键。

SIMA 2现在可以在未经预训练的情况下攻克全新的游戏。(左边是Gemini的推理过程,右边是SIMA在操作游戏)

除了语言指令,SIMA 2还能理解多模态的提示。

比如,用户在画面中绘制一个路线草图,SIMA理解玩家的意思,然后再操作。

在游戏中画个红框+箭头,让智能体据此操作。

其他的理解能力还有,符号。

比如用户发送一个🪓+树木的表情符号,然后智能体就屁颠颠的说「好吧,我不睡,我去砍树去」。

泛化能力的另一个体现是在不同游戏之间的迁移。

比如A游戏中学会的「挖掘」,可以应用于B游戏的「采集」。

下面这个图展示SIMA 2相对SIMA 1能力的巨大提升。

终极考验:畅游想象世界
谷歌为了测试SIMA 2的泛化能力,使用了Genie 3来配合。

Genie 3生成全新的3D模拟世界,然后让SIMA 2在这些「架空世界」中行动。

Genie 3本身会遵循物理规律生成世界,但是和真实世界的展现又可能完全不同。

谷歌的测试结果是,SIMA 2依然能保持良好的环境适应能力。

可扩展的多任务自我提升
SIMA 2最令人兴奋的能力是能够自我学习,自我进化,自我提升。

谷歌说在整个训练过程中,SIMA 2智能体能够通过试错和基于Gemini的反馈引导,执行更加复杂的任务。

在最初从人类示范中学习后,SIMA 2能够过渡到完全通过自主游戏继续学习。

在全新世界学习时,无需额外的人类生成数据。

左侧展示的是初代SIMA 2智能体未能完成的任务示例。

而右侧则显示经过多轮训练迭代后,SIMA 2已实现自我提升,整个过程完全无需人类反馈或游戏数据介入。

SIMA 2能在很多不同类型的游戏里运行,这对检验「通用智能」非常关键。

在这些游戏中,智能体可以学会各种技能、练习复杂的推理,还能通过自己玩游戏不断提升能力。

不过,SIMA 2目前还是研究阶段的系统,离真正的「通用具身智能」还有距离。

它在处理那种特别长、特别复杂、需要很多步推理和反复检查目标的大任务时,还是会吃力。

它对交互过程的记忆也不算长,只能在有限的上下文里工作,以保证响应足够快。

另外,想要只用键盘鼠标就做出非常精细的操作,或者稳定地看懂复杂的3D场景,这些在整个领域里都还是难题。

这项研究说明了一条新的路:

通过大量、多类型的虚拟世界数据,加上Gemini很强的推理能力,可以训练出一个通用的智能体,把原本分散在不同专用系统里的能力整合到一起。

SIMA 2也为未来的机器人应用打下了基础。

它学到的能力——比如导航、用工具、和他人协作完成任务——正是将来让机器人在现实世界中成为「智能助手」所需要的底层模块。

参考资料:
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SIMA 2 DeepMind 谷歌AI 人工智能 游戏AI 通用人工智能 Gemini 虚拟世界 SIMA 2 DeepMind Google AI Artificial Intelligence Game AI Artificial General Intelligence Gemini Virtual Worlds
相关文章