index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
谷歌DeepMind发布了SIMA 2智能体,这是一个革命性的AI,能够通过观看屏幕并使用虚拟键盘鼠标与人类一同在3D虚拟游戏中进行互动、推理和学习。SIMA 2基于Gemini大模型,突破了简单的指令跟随,能够理解复杂任务并进行推理,甚至在未见过的新游戏中独立完成目标。它通过混合数据训练,展现出强大的泛化能力,能迁移学习技能,理解多模态提示,并在Genie 3生成的虚拟世界中保持适应性。SIMA 2还具备自我学习和提升的能力,有望为通用人工智能和未来机器人应用奠定基础。
🎮 **游戏伙伴与通用推理:** SIMA 2被设计成一个能够像人类一样“玩”游戏的智能体,它不依赖游戏底层指令,而是通过观察屏幕画面和使用虚拟键鼠进行操作。这使其能够理解和执行超过600种语言指令,并能对指令进行思考与推理,甚至在全新的、未见过3D游戏中独立完成复杂任务,这标志着其在通用人工智能方向迈出的重要一步。
💡 **Gemini驱动的强大能力:** SIMA 2的核心引擎是谷歌的Gemini大模型,这赋予了它强大的感知、推理和理解能力。它不仅能响应用户指令,还能对自身行为和所处环境进行逻辑推理,甚至能够理解用户通过绘制路线草图或使用符号(如🪓+树木)传达的意图,极大地增强了其交互性和智能性。
🚀 **卓越的泛化与迁移学习:** SIMA 2的训练着重于增强其泛化能力,使其能够理解并完成长期、复杂的任务,并能在不同游戏之间迁移学习到的技能。例如,在一个游戏中学会的“挖掘”技能可以应用于另一个游戏中的“采集”操作。它甚至能在Genie 3生成的、遵循物理规律但可能与真实世界完全不同的全新3D模拟世界中保持良好的环境适应能力。
🔄 **可扩展的多任务自我提升:** SIMA 2最令人兴奋的特性之一是其自我学习和进化的能力。在初始阶段通过人类示范和混合数据进行训练后,它能够过渡到完全自主游戏来继续学习和提升,无需额外的人类干预或特定游戏数据。通过多轮训练迭代,SIMA 2能够实现自我提升,完成最初可能失败的任务,这展示了其巨大的潜力和可扩展性。
【新智元导读】如果一个AI,像人类一样看屏幕、敲键鼠、自己练级变强,这种游戏搭子,你愿意拥有吗?可能不久将来,类似王者荣耀、DOTA 2这样的游戏就可以选择和AI组队,而不是和人组队了!想象一个智能体,它「出生」在一个虚拟3D游戏中,能推理,能学习。
并且,它不走后门,去操纵游戏底层指令,而是和人一样,只「观看」屏幕画面,并且使用「虚拟键盘和鼠标」来进行操作。
也就是,创造一个智能体,但完完全全「像人一样」去打游戏。
这就是谷歌DeepMind推出的SIMA 2智能体!
一个能陪你在虚拟世界中一同游戏、推理和学习的智能体。我觉得DeepMind才是那个不忘初心的「Open」AI公司。不管是从下围棋的AlphaGo再到破解生命之谜的AlphaFold等等Alpha系列。
然后还有谷歌主打的Gemini大模型系列,以及世界模型Genie 3系列,等等。
可以说谷歌在AI领域是全方面、全栈式发力。SIMA 2可以说是朝着通用人工智能方向迈出的重要一步。SIMA,全称Scalable Instructable Multiworld Agent,可扩展指令多世界智能体。
别看现在它只是观看屏幕打游戏,如果能够「像人」一样理解游戏画面并做出正确的操作。那么可以将这种推理和理解能力扩展到其他世界中,甚至也可以拓展到具身智能,这就是SIMA真正的野心。这意味着,可能不久以后,我们就可以在游戏中组队类似SIMA智能体。我的DOTA2、我的王者荣耀、我的英雄联盟手游好像终于有救,希望以后的MOBA类游戏都能出一个类似的选项,选择和AI组队,而不是和人组队。推理的力量在SIMA 1中,智能体学会了执行超过600种语言指令技能,例如拍梯子、打开地图。在SIMA 2中,智能体已经可以突破单纯的指令跟随的局限。通过将Gemini作为智能体的核心引擎,SIMA 2不仅能响应指令,还能对指令进行思考与推理。比如下面MineDojo游戏中,SIMA 2可以完全在这个「从未见过」的游戏中,靠着推理能力完成任务。SIMA 2是用什么数据训练的呢?DeepMind使用带有人类演示视频、语言标签以及Gemini生成标签的混合数据对SIMA 2进行训练。某种意义上,这种思路和特斯拉FSD的端到端具有异曲同工之妙,再更深一步,只要给AI数据和算力,AI肯定能学会「人类这点能力」。SIMA 2不仅能响应用户提问,还能对其自身行为及所处环境进行逻辑推理。研究人员在博客中也感慨,与SIMA 2互动时,真的感觉更像是在与一个「伙伴、游戏搭子」一起系统合作。这或许也算是SIMA 2通过游戏上的「图灵测试」。谷歌认为这个能力的底层逻辑还是Gemini带来的,靠着强大的推流能力,SIMA 2可以在复杂的3D环境中进行感知。泛化能力飞跃
谷歌推出SIMA 2,除了用游戏训练是初期最合适的手段外,另一个考量就是增强智能体的泛化能力。SIMA 2能够理解并完成长期复杂的任务。短期指令,比如左转、走三步、爬梯子都是比较容易了,但是如何完整的「打通」游戏关卡才是验证通用能力的关键。SIMA 2现在可以在未经预训练的情况下攻克全新的游戏。(左边是Gemini的推理过程,右边是SIMA在操作游戏)除了语言指令,SIMA 2还能理解多模态的提示。比如,用户在画面中绘制一个路线草图,SIMA理解玩家的意思,然后再操作。在游戏中画个红框+箭头,让智能体据此操作。其他的理解能力还有,符号。比如用户发送一个🪓+树木的表情符号,然后智能体就屁颠颠的说「好吧,我不睡,我去砍树去」。泛化能力的另一个体现是在不同游戏之间的迁移。比如A游戏中学会的「挖掘」,可以应用于B游戏的「采集」。下面这个图展示SIMA 2相对SIMA 1能力的巨大提升。终极考验:畅游想象世界
谷歌为了测试SIMA 2的泛化能力,使用了Genie 3来配合。Genie 3生成全新的3D模拟世界,然后让SIMA 2在这些「架空世界」中行动。Genie 3本身会遵循物理规律生成世界,但是和真实世界的展现又可能完全不同。谷歌的测试结果是,SIMA 2依然能保持良好的环境适应能力。可扩展的多任务自我提升
SIMA 2最令人兴奋的能力是能够自我学习,自我进化,自我提升。谷歌说在整个训练过程中,SIMA 2智能体能够通过试错和基于Gemini的反馈引导,执行更加复杂的任务。在最初从人类示范中学习后,SIMA 2能够过渡到完全通过自主游戏继续学习。在全新世界学习时,无需额外的人类生成数据。左侧展示的是初代SIMA 2智能体未能完成的任务示例。而右侧则显示经过多轮训练迭代后,SIMA 2已实现自我提升,整个过程完全无需人类反馈或游戏数据介入。SIMA 2能在很多不同类型的游戏里运行,这对检验「通用智能」非常关键。在这些游戏中,智能体可以学会各种技能、练习复杂的推理,还能通过自己玩游戏不断提升能力。不过,SIMA 2目前还是研究阶段的系统,离真正的「通用具身智能」还有距离。它在处理那种特别长、特别复杂、需要很多步推理和反复检查目标的大任务时,还是会吃力。它对交互过程的记忆也不算长,只能在有限的上下文里工作,以保证响应足够快。另外,想要只用键盘鼠标就做出非常精细的操作,或者稳定地看懂复杂的3D场景,这些在整个领域里都还是难题。这项研究说明了一条新的路:通过大量、多类型的虚拟世界数据,加上Gemini很强的推理能力,可以训练出一个通用的智能体,把原本分散在不同专用系统里的能力整合到一起。SIMA 2也为未来的机器人应用打下了基础。它学到的能力——比如导航、用工具、和他人协作完成任务——正是将来让机器人在现实世界中成为「智能助手」所需要的底层模块。https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/ 文章原文