36氪 - 科技频道 08月27日
GPT-5 以惊人效率通关宝可梦水晶,远超其他模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

宝可梦主播GPT-5在直播中以9517步的惊人步数通关了《宝可梦水晶》,远低于其他模型如o3的27040步,展现出高效的行动规划和空间推理能力。GPT-5在收集徽章、挑战四天王和冠军等关键环节均表现出色,效率是o3的两倍以上。此前,GPT-5也以3倍于o3的效率通关了《宝可梦红》。OpenAI总裁Greg Brockman对此表示认可。文章还探讨了大模型玩宝可梦的机制,包括系统提示、游戏截图、内存信息、规划能力、按键转换工具、路径规划、上下文清理及自我批评模型等,并指出宝可梦因其对模型上下文、决策和控制能力的综合考验,已成为新的AI评测基准,但高昂的API费用限制了其普及。Google Gemini和Anthropic Claude也曾挑战宝可梦,前者成功通关《宝可梦蓝》,后者则受阻。

✨ GPT-5以9517步的创纪录步数,以远超其他模型(如o3的27040步)的效率成功通关了《宝可梦水晶》,展示了其在游戏过程中的卓越规划和执行能力,尤其在主要剧情推进上效率高出数倍。

🧠 GPT-5在游戏中的高效表现归因于其更少的“幻觉”和更强的空间推理能力,能够有效规划长序列行动并避免迷路,以及更优的目标规划和执行策略,这些优势在《宝可梦红》的通关过程中也得到了体现。

🎮 宝可梦游戏因其对AI模型上下文理解、决策规划和界面控制能力的综合考验,正逐渐成为衡量大模型性能的新基准。AI玩宝可梦的机制涉及多层信息整合、规划、执行和自我纠错,以及辅助工具的使用。

💸 虽然宝可梦已成为AI评测的有力工具,但高昂的API调用成本(例如GPT-5在《宝可梦红》中花费约3500美元)限制了普通用户将其作为常规测试方法的可能性,使得这一“考试”的报名费不菲。

又是一场酣畅淋漓的战斗!

宝可梦主播GPT-5在直播间鏖战一小时,成功击败赤爷(Red),公屏瞬间刷满GG(Good Game)。

根据推特博主Clad3815的最新战报,GPT-5仅用9517步就放倒了赤爷,通关《宝可梦水晶》。

相比之下,o3则用了27040步,所用步数几乎是GPT-5的三倍。

换句话说,GPT-5不吃不喝连肝一周多一点(202小时)就能通关的《宝可梦水晶》,换成o3需要近一个月。

如果把视角拉回到普通人类玩家身上,通关《宝可梦水晶》的时间通常在5天左右(每天8小时)。

基于此,不少玩家已经开始留言,请继续征战下一代宝可梦!

那么,GPT-5是怎么做到的?

赤爷不语,GPT-5登顶宝可梦

在《宝可梦水晶》的剧情中,玩家从小镇出发,选择宝可梦,挑战道馆馆主、收集徽章,阻止火箭队的阴谋,最终迎战最强训练家——赤红(《宝可梦红/蓝》的主角)

而这次,GPT-5就化身小智,成为了新的挑战者——并一举击败赤爷,登顶宝可梦。

除了我们开头提到的,GPT-5仅用了o3三分之一的步数就实现了通关,在《宝可梦水晶》全部的主线任务中,GPT-5也是按照剧情一路平推,效率远超o3好几倍。

(注:在《宝可梦水晶》中,玩家击败boss后仍然可以自由探索收集宝可梦,所以直播还开着。)

例如,在收集全部16枚游戏徽章的主线中,GPT-5仅用了9205步,而o3则耗费了22334步。

更惊人的是,从收集完所有徽章到战胜赤爷,o3还需要近5000步,而GPT-5仅用了312步,加速了十几倍。

同样的,在四天王和冠军的剧情中,GPT-5也是仅花了7329步,而o3则用了两倍多的步数(18115步)。

此外,在通关《宝可梦水晶》之前,GPT-5还被用来通关《宝可梦红》(游戏长度约为《宝可梦水晶》的一半)。

赤爷不语,依旧是3倍的效率碾压。

对此,OpenAI的总裁兼联合创始人Greg Brockman也是亲自转发表示认可!

看到GPT-5的生猛表现,Clad老哥总结了这么几个原因:

难道说,GPT-5模型能力的提升,在宝可梦这个舞台上才被完全体现出来?

(让子弹多飞一会儿)

不过,必须说明的是——让大模型玩宝可梦并不新鲜。

早在GPT-5之前,Google的Gemini和Anthropic的Claude就曾挑战过宝可梦。

其中,Gemini 2.5 Pro在今年五月的直播中,成功通关了《宝可梦蓝》,而Claude就比较惨了,至今仍被困于火箭队。

那么问题来了:为啥AI大模型都如此偏爱这款上世纪的怀旧游戏呢?

宝可梦是新的benchmark?

要回答上面的问题,我们得先知道大模型是怎么玩宝可梦的。

一般来说,大模型玩宝可梦的基本步骤如下:

此外,大模型还会专门构建一个带标记的小地图,帮助其在游戏世界里定位,这类似于人类玩家在玩游戏时脑补地图的方式。

综上,我们就获得了一个基本印象:在宝可梦游戏中,大模型通过多层信息整合、规划、执行与自我纠错,实现了接近人类玩家的决策能力。

由此,宝可梦游戏就能作为衡量模型上下文能力、决策规划、界面控制能力的指标之一。

可惜的是,这场考试的报名费可并不便宜。

根据网友分析,在GPT-5通关游戏长度仅为《宝可梦水晶》一半的《宝可梦红》中,就花费了约3500美元(约2万五人民币)的GPT-5 API额度。其中,每个token的花费就达到了4块多人民币。

所以,除非你在OpenAI工作,否则想把宝可梦当作benchmark,还得先掂量一下钱包够不够厚。

参考链接

[1]https://x.com/Clad3815/status/1959856362059387098

[2]https://www.twitch.tv/videos/2549204340?t=0h8m43s

[3]https://gpt-plays-pokemon.clad3815.dev/crystal/game-data

[4]https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close

本文来自微信公众号“量子位”,作者:henry ,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 宝可梦 AI 游戏 基准测试 GPT-5 Pokemon AI Gaming Benchmark
相关文章