差评 08月17日
信AI排行榜,不如信它们的游戏排位分数。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,Google旗下Kaggle举办的首届AI国际象棋比赛,为评估大模型实力提供了一种新视角。与传统的AI竞技场和基准测试不同,国际象棋比赛要求模型具备综合的思考、涌现和应变能力,而非死记硬背。Gemini 2.5 Pro和Grok 4等知名模型在比赛中表现各异,最终GPT-o3以不败战绩夺冠,显示出其在复杂博弈中的强大实力。文章指出,传统的AI排行榜(如AI竞技场)存在主观性强、用户群体局限等问题,而MMLU和AIME等客观测试则难以全面反映模型的实际理解和推理能力。国际象棋这类游戏,能更真实地模拟现实世界中复杂多变、需要实时决策的场景,为衡量AI的综合素质提供了更可靠的依据。Kaggle未来还将举办更多不同类型的游戏比赛,使AI的实力评估更加多元和刺激。

🎯 **AI能力评估新标杆:国际象棋比赛超越传统榜单。** 文章指出,传统的AI排行榜如AI竞技场,因其主观性、用户群体局限以及“嘴甜”模型易占便宜等缺点,难以真实反映AI的综合实力。而MMLU和AIME等客观测试虽然能衡量知识广度和线性逻辑,却无法模拟真实世界中复杂多变的场景。国际象棋比赛则通过“四局两胜制”等规则,更直接地考验大模型的思考、涌现和应变能力,为AI实力评估提供了更可靠的维度。

🏆 **GPT-o3国际象棋赛夺冠,展现卓越综合实力。** 在首届Kaggle AI国际象棋比赛中,包括Gemini 2.5 Pro、Grok 4、DeepSeek R1等在内的8名顶尖AI模型参赛。比赛结果显示,此前在多项排行榜上名列前茅的Gemini仅获得季军,而GPT-o3则以不败战绩夺得冠军。这表明,在需要深度思考、全局规划和实时应变的游戏环境中,GPT-o3展现出了超越其他模型的综合实力。

⚖️ **游戏化竞赛:真实场景模拟AI的“硬核”实力。** 文章强调,与静态的考卷测试不同,游戏是检验AI综合能力的绝佳“修罗场”。在国际象棋对局中,模型不仅需要具备大局观,还需要能够应对对手的策略变化,实时调整战术,甚至做出“壮士扼腕”的艰难决策。这些在静态测试中无法体现的能力,是AI在复杂、多变环境中解决未知问题的关键,也更能反映其真实的“硬核”实力。

🚀 **未来AI实力榜单:游戏竞赛将成新趋势。** Kaggle计划在国际象棋比赛之后,继续举办扑克牌、狼人杀等更多类型的游戏比赛。这预示着未来的AI实力排行榜将更加多元化和刺激,通过更多模拟真实世界博弈场景的竞赛,能够更全面、更直观地揭示不同AI模型在复杂决策和策略规划方面的真实水平,为用户选择和理解AI提供更有价值的参考。

江江 2025-08-17 00:00 浙江

文章开头问大家一个问题,如果想知道最近哪个 AI 牛,你会怎么查?

直接上 AI 竞技场,XX 排行榜?

没错,这些是有一定参考能力。

但看完最近大模型圈的电竞比赛后,我觉得现在多一种更靠谱的办法了,那就是看——

AI 的游戏排位天梯。

前几天,Google 旗下 Kaggle 举办了首届 AI 国际象棋比赛,一共有 8 名选手参加,个个都是狠角色。

什么 Gemini 2.5 Pro、Grok 4、DeepSeek R1。。

比赛规则很简单。每场对决为“ 四局两胜制 ”,谁先拿到2分(胜1分,平0.5分)谁晋级。如果打成 2-2 平,将加赛一场绝杀局。

比赛过程中,我们还能看到这些职业选手的思考过程,看看他们如何应对对方的进攻,看待自己的失误。

结果说起来你可能不信,在众多排行榜都保持第一的 Gemini,只拿下季军。

而 GPT-o3,则以一把没输的绝对统治力,夺得冠军。

看到这,可能有差友好奇,为啥要让这些大模型下棋啊,谁赢谁输和咱有关系么?

因为国际象棋,更能让你看出 AI 的实力。

相比那些传统排行榜,国际象棋考验的是一套无法靠刷题速成的综合能力,更能展示出一个大模型的思考、涌现能力。

过去,我们要想知道哪个模型牛,主要看两种榜。

第一种就是 AI 竞技场 LMArena,可以把它理解为大模型圈的《蒙面歌王》。

你随便问个问题,它给你两个匿名模型的回答,你觉得哪个好就投哪个。

听起来很公平是吧?但它也有不少缺点。

首先圈子太小了。

我不提,可能很多人都没听过这网站。天天泡在上面投票的,不是专业的技术人员,就是一些前沿科技发烧友。

这些人的问题和对答案的主观判断,跟咱们普通人可能并不一样。

这就导致 AI 竞技场排名,更像是一种技术爱好者的口味榜,并非适合你我。

其次,嘴甜的大模型在这种模式里,很容易占便宜。

很多时候,大伙儿不会去做事实核查。

如果有一个模型说错了所有答案,但它回答地头头是道,答案很清晰,逻辑也很自洽,那它很有可能骗走一堆不该有的票数。

除了 AI 竞技场这种主观排行榜,大模型还有 MMLU Pro和 AIME 这类客观基准测试。

MMLU 全称是大规模多任务语言理解,它包含了从初中水平数理化到研究生水平的历史、科学、法律等 57 个科目,MMLU Pro 则在此基础上进一步加大难度,总之它可以迅速衡量一个模型知识面的宽度。

AIME 也类似,这是美国高中生数学竞赛体系中的一环,可以测试出大模型们的逻辑推理深度。

这两类考试的优点,都是极度客观。

但缺点也很致命。

一个大模型的 MMLU 分数高,只能说明它读过很多书,或者提前训练了题库,并不能反馈出模型的理解能力。

它可能知道“火锅瞎掉一只眼是哪一年”,但不一定能分析出火锅瞎眼对狗圈颜值会带来多大损失

而且啊,从去年开始,几个头部大模型们正确率就已超过了 80%,正不断接近于人类专家水平(89.8%),我们也很难看出这些模型之间的实力差距。

同样,AIME 只能测试一种非常线性的、基于数学公理的逻辑。

但真实世界的问题,哪有像数学题这样逻辑清晰、条件充分的。

一个在 AIME 里爆杀的大模型,或许并不擅长帮你解读电影,帮你怎么理解领导的话中话。

到这,你应该能明白 Kaggle 搞这场象棋比赛的逻辑了——

别再让 AI 考试和选秀了,到底有没有实力,直接线下真实一波就知道了。

毕竟大众普遍需要的,是一个能在复杂、多变的环境中,实时解决未知问题的大模型。

而游戏,就是一个很不错的修罗场。

因为你想在游戏里赢,光会背书没用,每一次对局都是完全不一样的。

在游戏中,你也得有大局观,不能只盯着眼前这一步,最关键的是,还得有应变能力,对手一出招,局面又会发生变化,你要会调整战术,甚至思考要不要壮士扼腕。

这些能力,在静态的考卷上是绝对测不出来的。

虽然这次比赛直播采用锦标赛形式,但最终的排行榜是由全对全系统决定,这些大模型还要幕后进行上百场比赛,最终才会出现一个动态排行榜,给大家查看排名。

国际象棋的比赛结束后,Kaggle 还会继续举办其他游戏比赛,比如扑克牌,甚至是狼人杀。

该说不说,以后的 AI 排行榜,可能会越来越刺激了。

撰文:刺猬   

编辑:江江   

美编:萱萱

图片、资料来源

Kaggle Game Arena Chess Exhibition Tournament 2025

2025 Kaggle Game Arena Chess Exhibition Tournament: Official Discussion Thread

Chess NewsKaggle AI Chess Exhibition Tournament LIVE

Chess Text Input Leaderboard | Kaggle

Google Kaggle 举办 AI 国际象棋锦标赛,评估领先模型的推理能力

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI国际象棋比赛 大模型评估 Kaggle GPT-o3 AI竞技
相关文章