信AI排行榜，不如信它们的游戏排位分数。

差评 08月17日

信AI排行榜，不如信它们的游戏排位分数。

近期，Google旗下Kaggle举办的首届AI国际象棋比赛，为评估大模型实力提供了一种新视角。与传统的AI竞技场和基准测试不同，国际象棋比赛要求模型具备综合的思考、涌现和应变能力，而非死记硬背。Gemini 2.5 Pro和Grok 4等知名模型在比赛中表现各异，最终GPT-o3以不败战绩夺冠，显示出其在复杂博弈中的强大实力。文章指出，传统的AI排行榜（如AI竞技场）存在主观性强、用户群体局限等问题，而MMLU和AIME等客观测试则难以全面反映模型的实际理解和推理能力。国际象棋这类游戏，能更真实地模拟现实世界中复杂多变、需要实时决策的场景，为衡量AI的综合素质提供了更可靠的依据。Kaggle未来还将举办更多不同类型的游戏比赛，使AI的实力评估更加多元和刺激。

🎯 **AI能力评估新标杆：国际象棋比赛超越传统榜单。** 文章指出，传统的AI排行榜如AI竞技场，因其主观性、用户群体局限以及“嘴甜”模型易占便宜等缺点，难以真实反映AI的综合实力。而MMLU和AIME等客观测试虽然能衡量知识广度和线性逻辑，却无法模拟真实世界中复杂多变的场景。国际象棋比赛则通过“四局两胜制”等规则，更直接地考验大模型的思考、涌现和应变能力，为AI实力评估提供了更可靠的维度。

🏆 **GPT-o3国际象棋赛夺冠，展现卓越综合实力。** 在首届Kaggle AI国际象棋比赛中，包括Gemini 2.5 Pro、Grok 4、DeepSeek R1等在内的8名顶尖AI模型参赛。比赛结果显示，此前在多项排行榜上名列前茅的Gemini仅获得季军，而GPT-o3则以不败战绩夺得冠军。这表明，在需要深度思考、全局规划和实时应变的游戏环境中，GPT-o3展现出了超越其他模型的综合实力。

⚖️ **游戏化竞赛：真实场景模拟AI的“硬核”实力。** 文章强调，与静态的考卷测试不同，游戏是检验AI综合能力的绝佳“修罗场”。在国际象棋对局中，模型不仅需要具备大局观，还需要能够应对对手的策略变化，实时调整战术，甚至做出“壮士扼腕”的艰难决策。这些在静态测试中无法体现的能力，是AI在复杂、多变环境中解决未知问题的关键，也更能反映其真实的“硬核”实力。

🚀 **未来AI实力榜单：游戏竞赛将成新趋势。** Kaggle计划在国际象棋比赛之后，继续举办扑克牌、狼人杀等更多类型的游戏比赛。这预示着未来的AI实力排行榜将更加多元化和刺激，通过更多模拟真实世界博弈场景的竞赛，能够更全面、更直观地揭示不同AI模型在复杂决策和策略规划方面的真实水平，为用户选择和理解AI提供更有价值的参考。

江江 2025-08-17 00:00 浙江

文章开头问大家一个问题，如果想知道最近哪个 AI 牛，你会怎么查？

直接上 AI 竞技场，XX 排行榜？

没错，这些是有一定参考能力。

但看完最近大模型圈的电竞比赛后，我觉得现在多一种更靠谱的办法了，那就是看——

AI 的游戏排位天梯。

前几天，Google 旗下 Kaggle 举办了首届 AI 国际象棋比赛，一共有 8 名选手参加，个个都是狠角色。

什么 Gemini 2.5 Pro、Grok 4、DeepSeek R1。。

比赛规则很简单。每场对决为“ 四局两胜制 ”，谁先拿到2分（胜1分，平0.5分）谁晋级。如果打成 2-2 平，将加赛一场绝杀局。

比赛过程中，我们还能看到这些职业选手的思考过程，看看他们如何应对对方的进攻，看待自己的失误。

结果说起来你可能不信，在众多排行榜都保持第一的 Gemini，只拿下季军。

而 GPT-o3，则以一把没输的绝对统治力，夺得冠军。

看到这，可能有差友好奇，为啥要让这些大模型下棋啊，谁赢谁输和咱有关系么？

因为国际象棋，更能让你看出 AI 的实力。

相比那些传统排行榜，国际象棋考验的是一套无法靠刷题速成的综合能力，更能展示出一个大模型的思考、涌现能力。

过去，我们要想知道哪个模型牛，主要看两种榜。

第一种就是 AI 竞技场 LMArena，可以把它理解为大模型圈的《蒙面歌王》。

你随便问个问题，它给你两个匿名模型的回答，你觉得哪个好就投哪个。

听起来很公平是吧？但它也有不少缺点。

首先圈子太小了。

我不提，可能很多人都没听过这网站。天天泡在上面投票的，不是专业的技术人员，就是一些前沿科技发烧友。

这些人的问题和对答案的主观判断，跟咱们普通人可能并不一样。

这就导致 AI 竞技场排名，更像是一种技术爱好者的口味榜，并非适合你我。

其次，嘴甜的大模型在这种模式里，很容易占便宜。

很多时候，大伙儿不会去做事实核查。

如果有一个模型说错了所有答案，但它回答地头头是道，答案很清晰，逻辑也很自洽，那它很有可能骗走一堆不该有的票数。

除了 AI 竞技场这种主观排行榜，大模型还有 MMLU Pro和 AIME 这类客观基准测试。

MMLU 全称是大规模多任务语言理解，它包含了从初中水平数理化到研究生水平的历史、科学、法律等 57 个科目，MMLU Pro 则在此基础上进一步加大难度，总之它可以迅速衡量一个模型知识面的宽度。

AIME 也类似，这是美国高中生数学竞赛体系中的一环，可以测试出大模型们的逻辑推理深度。

这两类考试的优点，都是极度客观。

但缺点也很致命。

一个大模型的 MMLU 分数高，只能说明它读过很多书，或者提前训练了题库，并不能反馈出模型的理解能力。

它可能知道“火锅瞎掉一只眼是哪一年”，但不一定能分析出火锅瞎眼对狗圈颜值会带来多大损失。

而且啊，从去年开始，几个头部大模型们正确率就已超过了 80%，正不断接近于人类专家水平（89.8%），我们也很难看出这些模型之间的实力差距。

同样，AIME 只能测试一种非常线性的、基于数学公理的逻辑。

但真实世界的问题，哪有像数学题这样逻辑清晰、条件充分的。

一个在 AIME 里爆杀的大模型，或许并不擅长帮你解读电影，帮你怎么理解领导的话中话。

到这，你应该能明白 Kaggle 搞这场象棋比赛的逻辑了——

别再让 AI 考试和选秀了，到底有没有实力，直接线下真实一波就知道了。

毕竟大众普遍需要的，是一个能在复杂、多变的环境中，实时解决未知问题的大模型。

而游戏，就是一个很不错的修罗场。

因为你想在游戏里赢，光会背书没用，每一次对局都是完全不一样的。

在游戏中，你也得有大局观，不能只盯着眼前这一步，最关键的是，还得有应变能力，对手一出招，局面又会发生变化，你要会调整战术，甚至思考要不要壮士扼腕。

这些能力，在静态的考卷上是绝对测不出来的。

虽然这次比赛直播采用锦标赛形式，但最终的排行榜是由全对全系统决定，这些大模型还要幕后进行上百场比赛，最终才会出现一个动态排行榜，给大家查看排名。

国际象棋的比赛结束后，Kaggle 还会继续举办其他游戏比赛，比如扑克牌，甚至是狼人杀。

该说不说，以后的 AI 排行榜，可能会越来越刺激了。

撰文：刺猬

编辑：江江

美编：萱萱

图片、资料来源：

Kaggle Game Arena Chess Exhibition Tournament 2025

2025 Kaggle Game Arena Chess Exhibition Tournament: Official Discussion Thread

Chess NewsKaggle AI Chess Exhibition Tournament LIVE

Chess Text Input Leaderboard | Kaggle

Google Kaggle 举办 AI 国际象棋锦标赛，评估领先模型的推理能力

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI国际象棋比赛大模型评估 Kaggle GPT-o3 AI竞技

相关文章

AutoML for Natural Language Processing with Abhishek Thakur - #475

Secrets of a Kaggle Grandmaster with David Odaibo - #354

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

首个AI Kaggle特级大师诞生，o1夺7金封王！

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

OpenAI Develops New AGI Benchmark to Assess Potential Risks of Advanced AI

NeurlPS 2024 | 上交大、清华提出Diff-eRank，大模型评估的全新视角与方法

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

Meet NEO: A Multi-Agent System that Automates the Entire Machine Learning Workflow

华为Kaggle大师级AI agent诞生国产AI应用端有望持续繁荣