红杉汇 10月27日 09:10
xbench最新评测题库更新,ChatGPT-5 Pro优势显著
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

xbench-DeepSearch评测题库进行了更新升级,构建了全新的100道题目,结果显示ChatGPT-5 Pro优势显著,评测分数断档式领先;SuperGrok位列第二档;其他公司的Agent产品多在30-40分档位,无明显差距。DeepSearch-2510题库已经开源,官网链接:https://xbench.org/agi/aisearch。下载链接:Github: https://github.com/xbench-ai/xbench-evals,Hugging Face: https://huggingface.co/datasets/xbench/DeepSearch-2510。xbench采用长青评估机制,每月持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。

🔍 xbench-DeepSearch评测题库进行了更新升级,构建了全新的100道题目,用新题目对模型和智能体进行测试。

🏆 ChatGPT-5 Pro优势显著,评测分数断档式领先;SuperGrok位列第二档;其他公司的Agent产品多在30-40分档位,无明显差距。

💡 DeepSearch-2510题库已经开源,官网链接:https://xbench.org/agi/aisearch。下载链接:Github: https://github.com/xbench-ai/xbench-evals,Hugging Face: https://huggingface.co/datasets/xbench/DeepSearch-2510。

⚙️ xbench采用长青评估机制,每月持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。

🤝 如公司已上线发布的产品想参与xbench评测和Leaderboard榜单,可以联系xbench团队。

原创 洪杉 2025-10-27 08:02 北京

xbench最新一期Leaderboard新鲜出炉

我们对xbench-DeepSearch评测题库进行了更新升级,构建了全新的100道题目,用新题目对模型和智能体进行评测。结果显示,ChatGPT-5 Pro优势显著,评测分数断档式领先;SuperGrok位列第二档;其他公司的Agent产品多在30-40分档位,无明显差距。

DeepSearch-2510题库已经开源,官网链接:https://xbench.org/agi/aisearch

下载链接:

• Github: https://github.com/xbench-ai/xbench-evals

• Hugging Face: https://huggingface.co/datasets/xbench/DeepSearch-2510

xbench采用长青评估机制,每月持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。你可以在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名;欢迎通过team@xbench.org与我们取得联系,反馈意见。

xbench-DeepSearch Leaderboard更新

本次对xbench-DeepSearch评测集进行了更新升级,构建了全新的100题,用新题目对模型和智能体进行测试。

备注:

• Cost是完成每个任务的平均花费,Time Cost是每个任务的耗时。

• 以上所有测试结果,均基于各Agent产品的公开版本和网页入口,评测时所选择的UI界面模式和评测时间均标明在上述表格中。未提供开放入口、有访问次数限制的模型和Agents,暂未列入榜单。

• 所有产品均开启联网功能进行评测。由于大部分Agents产品都有多种模式可以选择,表中标明了评测时UI界面上所选择的模式。

• 考虑到大模型的回复存在随机性,最终评测分数使用置信区间表达更为合适。为了简化置信区间的表达,本次榜单按5分一档划分区间,相同区间内的模型,可以近似认为属于同一水平。

用户体验甜区榜

用户体验与准确性、任务响应时间、成本等因素息息相关。准确性决定是否产品是否可用,等待时间决定是否好用,花费成本决定用户承受度。

以上两张图分别对比了准确率和每题的费用成本以及时间花费的关系。每道搜索题目的成本在$0.25以下,响应时间在8min以内,是大多数用户可以接受的区间。

目前有以下Agent/Model在两张图的甜区重叠:ChatGPT-5 Pro、SuperGrok Expert、Doubao(Deep Research)、Genspark、Coze Space。如果把定价区间打开~3倍,则有两个优秀Agent进入甜区重叠:Skywork、Manus。

评测集更新总结

本次xbench对DeepSearch评测集进行了升级,制作了全新的100题,发布DeepSearch-2510版本,计划于近期开源:

全面增加难度。当前DeepSearch-2505版本题库中,多家公司产品达到了70+的分数,ChatGPT-5 Pro更是获得了80+的分数,已无法检测后续的模型能力提升。DeepSearch-2510版本对题库提升了难度,主流厂商(除ChatGPT之外)的分数在40分左右,为模型迭代提升预留空间。

增加多模态题目占比。新版增加了10道多模态题目,Agents需要识别图片或视频中的内容进行推理,才能得到正确答案。之后版本会逐步增加多模态题目的比例。

增加工具使用题目占比。随着模型和Agents能力的提升,只依赖静态网页信源的题目已过于简单。实际应用场景中,大部分信息都需要与网页进行动态交互获得,例如输入筛选条件,使用地图服务等。新版题库增加20多道需要动态交互获取信息的题目,以适配工具使用能力的进展。

以上改进体现了xbench评测集持续更新、Evergreen的目标。通过增加新能力维度的考察,逐步提升难度区间,以适配模型和Agents能力的演进,考察出AI真实的能力进步水平。

01

DeepSearch-2510版本例题

xbench-DeepSearch榜单分析

ChatGPT-5 Pro在评测分数上断档式领先。相比于竞品,其在幻觉和工具使用上有着极其明显的优势和进步:

幻觉率大幅降低,体现在以下几点:

规划能力极强,清楚该拆几步,每一步该搜什么、去哪儿搜,能够快速定位并召回核心信源。

遇到多个信源冲突时,能够对数据交叉验证,识别出最权威的信源。

当问题有歧义,存在不同理解不同答案时,会一一列出各种理解下相应的正确回答。

既知道正确答案,也知道错误答案错在哪儿,会在回答中提示易与正确答案混淆的错误原因。

以上几点均明显是特地标过相应模式的数据以增强模型的反思能力,达到降低幻觉的效果。

高效的使用工具:

能够灵活地同网页进行交互,包括不限于动态加载、动态输入筛选条件、访问地图等服务,极大帮助和提升了信源获取的广度和深度。有了更丰富更精确的信源,配合幻觉率下降的优化,使得ChatGPT-5 Pro获得了评测分数上断档式的领先。

基于Grok-4的SuperGrok在本次榜单中也表现优异,独列第二档。猜测主要原因是Grok-4本身模型推理能力的优势带来的效果。

国内开发的Agents都在30-40分的档位内,没有明显差距。原因在于基模能力的差距(Minimax、StepFun、Coze),或虽然能使用先进模型,但无法同基座模型协同优化(Manus、Genspark)

更追求响应效率,在推理资源上投入保守的产品,如Doubao和Gemini,评测分数如预期不及上述几位竞品。但时间优势明显,大多数查询不到1分钟即可完成回复,相比ChatGPT-5 Pro平均5分钟,Minimax、StepFun平均10分钟以上的完成回复时间,效率优势明显。

Gemini在中文信源上有明显短板,基本定位不到正确的信源,是分数偏低的核心原因。

xbench-DeepSearch-2505评测分数对比

同一家公司的产品,使用2505题库进行重新评测后,分数的变化极大。可以看到大部分公司的产品,在这几个月里的搜索能力有较大幅度的提升。

ChatGPT的提升来自于模型更新,ChatGPT 5-Pro相比o3在幻觉上大幅降低。

SuperGrok的提升来自于模型更新,Grok-4相比Grok-3在推理能力上大幅提升。

Doubao的提升来自于深度研究功能上线,相比默认的网页搜索,具备更好的效果。

Gemini提升不大,虽然模型能力有所提升,但主要由于国内信源搜索效果不佳,影响了端到端效果。

如公司已上线发布的产品想参与xbench评测和Leaderboard榜单,可以联系xbench团队。

推荐阅读

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

xbench DeepSearch ChatGPT-5 Pro SuperGrok AI评测
相关文章