热点
关于我们
xx
xx
"
AI Benchmark
" 相关文章
6月份的 Manus 放到现在也挺能打
2025-11-03T16:19:04.000000Z
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心
2025-10-15T13:37:12.000000Z
AI Agent Benchmark Compendium
philschmid RSS feed
2025-10-15T13:17:46.000000Z
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心
2025-10-15T07:21:43.000000Z
ServiceNow AI Research Releases DRBench, a Realistic Enterprise Deep-Research Benchmark
MarkTechPost@AI
2025-10-14T07:53:21.000000Z
ServiceNow AI Research Releases DRBench, a Realistic Enterprise Deep-Research Benchmark
MarkTechPost@AI
2025-10-14T07:53:21.000000Z
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心
2025-10-14T06:54:22.000000Z
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心
2025-10-14T06:53:13.000000Z
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心
2025-10-14T06:53:13.000000Z
AI models are already as good as experts at half of tasks, a new OpenAI benchmark suggests
Fortune | FORTUNE
2025-09-30T19:20:44.000000Z
OpenAI 发布 AI 打工人报告:前沿模型完成专家级任务,速度快 100 倍,成本仅 1%
IT之家
2025-09-27T01:15:50.000000Z
OpenAI测试称GPT-5媲美专家
36kr-科技
2025-09-26T02:04:45.000000Z
OpenAI称GPT-5在众多职业领域表现比肩人类
Cnbeta
2025-09-25T19:14:32.000000Z
OpenAI称GPT-5在众多职业领域表现比肩人类
cnBeta全文版
2025-09-25T18:50:47.000000Z
Gaia2 与 ARE:赋能社区的智能体评测
Hugging Face
2025-09-23T16:54:45.000000Z
ScienceQA最新榜单出炉!多家公司新模型分数均提升|xbench 月报
红杉汇
2025-09-22T01:07:39.000000Z
GPT-5惨遭零分打脸,顶级AI全军覆没,奥特曼AI博士级能力神话破灭
36氪 - 科技频道
2025-09-16T04:47:13.000000Z
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的“听话”能力
美团技术
2025-09-01T02:15:31.000000Z
本周 AI Benchmark 方向论文推荐
魔搭ModelScope社区
2025-03-16T14:04:43.000000Z