AI Benchmark_Fishai

热点

"AI Benchmark" 相关文章

6月份的 Manus 放到现在也挺能打

2025-11-03T16:19:04.000000Z

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

机器之心 2025-10-15T13:37:12.000000Z

AI Agent Benchmark Compendium

philschmid RSS feed 2025-10-15T13:17:46.000000Z

AI能否「圣地巡礼」？多模态大模型全新评估基准VIR-Bench来了

机器之心 2025-10-15T07:21:43.000000Z

ServiceNow AI Research Releases DRBench, a Realistic Enterprise Deep-Research Benchmark

MarkTechPost@AI 2025-10-14T07:53:21.000000Z

ServiceNow AI Research Releases DRBench, a Realistic Enterprise Deep-Research Benchmark

MarkTechPost@AI 2025-10-14T07:53:21.000000Z

景不动人动，MLLM如何面对「移步换景」的真实世界？OST-Bench揭示多模态大模型在线时空理解短板

机器之心 2025-10-14T06:54:22.000000Z

景不动人动，MLLM如何面对「移步换景」的真实世界？OST-Bench揭示多模态大模型在线时空理解短板

机器之心 2025-10-14T06:53:13.000000Z

景不动人动，MLLM如何面对「移步换景」的真实世界？OST-Bench揭示多模态大模型在线时空理解短板

机器之心 2025-10-14T06:53:13.000000Z

AI models are already as good as experts at half of tasks, a new OpenAI benchmark suggests

Fortune | FORTUNE 2025-09-30T19:20:44.000000Z

OpenAI 发布 AI 打工人报告：前沿模型完成专家级任务，速度快 100 倍，成本仅 1%

IT之家 2025-09-27T01:15:50.000000Z

OpenAI测试称GPT-5媲美专家

36kr-科技 2025-09-26T02:04:45.000000Z

OpenAI称GPT-5在众多职业领域表现比肩人类

Cnbeta 2025-09-25T19:14:32.000000Z

OpenAI称GPT-5在众多职业领域表现比肩人类

cnBeta全文版 2025-09-25T18:50:47.000000Z

Gaia2 与 ARE：赋能社区的智能体评测

Hugging Face 2025-09-23T16:54:45.000000Z

ScienceQA最新榜单出炉！多家公司新模型分数均提升｜xbench 月报

红杉汇 2025-09-22T01:07:39.000000Z

GPT-5惨遭零分打脸，顶级AI全军覆没，奥特曼AI博士级能力神话破灭

36氪 - 科技频道 2025-09-16T04:47:13.000000Z

美团 M17 团队开源 Meeseeks 评测集：揭秘大模型的“听话”能力

美团技术 2025-09-01T02:15:31.000000Z

本周 AI Benchmark 方向论文推荐

魔搭ModelScope社区 2025-03-16T14:04:43.000000Z

Copyright © 2019 FISHAI.All Rights Reserved