热点
关于我们
xx
xx
"
AI基准测试
" 相关文章
Flawed AI benchmarks put enterprise budgets at risk
AI News
2025-11-04T15:25:46.000000Z
别再花50万买机器人了,现在“云养”就能做具身智能研究,还免费
夕小瑶科技说
2025-10-15T13:39:35.000000Z
AI Agent Benchmark Compendium
philschmid RSS feed
2025-10-15T13:17:46.000000Z
AI Agent Benchmark Compendium
philschmid RSS feed
2025-10-15T13:17:46.000000Z
2025 State of AI Report and Predictions
少点错误
2025-10-10T17:39:41.000000Z
AI models are already as good as experts at half of tasks, a new OpenAI benchmark suggests
Fortune | FORTUNE
2025-09-30T19:20:44.000000Z
OpenAI测试称GPT-5媲美专家
36kr-科技
2025-09-26T02:04:45.000000Z
OpenAI最新测试:GPT-5与Claude在部分工作中可媲美人类专家
富途牛牛头条
2025-09-26T00:05:30.000000Z
OpenAI称GPT-5在众多职业领域表现比肩人类
Cnbeta
2025-09-25T19:14:32.000000Z
OpenAI称GPT-5在众多职业领域表现比肩人类
cnBeta全文版
2025-09-25T18:50:47.000000Z
不满现有工具,三星推出自研 AI 性能基准测试工具 TRUEBench
IT之家
2025-09-25T10:57:45.000000Z
Framing AI System Benchmarking as a Learning Task: FlexBench and the Open MLPerf Dataset
cs.AI updates on arXiv.org
2025-09-16T05:35:07.000000Z
谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
掘金 人工智能
2025-08-05T07:16:55.000000Z
GPT-4o Understands Text, But Does It See Clearly? A Benchmarking Study of MFMs on Vision Tasks
MarkTechPost@AI
2025-07-24T06:15:51.000000Z
什么都不做就能得分?智能体基准测试出现大问题
机器之心
2025-07-15T10:58:05.000000Z
xbench评测集正式开源
红杉汇
2025-06-18T01:54:52.000000Z
Agent时代需要新的基准测试:红杉中国推出xbench,量化智能体真实世界生产力
MIT 科技评论 - 本周热榜
2025-05-29T00:06:39.000000Z
Agent时代需要新的基准测试:红杉中国推出xbench,量化智能体真实世界生产力
DeepTech深科技
2025-05-27T12:57:01.000000Z
红杉中国发布xbench 首个由投资机构打造的AI基准测试
Cnbeta
2025-05-26T02:02:31.000000Z
今天,我们推出xbench
红杉汇
2025-05-26T01:06:54.000000Z