AI基准测试_Fishai

热点

"AI基准测试" 相关文章

Flawed AI benchmarks put enterprise budgets at risk

AI News 2025-11-04T15:25:46.000000Z

别再花50万买机器人了，现在“云养”就能做具身智能研究，还免费

夕小瑶科技说 2025-10-15T13:39:35.000000Z

AI Agent Benchmark Compendium

philschmid RSS feed 2025-10-15T13:17:46.000000Z

AI Agent Benchmark Compendium

philschmid RSS feed 2025-10-15T13:17:46.000000Z

2025 State of AI Report and Predictions

少点错误 2025-10-10T17:39:41.000000Z

AI models are already as good as experts at half of tasks, a new OpenAI benchmark suggests

Fortune | FORTUNE 2025-09-30T19:20:44.000000Z

OpenAI测试称GPT-5媲美专家

36kr-科技 2025-09-26T02:04:45.000000Z

OpenAI最新测试：GPT-5与Claude在部分工作中可媲美人类专家

富途牛牛头条 2025-09-26T00:05:30.000000Z

OpenAI称GPT-5在众多职业领域表现比肩人类

Cnbeta 2025-09-25T19:14:32.000000Z

OpenAI称GPT-5在众多职业领域表现比肩人类

cnBeta全文版 2025-09-25T18:50:47.000000Z

不满现有工具，三星推出自研 AI 性能基准测试工具 TRUEBench

IT之家 2025-09-25T10:57:45.000000Z

Framing AI System Benchmarking as a Learning Task: FlexBench and the Open MLPerf Dataset

cs.AI updates on arXiv.org 2025-09-16T05:35:07.000000Z

谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

掘金人工智能 2025-08-05T07:16:55.000000Z

GPT-4o Understands Text, But Does It See Clearly? A Benchmarking Study of MFMs on Vision Tasks

MarkTechPost@AI 2025-07-24T06:15:51.000000Z

什么都不做就能得分？智能体基准测试出现大问题

机器之心 2025-07-15T10:58:05.000000Z

xbench评测集正式开源

红杉汇 2025-06-18T01:54:52.000000Z

Agent时代需要新的基准测试：红杉中国推出xbench，量化智能体真实世界生产力

MIT 科技评论 - 本周热榜 2025-05-29T00:06:39.000000Z

Agent时代需要新的基准测试：红杉中国推出xbench，量化智能体真实世界生产力

DeepTech深科技 2025-05-27T12:57:01.000000Z

红杉中国发布xbench 首个由投资机构打造的AI基准测试

Cnbeta 2025-05-26T02:02:31.000000Z

今天，我们推出xbench

红杉汇 2025-05-26T01:06:54.000000Z

Copyright © 2019 FISHAI.All Rights Reserved