热点
"Benchmark" 相关文章
Terminal-Bench 2.0 launches alongside Harbor, a new framework for testing agents in containers
VentureBeat 2025-11-07T23:33:42.000000Z
Benchmarking LLMs on AI-Generated CUDA Code with ComputeEval 2025.2
Nvidia Developer 2025-11-07T16:32:23.000000Z
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
oschina.net 2025-11-06T07:39:48.000000Z
MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models
cs.AI updates on arXiv.org 2025-11-05T05:27:55.000000Z
ImpossibleBench: Measuring Reward Hacking in LLM Coding Agents
少点错误 2025-10-30T03:15:41.000000Z
全球首款2nm芯片 三星Exynos 2600跑分再创新高
cnBeta全文版 2025-10-29T18:47:15.000000Z
全球首款2nm芯片 三星Exynos 2600跑分再创新高
Cnbeta 2025-10-29T17:02:57.000000Z
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
智源社区 2025-10-29T16:23:53.000000Z
全球首款2nm芯片!三星Exynos 2600跑分再创新高
快科技资讯 2025-10-29T16:20:01.000000Z
用「进化+压力测试」自动生成的竞赛级编程题,各家大模型谁更hold住?
机器之心 2025-10-27T15:13:47.000000Z
苹果M5芯片发布:单核性能再创新高,碾压对手
中关村在线新闻中心 2025-10-25T07:41:55.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T15:13:53.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T15:13:53.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T14:32:56.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所 2025-10-22T10:04:21.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所 2025-10-22T10:04:21.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所 2025-10-22T10:04:21.000000Z
三星 Galaxy S26 手机“芯”跑分再曝:Exynos 2600 调低主频,不敌骁龙 8 至尊版
IT之家 2025-10-22T06:32:25.000000Z
三星 Galaxy S26 手机“芯”跑分再曝:Exynos 2600 调低主频,不敌骁龙 8 至尊版
IT之家 2025-10-22T06:32:25.000000Z
DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios
cs.AI updates on arXiv.org 2025-10-20T04:14:11.000000Z