热点
关于我们
xx
xx
"
Benchmark
" 相关文章
Terminal-Bench 2.0 launches alongside Harbor, a new framework for testing agents in containers
VentureBeat
2025-11-07T23:33:42.000000Z
Benchmarking LLMs on AI-Generated CUDA Code with ComputeEval 2025.2
Nvidia Developer
2025-11-07T16:32:23.000000Z
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
oschina.net
2025-11-06T07:39:48.000000Z
MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models
cs.AI updates on arXiv.org
2025-11-05T05:27:55.000000Z
ImpossibleBench: Measuring Reward Hacking in LLM Coding Agents
少点错误
2025-10-30T03:15:41.000000Z
全球首款2nm芯片 三星Exynos 2600跑分再创新高
cnBeta全文版
2025-10-29T18:47:15.000000Z
全球首款2nm芯片 三星Exynos 2600跑分再创新高
Cnbeta
2025-10-29T17:02:57.000000Z
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
智源社区
2025-10-29T16:23:53.000000Z
全球首款2nm芯片!三星Exynos 2600跑分再创新高
快科技资讯
2025-10-29T16:20:01.000000Z
用「进化+压力测试」自动生成的竞赛级编程题,各家大模型谁更hold住?
机器之心
2025-10-27T15:13:47.000000Z
苹果M5芯片发布:单核性能再创新高,碾压对手
中关村在线新闻中心
2025-10-25T07:41:55.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly
2025-10-22T15:13:53.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly
2025-10-22T15:13:53.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly
2025-10-22T14:32:56.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所
2025-10-22T10:04:21.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所
2025-10-22T10:04:21.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所
2025-10-22T10:04:21.000000Z
三星 Galaxy S26 手机“芯”跑分再曝:Exynos 2600 调低主频,不敌骁龙 8 至尊版
IT之家
2025-10-22T06:32:25.000000Z
三星 Galaxy S26 手机“芯”跑分再曝:Exynos 2600 调低主频,不敌骁龙 8 至尊版
IT之家
2025-10-22T06:32:25.000000Z
DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios
cs.AI updates on arXiv.org
2025-10-20T04:14:11.000000Z