热点
"benchmark" 相关文章
MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models
cs.AI updates on arXiv.org 2025-11-05T05:27:55.000000Z
ImpossibleBench: Measuring Reward Hacking in LLM Coding Agents
少点错误 2025-10-30T03:15:41.000000Z
全球首款2nm芯片 三星Exynos 2600跑分再创新高
cnBeta全文版 2025-10-29T18:47:15.000000Z
全球首款2nm芯片 三星Exynos 2600跑分再创新高
Cnbeta 2025-10-29T17:02:57.000000Z
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
智源社区 2025-10-29T16:23:53.000000Z
全球首款2nm芯片!三星Exynos 2600跑分再创新高
快科技资讯 2025-10-29T16:20:01.000000Z
用「进化+压力测试」自动生成的竞赛级编程题,各家大模型谁更hold住?
机器之心 2025-10-27T15:13:47.000000Z
苹果M5芯片发布:单核性能再创新高,碾压对手
中关村在线新闻中心 2025-10-25T07:41:55.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T15:13:53.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T15:13:53.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T14:32:56.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所 2025-10-22T10:04:21.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所 2025-10-22T10:04:21.000000Z
Benchmark 加入一位新 GP,a16z 和红杉重金押注了一个语音 AI 硬件
投资实习所 2025-10-22T10:04:21.000000Z
三星 Galaxy S26 手机“芯”跑分再曝:Exynos 2600 调低主频,不敌骁龙 8 至尊版
IT之家 2025-10-22T06:32:25.000000Z
三星 Galaxy S26 手机“芯”跑分再曝:Exynos 2600 调低主频,不敌骁龙 8 至尊版
IT之家 2025-10-22T06:32:25.000000Z
DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios
cs.AI updates on arXiv.org 2025-10-20T04:14:11.000000Z
AutoCode: A New AI Framework that Lets LLMs Create and Verify Competitive Programming Problems, Mirroring the Workflow of Human Problem Setters
MarkTechPost@AI 2025-10-18T09:11:05.000000Z
社区供稿丨RoboChallenge全球首发:重塑具身智能基准测试,开启真机评测新纪元
Hugging Face 2025-10-16T16:58:55.000000Z
具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集
机器之心 2025-10-15T16:11:57.000000Z