热点
"评测基准" 相关文章
2025.10.22 | LightMem压缩记忆千倍提速12倍;闭环世界模型微调8万数据反超巨兽
HuggingFace 每日AI论文速递 2025-10-23T14:13:27.000000Z
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式
机器之心 2025-10-23T06:18:48.000000Z
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式
机器之心 2025-10-23T06:18:48.000000Z
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式
机器之心 2025-10-23T06:16:01.000000Z
华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格
36kr-科技 2025-10-14T07:29:44.000000Z
华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格
36kr-科技 2025-10-14T07:29:44.000000Z
华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格
36kr-科技 2025-10-14T07:29:44.000000Z
U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
我爱计算机视觉 2025-10-10T09:50:42.000000Z
U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
我爱计算机视觉 2025-10-10T09:50:42.000000Z
榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
PaperWeekly 2025-10-01T11:22:38.000000Z
SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破
机器之心 2025-09-29T11:35:18.000000Z
OCRBench v2 25年9月最新榜单发布!揭示多模态大模型文档智能真实水平
我爱计算机视觉 2025-09-25T09:50:35.000000Z
Meta 开源 Agent 评测基准 Gaia2 和 ARE 评测框架
oschina.net 2025-09-23T10:10:17.000000Z
里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元
AI科技评论 2025-09-18T11:42:42.000000Z
耗资15000个A100 GPU日!港中文、阿里等发布600万规模T2I推理数据集与基准
我爱计算机视觉 2025-09-15T08:23:31.000000Z
耗资15000个A100 GPU日!港中文、阿里等发布600万规模T2I推理数据集与基准
我爱计算机视觉 2025-09-14T10:06:02.000000Z
ICCV 2025 | InterVLA:聚焦第一视角感知决策,大规模通用人-物-人交互数据集与评测基准
我爱计算机视觉 2025-09-11T17:12:17.000000Z
函数能跑但写法离谱?北航IFEvalCode出手,专治多语言代码生成“不讲武德”
PaperWeekly 2025-08-11T08:59:57.000000Z
SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models
cs.AI updates on arXiv.org 2025-08-05T11:10:07.000000Z
研究人员构建临床试验数据库,收录165万条记录,为开发垂直Agent提供数据源
MIT 科技评论 - 本周热榜 2025-08-04T10:07:04.000000Z