热点
"大模型评估" 相关文章
3位00后,估值700亿
2025-10-28T14:39:28.000000Z
3位00后,估值700亿
36kr-科技 2025-10-28T12:58:07.000000Z
用「进化+压力测试」自动生成的竞赛级编程题,各家大模型谁更hold住?
机器之心 2025-10-27T15:13:47.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T15:13:53.000000Z
ICCV 2025 | AI能看懂电影剧情吗?VRBench开启首场“长视频推理大考”
PaperWeekly 2025-10-22T14:32:56.000000Z
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心 2025-09-14T00:34:51.000000Z
Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力
PaperWeekly 2025-09-03T15:12:51.000000Z
信AI排行榜,不如信它们的游戏排位分数。
差评 2025-08-16T17:33:30.000000Z
EvaLearn:AI下半场的全新评测范式!
机器之心 2025-07-30T08:50:35.000000Z
大模型评估排障指南 | 关于可复现性
智源社区 2025-05-14T04:34:06.000000Z
大模型评估排障指南 | 关于 LaTeX 公式解析
Hugging Face 2025-05-13T16:51:52.000000Z
大模型评估排障指南 | 关于可复现性
Hugging Face 2025-05-13T16:51:52.000000Z
讲座预告|超越基准:迈向可泛化评估之路
智源社区 2025-05-13T13:29:06.000000Z
大模型评估排障指南 | 关于可复现性
掘金 人工智能 2025-05-13T09:28:03.000000Z
大模型评估排障指南 | 关于 LaTeX 公式解析
掘金 人工智能 2025-05-08T04:08:02.000000Z
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
新智元 2025-02-08T16:15:55.000000Z
NeurlPS 2024 | 上交大、清华提出Diff-eRank,大模型评估的全新视角与方法
PaperWeekly 2024-11-08T14:38:45.000000Z