大模型评估_Fishai

热点

"大模型评估" 相关文章

3位00后，估值700亿

2025-10-28T14:39:28.000000Z

3位00后，估值700亿

36kr-科技 2025-10-28T12:58:07.000000Z

用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？

机器之心 2025-10-27T15:13:47.000000Z

ICCV 2025 | AI能看懂电影剧情吗？VRBench开启首场“长视频推理大考”

PaperWeekly 2025-10-22T15:13:53.000000Z

ICCV 2025 | AI能看懂电影剧情吗？VRBench开启首场“长视频推理大考”

PaperWeekly 2025-10-22T14:32:56.000000Z

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心 2025-09-14T00:34:51.000000Z

Benchmark新试炼场！从棋盘到德扑全覆盖，GAMEBoT虐测大模型推理力

PaperWeekly 2025-09-03T15:12:51.000000Z

信AI排行榜，不如信它们的游戏排位分数。

差评 2025-08-16T17:33:30.000000Z

EvaLearn：AI下半场的全新评测范式！

机器之心 2025-07-30T08:50:35.000000Z

大模型评估排障指南 | 关于可复现性

智源社区 2025-05-14T04:34:06.000000Z

大模型评估排障指南 | 关于 LaTeX 公式解析

Hugging Face 2025-05-13T16:51:52.000000Z

大模型评估排障指南 | 关于可复现性

Hugging Face 2025-05-13T16:51:52.000000Z

讲座预告｜超越基准：迈向可泛化评估之路

智源社区 2025-05-13T13:29:06.000000Z

大模型评估排障指南 | 关于可复现性

掘金人工智能 2025-05-13T09:28:03.000000Z

大模型评估排障指南 | 关于 LaTeX 公式解析

掘金人工智能 2025-05-08T04:08:02.000000Z

o3-mini数学推理暴打DeepSeek-R1？AIME 2025初赛曝数据集污染大瓜

新智元 2025-02-08T16:15:55.000000Z

NeurlPS 2024 | 上交大、清华提出Diff-eRank，大模型评估的全新视角与方法

PaperWeekly 2024-11-08T14:38:45.000000Z

Copyright © 2019 FISHAI.All Rights Reserved