热点
关于我们
xx
xx
"
大模型评测
" 相关文章
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
oschina.net
2025-11-06T07:39:48.000000Z
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
阿里技术
2025-09-28T15:48:24.000000Z
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
阿里技术
2025-09-27T02:35:54.000000Z
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的“听话”能力
美团技术
2025-09-01T02:15:31.000000Z
GPT-5费尽心机“作弊”,只为超过心魔Claude
36氪 - 科技频道
2025-08-18T03:49:22.000000Z
J1-Bench | 首个面向法律智能体的动态交互评测环境
智源社区
2025-07-31T00:53:12.000000Z
GLM-4.5发布,全网最全测评和使用教程来了!
Datawhale
2025-07-30T12:27:00.000000Z
GLM-4.5发布,全网最全测评和使用教程来了!
机器学习初学者
2025-07-29T23:59:24.000000Z
EvaLearn:AI下半场的全新评测范式!
机器之心
2025-07-28T17:03:21.000000Z
GPT-5实锤,悄悄上线代号「龙虾」!版本号曝光,实测编程惊人能改屎山代码
新智元
2025-07-26T14:00:25.000000Z
AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%
PaperWeekly
2025-07-26T10:20:59.000000Z
DeepSeek、千问、混元、文心、Kimi与智谱,六大国产大模型,谁是最强“金融分析师”?
36氪 - AI相关文章
2025-07-21T03:24:26.000000Z
2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到
新智元
2025-07-18T09:43:55.000000Z
唯一能做对「5位数字密码推理」的国产大模型出现了
夕小瑶科技说
2025-06-22T05:04:10.000000Z
我花了2天,找到了我觉得翻译质量最好的AI大模型。
数字生命卡兹克
2025-03-13T04:59:38.000000Z
DeepSeek和OpenAI、xAI、Anthropic哪家强?FlagEval智源评测
智源社区
2025-03-05T14:20:26.000000Z
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
智源社区
2025-03-05T07:41:35.000000Z
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
量子位
2025-03-04T10:09:30.000000Z
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
2025-01-06T07:48:45.000000Z
模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子
硅星人Pro
2024-12-25T02:55:16.000000Z