大模型评测_Fishai

热点

"大模型评测" 相关文章

美团 LongCat 团队发布 VitaBench：基于复杂生活场景的交互式 Agent 评测基准

oschina.net 2025-11-06T07:39:48.000000Z

云栖现场｜让评测与标注成为AI进化引擎！阿里发布全新评测平台，3大创新评测集亮相

阿里技术 2025-09-28T15:48:24.000000Z

云栖现场｜让评测与标注成为AI进化引擎！阿里发布全新评测平台，3大创新评测集亮相

阿里技术 2025-09-27T02:35:54.000000Z

美团 M17 团队开源 Meeseeks 评测集：揭秘大模型的“听话”能力

美团技术 2025-09-01T02:15:31.000000Z

GPT-5费尽心机“作弊”，只为超过心魔Claude

36氪 - 科技频道 2025-08-18T03:49:22.000000Z

J1-Bench | 首个面向法律智能体的动态交互评测环境

智源社区 2025-07-31T00:53:12.000000Z

GLM-4.5发布，全网最全测评和使用教程来了！

Datawhale 2025-07-30T12:27:00.000000Z

GLM-4.5发布，全网最全测评和使用教程来了！

机器学习初学者 2025-07-29T23:59:24.000000Z

EvaLearn：AI下半场的全新评测范式！

机器之心 2025-07-28T17:03:21.000000Z

GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改屎山代码

新智元 2025-07-26T14:00:25.000000Z

AI也怕压力大？REST多题评测挑战推理极限，DeepSeek性能暴跌近30%

PaperWeekly 2025-07-26T10:20:59.000000Z

DeepSeek、千问、混元、文心、Kimi与智谱，六大国产大模型，谁是最强“金融分析师”？

36氪 - AI相关文章 2025-07-21T03:24:26.000000Z

2025 IMO真题撕碎AI数学神话，全球顶尖模型齐翻车！冠军铜牌都拿不到

新智元 2025-07-18T09:43:55.000000Z

唯一能做对「5位数字密码推理」的国产大模型出现了

夕小瑶科技说 2025-06-22T05:04:10.000000Z

我花了2天，找到了我觉得翻译质量最好的AI大模型。

数字生命卡兹克 2025-03-13T04:59:38.000000Z

DeepSeek和OpenAI、xAI、Anthropic哪家强？FlagEval智源评测

智源社区 2025-03-05T14:20:26.000000Z

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

智源社区 2025-03-05T07:41:35.000000Z

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

量子位 2025-03-04T10:09:30.000000Z

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

2025-01-06T07:48:45.000000Z

模型评测不是用来刷榜的，智源要用“辩论赛”的方式找回评测该有的样子

硅星人Pro 2024-12-25T02:55:16.000000Z

Copyright © 2019 FISHAI.All Rights Reserved