Hugging Face 01月10日
自动评估基准 | 一些评估测试集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文是自动评估基准系列文章的第三篇,介绍了一些评估数据集,指出部分数据集存在过时或可能受污染的问题,同时提到后续会更新包含大语言模型的评估

这是自动评估基准系列文章的一部分

列出近年来开发构建的评估数据集

指出部分数据集过时或可能受污染

提及后续会更新含大语言模型的评估

原创 Hugging Face 2025-01-08 10:30 广东

宝子们在找数据集吗?快来瞧一瞧~

这是 自动评估基准 系列文章的第三篇,敬请关注系列文章:

如果你感兴趣的任务已经得到充分研究,很可能评估数据集已经存在了。

下面列出了一些近年来开发构建的评估数据集。需要注意的是:

Pre-LLM 数据集

? 点击图片可放大查看 ?

可手动重现的数据集想法

? 点击图片可放大查看 ?


英文原文:https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/automated-benchmarks/some-evaluation-datasets.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

评估数据集 自动评估基准 大语言模型 数据集问题
相关文章