Cnbeta 11月07日 16:47
AI能力评估方法存疑,或高估实际表现
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

牛津互联网研究院的一项最新研究揭示,当前用于评估人工智能系统能力的方法存在科学严谨性不足的问题,可能导致AI实际表现被“高估”。该研究审查了445项主流AI基准测试,发现许多测试在目标界定、数据复用、统计方法等方面存在缺陷,难以真实反映AI在现实中的能力。例如,GSM8K数学基准测试的正确答案并不完全代表模型的真正数学或推理水平。研究呼吁重新审视基准的有效性,并提出八项建议以提高评估的透明度和可信度,包括开发更具代表性的任务集和采用更科学的统计分析方法。目前已有新的测试方式被提出,以期更准确地衡量AI在真实场景下的表现。

📊 **AI能力评估方法普遍存在不足**:牛津互联网研究院的研究指出,当前用于评估AI系统能力的基准测试常因缺乏科学严谨性而高估AI的实际表现。研究人员审查了445项主流AI测试,发现其可靠性存疑,呼吁重新审视这些基准的有效性。

📉 **现有基准测试的局限性**:研究发现,许多顶级基准测试未能明确界定评测目标,频繁复用已有数据和测试方法,且很少采用可靠的统计方法比较模型结果。例如,GSM8K数学基准测试的正确答案仅能显示基本算术能力,而非真正的数学或推理水平,半数基准未清晰定义所测量的概念。

🚀 **改进AI评估的建议与方向**:为解决上述问题,研究提出八项建议,旨在提高评估的透明度和可信度,包括要求基准制定者更清晰地界定测试范畴,开发更具代表性的任务集,并采用统计分析方法比较性能。同时,已有新的测试方式被提出,如OpenAI的面向真实职业任务的测试,以更贴合现实需求地评估AI能力。

根据牛津互联网研究院最新发布的一项研究,目前用于评估人工智能系统能力的方法常因缺乏科学严谨性而“高估”了AI的实际表现。该研究由牛津互联网研究院牵头,联合三十多位学者,对445项主流AI测试(即“基准测试”)进行了审查。研发者和研究人员常以这些基准测试来评价模型性能,并据此宣称技术进步。然而,此项研究认为这些基础测试本身的可靠性存在疑问,呼吁重新审视相关基准的有效性。

研究发现,许多顶级基准测试未能明确界定评测目标,频繁复用已有数据和测试方法,且很少采用可靠的统计方法比较不同模型结果。有作者指出,AI在被要求完成特定任务时,实际测量对象常常与预期目标并不一致。例如常用的GSM8K数学基准测试,虽然正确答案能显示模型基本算术能力,但未必能代表其真正的数学或推理水平。

研究还指出,半数基准未清晰定义所测量的概念,使测试结果难以真实反映AI模型在现实中的表现。作者建议,基准制定者应更清楚界定测试范畴,开发更具代表性的任务集,并以统计分析方式比较性能表现。

作为改善措施,论文提出八项建议,包括增加透明度和可信度的检查清单。目前已有人提出以更贴合现实需求的测试方式,如OpenAI推出的面向44种真实职业任务的新测试;中心安全团队也制定了用于评估远程工作自动化任务能力的新基准。

该研究认为,AI测试仍处于科学评估的初期阶段,需持续探索更有效的评测路径,以推动AI实际能力的客观判断。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI评估 基准测试 人工智能 研究 AI capability assessment benchmarks artificial intelligence research
相关文章