36kr-科技 09月26日
AI模型性能接近行业专家,OpenAI发布新基准测试
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了一项名为GDPval的新基准测试,旨在衡量其AI模型在经济价值工作中的表现,并与行业专家进行对比。测试显示,GPT-5和Anthropic的Claude Opus 4.1模型已接近人类专家的工作质量。GDPval涵盖了美国GDP贡献最大的九个行业中的44种职业,通过让资深专业人士对比AI生成报告与人类成果来评估模型表现。GPT-5在40.6%的情况下表现优于或持平专家,而Claude Opus 4.1则在49%的任务中达到同等水平。OpenAI认为,该测试标志着AI在经济价值工作领域的重要进展,预示着AI将帮助人类节省时间,专注于更具价值的工作。

🌟 **AI模型性能显著提升,接近人类专家水平**:OpenAI发布的GDPval基准测试显示,其GPT-5模型以及竞争对手Anthropic的Claude Opus 4.1在经济价值工作领域已接近行业专家的工作质量。GPT-5在40.6%的任务中表现优于或持平人类专家,而Claude Opus 4.1更是达到了49%的同等水平,这标志着AI在复杂任务处理能力上的重大飞跃。

📊 **GDPval基准测试的创新与局限**:GDPval是OpenAI为衡量AI在经济价值工作中的进展而设计的初步尝试,覆盖了医疗、金融、制造业等九大行业中的44种职业。测试通过对比AI与人类专家在报告撰写等任务上的表现来评估模型。然而,OpenAI也承认,该测试目前仅涵盖了实际工作中有限的任务类型,未来将开发更全面的测试。

🚀 **AI赋能与未来展望**:尽管AI尚不能完全取代人类工作,但GDPval的测试结果表明,AI模型已能在部分任务上提供有力支持。OpenAI首席经济学家Aaron Chatterji认为,AI将帮助专业人士节省时间,使其能够专注于更具创造性和高价值的工作,从而提升整体工作效率和产出。

📈 **GPT-5性能大幅跃升**:与约15个月前发布的GPT-4o模型(得分13.7%)相比,GPT-5在GDPval测试中的成绩几乎提高了三倍。OpenAI评估负责人Tejal Patwardhan对这一快速进展表示鼓舞,并预计AI能力的提升趋势将持续下去。

OpenAI表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。

当地时间周四(9月25日),人工智能(AI)研究公司OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。

这项测试名为GDPval,是一次初步尝试,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近。而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。

OpenAI周四表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。

这并不意味着OpenAI的模型会立刻取代人类工作。尽管一些CEO预测AI在几年内就会取代人类,但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。不过,这是该公司用来衡量AI向这一里程碑迈进的最新方式之一。

GDPval基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业和政府等领域。测试覆盖了44种职业,从软件工程师到护士再到记者。

在首个版本GDPval-v0中,OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果,并挑选出更优者。

例如,某项任务要求投行人员为“最后一公里配送行业”制作竞争格局分析,并与AI生成的报告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算。

结果显示,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。

而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,这一表现超过了OpenAI的模型。

OpenAI对此解释称,之所以Claude得分更高,部分原因是其倾向于生成更美观的图表,而非纯粹性能更优。

需要说明的是,大多数职业的工作远不止提交研究报告,而这却是GDPval-v0所测试的全部内容。OpenAI承认这一点,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。

尽管如此,OpenAI仍认为GDPval的进展具有重要意义。

OpenAI首席经济学家Aaron Chatterji在接受采访时表示,GDPval的测试结果表明,这些岗位上的人们可以利用AI模型节省时间,从而专注于更有意义的工作。

“因为模型在某些事情上已经变得很擅长,随着能力的提升,人们可以越来越多地把部分工作交给模型,去做潜在更有价值的事情,”Chatterji说。

OpenAI评估负责人Tejal Patwardhan表示,她对GDPval的进步速度感到鼓舞。

Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%(胜出或持平人类),而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。

本文来自微信公众号“科创板日报”,作者:夏军雄,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI GPT-5 Claude Opus 4.1 AI基准测试 GDPval 人工智能 AGI AI in the workplace OpenAI GPT-5 Claude Opus 4.1 AI Benchmark GDPval Artificial Intelligence AGI AI in the workplace
相关文章