机器之心 09月27日
OpenAI发布GDPval评估:衡量AI在现实经济任务中的表现
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出名为GDPval的新评估方法,旨在衡量AI模型在具有经济价值的现实世界任务上的表现。该评估从对GDP贡献最大的行业中提取关键职业的任务,并以国内生产总值(GDP)为关键指标。评估结果显示,当前顶尖模型在许多领域已接近行业专家的工作质量,尤其在政府、零售和批发行业表现突出。Claude Opus 4.1在美观性方面表现最佳,而GPT-5在准确性上更胜一筹。GDPval任务的完成速度和成本远超人类专家,预示着AI在未来将显著提升生产力,并可能改变就业市场,使人类能更专注于创造性工作。

📊 **GDPval的推出与目标**: OpenAI发布了名为GDPval的新评估方法,其核心目标是衡量AI模型在实际经济活动中的表现。该方法以国内生产总值(GDP)为参考,选取对经济贡献最大的行业中的关键职业,旨在真实反映AI在现实世界中的经济价值和应用潜力。

🚀 **模型性能与领域优势**: 评估结果显示,包括GPT-4o、GPT-5、Claude Opus 4.1和Gemini 2.5 Pro在内的顶尖AI模型,在多个关键职业领域已能达到或超越行业专家的工作质量。特别是在政府、零售和批发等行业,AI表现出显著的竞争力,Claude Opus 4.1在文档格式和幻灯片布局等美观性方面表现突出,而GPT-5则在特定领域知识的准确性上更胜一筹。

⏱️ **效率提升与成本效益**: GDPval评估突显了AI在执行专业任务时的巨大效率优势。前沿模型完成任务的速度比行业专家快约100倍,成本也降低了约100倍。这种效率的提升不仅意味着更快的交付速度,还预示着AI在未来工作中能够显著节省时间和成本,尤其是在与人类协作时,可以先由AI完成重复性任务,再由人类进行测试和优化。

💡 **AI对未来工作的影响**: GDPval的早期结果表明,AI在处理重复性、明确性强的任务方面已展现出强大能力,这将促使人类工作者将更多精力投入到需要创造力、判断力和复杂决策的工作中。AI作为专业人士的辅助工具,能够显著提升整体生产力,并为经济增长提供新的驱动力,OpenAI致力于推动AI工具的普及,帮助工人适应变革。

🌐 **评估方法的创新性与未来**: GDPval评估的独特之处在于其真实性和任务的多样性,它不局限于特定领域或学术测试,而是基于真实的工作成果进行评估,并包含丰富的上下文信息。OpenAI计划持续扩展GDPval,涵盖更多职业、行业和任务类型,并提高其交互性和处理模糊性的能力,以更全面地衡量AI在多元化知识工作中的进展。

机器之心报道

编辑:泽南、杨文

AI 的颠覆近在眼前,奥特曼不是乱说的。


时至今日,我们已见过太多大模型的评估方法。


比如涵盖了数十个学科的考试式问题的学术基准 MMLU,还有 SWE-Bench (软件工程错误修复任务)、 MLE-Bench (机器学习工程任务,例如模型训练和分析)和 Paper-Bench (对研究论文的科学推理和评论)这类更具应用性的评估,以及基于市场的评估 SWE-Lancer。


最近,OpenAI 又推出了一种名为 GDPval 的新评估方法,用来跟踪模型在具有经济价值的现实世界任务上的表现。



    论文:GDPval:Evaluating AI Model Performance on Real-World Economically Valuable Tasks

    论文链接:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf


之所以将其命名为 GDPval,是因为它以国内生产总值 (GDP) 作为关键经济指标,并从对 GDP 贡献最大的行业中的关键职业中提取任务。


评估结果显示,当今最优秀的前沿模型已接近行业专家的工作质量。OpenAI 进行了盲测,行业专家将几个领先模型 GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4 的交付成果与人工成果进行了比较。


在 GDPval 黄金数据集的 220 项任务中,他们记录了哪些模型的输出优于或与行业专家的成果相当。



在不同生产部门的作用上,可以看到 AI 在政府部门、零售和批发上的能力是已经达到或超越人类水平的。



有趣的是,在 GDPval 上,OpenAI 大方地承认了 Claude 的领先地位:Claude Opus 4.1 是该数据集中表现最佳的模型,尤其在美观性(例如文档格式、幻灯片布局)方面表现出色,该模型在 49% 的任务中被评为优于或与行业专家相当。另一方面,GPT-5 则在准确性(例如查找特定领域知识)方面更为出色。


不过 OpenAI 又说了,Claude 得分如此之高,是因为它倾向于制作令人愉悦的图形,而非纯粹的性能。


此外,这些任务随着时间的推移取得了显著的进步。从 2024 年春季发布的 GPT-4o 到 2025 年夏季发布的 GPT-5,性能提高了一倍多,呈现出明显的线性趋势。


从 GPT-4o 到 GPT-5,GDPval 任务的性能在一年内提升了两倍多。


前沿模型完成 GDPval 任务的速度比行业专家大约快 100 倍,成本也低 100 倍。虽然这些数据只考虑了模型的推理时间和 API 费用,但在模型特别擅长的任务上,先使用 AI 完成任务再交由人类测试,能够显著节省时间和成本。


有了测评基准,自然就可以想如何提高成绩,OpenAI 逐步训练了 GPT-5 的内部实验版本,以评估能否提升 GDPval 任务的性能。可见,这一过程提升了性能,并为进一步的潜在改进开辟了道路。其他对照实验也证实了这一点:增加模型规模、鼓励更多推理步骤以及提供更丰富的任务上下文,这些都带来了可衡量的收益。


OpenAI 还发布了 GDPval 任务的黄金子集和公共评分服务,以便其他研究人员在此基础上继续研究。


这些职业如何被选出来的?


GDPval 是该评估的首个版本,涵盖了从对美国 GDP 贡献最大的 9 个行业中甄选出的 44 个职业,如软件开发人员、律师、注册护士和机械工程师等。这些职业因其经济重要性而被选中,代表了人工智能可以在日常工作中有意义地辅助专业人士的工作类型。



GDPval 全套评估包含 1320 项专业任务(黄金开源评估包含 220 项),每项任务均由经验丰富的专业人士精心设计并审核,这些专业人士平均拥有超过 14 年的相关领域从业经验。每项任务均基于真实的工作成果,例如法律摘要、工程蓝图、客户支持对话或护理计划。每个任务经过至少 5 轮审查,确保其真实、可行且清晰。


最终数据集包含每个职业 30 个完全审查的任务(完整集),以及 5 个任务的开源黄金集,为评估模型在实际知识工作中的表现提供基础。每个任务由专业人士设计,基于实际工作成果,专家的解决方案作为参考。



GDPval 的独特之处在于其现实性和评估任务的多样性。与其他专注于特定领域的经济价值评估(例如 SWE-Lancer)不同,GDPval 涵盖了众多任务和职业。同时与那些以学术考试或测试形式综合创建任务的基准测试(例如 Humanity's Last Exam 或 MMLU)不同,GDPval 关注的是基于可交付成果的任务,这些可交付成果可以是现有的实际工作或产品,也可以是类似构造的工作产品。


GDPval 任务并非简单的文本提示,它们附带参考文件和上下文,预期交付成果涵盖文档、幻灯片、图表、电子表格和多媒体,这种现实性使得 GDPval 能够更真实地测试模型如何支持专业人士。


如何评估模型性能?


OpenAI 通过专家评分员来评估模型的表现,这些评分员来自数据集中相应职业的专业人士。评分员在盲评下比较 AI 和人类的交付成果,并给出排名,判断 AI 成果是「更好」、「相当」还是「更差」。任务编写者还制定了详细的评分标准,确保评分一致性和透明度。


此外,OpenAI 还开发了一个「自动评分员」,可以快速预测人类专家的评价,作为辅助工具,但目前其可靠性尚不如专家评分员,因此并未替代专家评分。


随着 AI 能力的增强,它可能会改变就业市场。GDPval 的早期结果表明,模型已经能够比专家更快、更低成本地完成一些重复性、明确规定的任务。然而,大多数工作不仅仅是一堆可以记录下来的任务。GDPval 强调了人工智能可以处理日常任务的领域,以便人们可以将更多时间投入到创造性和判断性较强的工作中。


当人工智能以这种方式补充工人时,它可以转化为显著的经济增长。OpenAI 的目标是通过普及这些工具的使用权、支持工人应对变革以及建立奖励广泛贡献的制度,让每个人都能登上人工智能的「上升梯」。


最后,OpenAI 表示,GDPval 尚处于起步阶段。虽然它涵盖了 44 种职业和数百项任务,但仍在不断改进方法的过程中。OpenAI 计划继续扩展 GDPval,以涵盖更多职业、行业和任务类型,提高交互性,并添加更多涉及处理模糊性的任务,其长期目标是更好地衡量多元化知识工作的进展。


参考内容:

https://openai.com/index/gdpval/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GDPval AI评估 OpenAI 人工智能 模型性能 经济价值 生产力 AI evaluation Artificial Intelligence Model Performance Economic Value Productivity
相关文章