OpenAI发布GDPval评估：衡量AI在现实经济任务中的表现

机器之心报道

编辑：泽南、杨文

AI 的颠覆近在眼前，奥特曼不是乱说的。

时至今日，我们已见过太多大模型的评估方法。

比如涵盖了数十个学科的考试式问题的学术基准 MMLU，还有 SWE-Bench （软件工程错误修复任务）、 MLE-Bench （机器学习工程任务，例如模型训练和分析）和 Paper-Bench （对研究论文的科学推理和评论）这类更具应用性的评估，以及基于市场的评估 SWE-Lancer。

最近，OpenAI 又推出了一种名为 GDPval 的新评估方法，用来跟踪模型在具有经济价值的现实世界任务上的表现。

论文：GDPval:Evaluating AI Model Performance on Real-World Economically Valuable Tasks

论文链接：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

之所以将其命名为 GDPval，是因为它以国内生产总值 (GDP) 作为关键经济指标，并从对 GDP 贡献最大的行业中的关键职业中提取任务。

评估结果显示，当今最优秀的前沿模型已接近行业专家的工作质量。OpenAI 进行了盲测，行业专家将几个领先模型 GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4 的交付成果与人工成果进行了比较。

在 GDPval 黄金数据集的 220 项任务中，他们记录了哪些模型的输出优于或与行业专家的成果相当。

在不同生产部门的作用上，可以看到 AI 在政府部门、零售和批发上的能力是已经达到或超越人类水平的。

有趣的是，在 GDPval 上，OpenAI 大方地承认了 Claude 的领先地位：Claude Opus 4.1 是该数据集中表现最佳的模型，尤其在美观性（例如文档格式、幻灯片布局）方面表现出色，该模型在 49% 的任务中被评为优于或与行业专家相当。另一方面，GPT-5 则在准确性（例如查找特定领域知识）方面更为出色。

不过 OpenAI 又说了，Claude 得分如此之高，是因为它倾向于制作令人愉悦的图形，而非纯粹的性能。

此外，这些任务随着时间的推移取得了显著的进步。从 2024 年春季发布的 GPT-4o 到 2025 年夏季发布的 GPT-5，性能提高了一倍多，呈现出明显的线性趋势。

从 GPT-4o 到 GPT-5，GDPval 任务的性能在一年内提升了两倍多。

前沿模型完成 GDPval 任务的速度比行业专家大约快 100 倍，成本也低 100 倍。虽然这些数据只考虑了模型的推理时间和 API 费用，但在模型特别擅长的任务上，先使用 AI 完成任务再交由人类测试，能够显著节省时间和成本。

有了测评基准，自然就可以想如何提高成绩，OpenAI 逐步训练了 GPT-5 的内部实验版本，以评估能否提升 GDPval 任务的性能。可见，这一过程提升了性能，并为进一步的潜在改进开辟了道路。其他对照实验也证实了这一点：增加模型规模、鼓励更多推理步骤以及提供更丰富的任务上下文，这些都带来了可衡量的收益。

OpenAI 还发布了 GDPval 任务的黄金子集和公共评分服务，以便其他研究人员在此基础上继续研究。

这些职业如何被选出来的？

GDPval 是该评估的首个版本，涵盖了从对美国 GDP 贡献最大的 9 个行业中甄选出的 44 个职业，如软件开发人员、律师、注册护士和机械工程师等。这些职业因其经济重要性而被选中，代表了人工智能可以在日常工作中有意义地辅助专业人士的工作类型。

GDPval 全套评估包含 1320 项专业任务（黄金开源评估包含 220 项），每项任务均由经验丰富的专业人士精心设计并审核，这些专业人士平均拥有超过 14 年的相关领域从业经验。每项任务均基于真实的工作成果，例如法律摘要、工程蓝图、客户支持对话或护理计划。每个任务经过至少 5 轮审查，确保其真实、可行且清晰。

最终数据集包含每个职业 30 个完全审查的任务（完整集），以及 5 个任务的开源黄金集，为评估模型在实际知识工作中的表现提供基础。每个任务由专业人士设计，基于实际工作成果，专家的解决方案作为参考。

GDPval 的独特之处在于其现实性和评估任务的多样性。与其他专注于特定领域的经济价值评估（例如 SWE-Lancer）不同，GDPval 涵盖了众多任务和职业。同时与那些以学术考试或测试形式综合创建任务的基准测试（例如 Humanity's Last Exam 或 MMLU）不同，GDPval 关注的是基于可交付成果的任务，这些可交付成果可以是现有的实际工作或产品，也可以是类似构造的工作产品。

GDPval 任务并非简单的文本提示，它们附带参考文件和上下文，预期交付成果涵盖文档、幻灯片、图表、电子表格和多媒体，这种现实性使得 GDPval 能够更真实地测试模型如何支持专业人士。

如何评估模型性能？

OpenAI 通过专家评分员来评估模型的表现，这些评分员来自数据集中相应职业的专业人士。评分员在盲评下比较 AI 和人类的交付成果，并给出排名，判断 AI 成果是「更好」、「相当」还是「更差」。任务编写者还制定了详细的评分标准，确保评分一致性和透明度。

此外，OpenAI 还开发了一个「自动评分员」，可以快速预测人类专家的评价，作为辅助工具，但目前其可靠性尚不如专家评分员，因此并未替代专家评分。

随着 AI 能力的增强，它可能会改变就业市场。GDPval 的早期结果表明，模型已经能够比专家更快、更低成本地完成一些重复性、明确规定的任务。然而，大多数工作不仅仅是一堆可以记录下来的任务。GDPval 强调了人工智能可以处理日常任务的领域，以便人们可以将更多时间投入到创造性和判断性较强的工作中。

当人工智能以这种方式补充工人时，它可以转化为显著的经济增长。OpenAI 的目标是通过普及这些工具的使用权、支持工人应对变革以及建立奖励广泛贡献的制度，让每个人都能登上人工智能的「上升梯」。

最后，OpenAI 表示，GDPval 尚处于起步阶段。虽然它涵盖了 44 种职业和数百项任务，但仍在不断改进方法的过程中。OpenAI 计划继续扩展 GDPval，以涵盖更多职业、行业和任务类型，提高交互性，并添加更多涉及处理模糊性的任务，其长期目标是更好地衡量多元化知识工作的进展。

参考内容：

https://openai.com/index/gdpval/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签