OpenAI推出GDPval：评估AI真实经济价值的新基准

IT之家 09月27日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

为弥合AI学术测试与企业实际应用间的差距，OpenAI发布了名为GDPval的新评估基准。该基准模拟了美国GDP贡献最高的九大行业中的1320项具体任务，旨在衡量AI在真实经济价值任务中的表现。与传统评测不同，GDPval要求模型处理文件、生成幻灯片等，更贴近实际工作场景。首轮测试中，Anthropic的Claude Opus 4.1在综合性能上表现最佳，尤其在文档格式和幻灯片布局方面；OpenAI的GPT-5则在特定领域知识准确性上领先。研究还显示，前沿模型完成任务速度快100倍，成本仅为专家的百分之一，但OpenAI强调这不含人工监督和集成成本。GDPval未来将扩展至更多行业和更复杂的任务。

🌟 **GDPval：弥合AI理论与实践的桥梁** OpenAI推出的GDPval评估基准，旨在解决当前AI模型在学术测试与企业实际应用效果之间存在的脱节问题。通过模拟真实工作场景下的经济价值任务，GDPval为衡量AI的实际效用提供了一个更贴近现实的标准，其设计覆盖了对美国GDP贡献最大的九大行业中的1320项具体任务，并由经验丰富的专业人士创建，确保了评估的真实性和复杂性。

📊 **多模态与真实任务的挑战** 与依赖单一文本提示的传统AI评估方法不同，GDPval要求AI模型处理包括文件、生成幻灯片和格式化文档在内的多模态交付物，从而更全面地检验模型在实际工作环境中的综合能力。这种评估方式能够更真实地反映AI在企业中的应用潜力，例如处理复杂报告、制作演示文稿等实际工作需求。

🏆 **模型性能与效率的对比** 在首轮GDPval测试中，Anthropic的Claude Opus 4.1在文档格式和幻灯片布局等“美学”方面表现突出，成为综合性能最佳模型；而OpenAI的GPT-5则在特定领域知识的“准确性”方面拔得头筹。研究还表明，前沿AI模型完成GDPval任务的速度比行业专家快约100倍，成本仅为后者的百分之一，这预示着AI在提高工作效率和降低运营成本方面的巨大潜力。

⚠️ **GDPval的局限与未来展望** OpenAI坦承，GDPval作为一个初期版本，目前主要评估一次性任务，尚无法衡量模型处理多轮修改的复杂项目或应对模糊性工作的能力。未来的迭代将扩展到更多行业和更难自动化的任务，并计划发布部分数据集供研究人员使用，以期构建更全面、更具挑战性的AI评估体系。

IT之家 9 月 27 日消息，科技媒体 ZDNet 昨日（9 月 26 日）发布博文，报道称 OpenAI 推出名为 GDPval 的全新 AI 评估基准，旨在衡量前沿模型在真实经济价值任务中的表现，以弥补学术测试与实际应用间的差距。

尽管当前大量 AI 工具涌入市场并承诺提升生产力，但其在企业中的实际应用效果却参差不齐。为解决 AI 模型在学术基准测试与真实世界表现之间的脱节问题，OpenAI 于周四发布了一套名为 GDPval 的全新评估体系，其核心目标是“衡量 AI 在具有经济价值的真实世界任务中的表现”，从而为行业提供一个更贴近实践的评判标准。

GDPval 的设计深度模拟了真实工作场景。它覆盖了对美国 GDP 贡献最高的九大行业中的 44 个职业，共计 1320 项具体任务。这些任务由平均拥有 14 年相关领域经验的专业人士创建，确保了其真实性和复杂性。

IT之家援引博文介绍，与传统依赖文本提示的评测不同，GDPval 要求 AI 模型处理文件、生成幻灯片和格式化文档等多模态交付物，以此更真实地检验模型在实际工作环境中的综合能力。

在首轮测试中，OpenAI 邀请行业专家对多个前沿模型的输出进行盲评，其中包括自家的 GPT-5、GPT-4o，以及 Anthropic 的 Claude Opus 4.1、谷歌的 Gemini 2.5 Pro 等。

评测结果出人意料：Claude Opus 4.1 凭借在文档格式、幻灯片布局等“美学”方面的出色表现，成为综合性能最佳的模型；而备受关注的 GPT-5 则在特定领域知识的“准确性”方面拔得头筹。

该研究还揭示了 AI 模型性能的飞速进步与巨大的成本优势。数据显示，从 2024 年春季发布的 GPT-4o 到预计 2025 年夏季发布的 GPT-5，模型性能提升超过一倍。

更引人注目的是，研究发现前沿模型完成 GDPval 任务的速度比行业专家快约 100 倍，成本也仅为后者的百分之一。

不过，OpenAI 强调，这些数据仅反映了纯粹的模型推理成本，并未包含现实工作中必要的人工监督、迭代和集成步骤。

OpenAI 也坦诚 GDPval 目前存在局限性。作为一个初期版本，该基准主要进行一次性任务评估，尚无法衡量模型处理需要多轮修改的复杂项目或应对充满模糊性的现实工作的能力。

例如，它无法评估模型根据客户反馈修改方案或处理数据异常等动态、交互式的任务。OpenAI 表示，未来的迭代将覆盖更多行业和更难自动化的任务，并会发布部分数据集供研究人员使用。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签