AI能力基准测试：GDPval评估模型与人类专业人士的差距

动点科技 09月26日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI推出新型基准测试GDPval，旨在评估AI模型在各行业与人类专业人士在经济价值工作中的表现差距。该测试聚焦于美国GDP贡献最大的九大行业，涵盖44种职业任务，通过让真实从业者对比AI与人类生成的报告，衡量AI模型超越人类的比例。测试结果显示，GPT-5-high在40.6%的任务中表现优于或等同于专家，而Claude Opus 4.1则达到49%。OpenAI认为Claude的高分可能与其图表生成能力有关，并承认GDPval仅覆盖了人类工作的一小部分，AI距离全面取代人类尚有距离，但该测试为衡量AI逼近人类专业能力提供了新视角。

🌟 **GDPval基准测试的推出**：OpenAI发布了名为GDPval的新型基准测试，其核心目的是量化评估AI模型在执行经济价值工作时，与人类专业人士之间表现的差距。这一测试被视为AI迈向通用人工智能（AGI）的重要里程碑，AGI意味着AI能在广泛的经济活动中全面超越人类。

📈 **测试的行业与职业覆盖**：GDPval测试重点关注对美国国内生产总值（GDP）贡献最大的九大行业，包括但不限于医疗、金融、制造业和政府等关键领域。测试设计涵盖了软件工程师、护士、记者等共计44种具体的职业任务，力求模拟真实工作场景。

📊 **评估方法与结果解读**：该测试要求真实行业的从业者对AI模型生成的报告与专业人士撰写的报告进行盲评，并选择更优的一份。初步结果显示，增强版GPT-5（GPT-5-high）在40.6%的任务中被评为优于或相当于行业专家，而Anthropic的Claude Opus 4.1则在49%的任务中达到了同等标准。OpenAI认为Claude的高分可能部分归因于其在生成图表方面的优势，这可能更容易获得评审的青睐。

⚠️ **AI能力与未来展望**：尽管GDPval测试为衡量AI在专业工作中的进展提供了新的视角，OpenAI也坦承，该测试目前仅覆盖了人类在真实工作中所执行任务的一小部分。AI模型距离全面“取代人类”的阶段仍有相当长的距离，但这一测试的推出标志着在量化AI逼近人类专业能力方面迈出了重要一步。

据悉，OpenAI近日发布了一项名为GDPval的新型基准测试，用于评估其AI模型在各行各业与人类专业人士的工作表现差距。这一测试被视为衡量AI距离实现通用人工智能（AGI）——即能在经济上具有价值的工作中全面超越人类——的重要一步。

GDPval聚焦于对美国国内生产总值贡献最大的九大行业，包括医疗、金融、制造业及政府等领域，涵盖了软件工程师、护士、记者等44种职业任务。测试要求真实从业者对比AI生成的报告与专业人士撰写的版本，并选择更优的一份。例如，某个任务中邀请投资银行家撰写末端配送行业的竞争格局分析，并与AI生成的报告进行对比。OpenAI随后统计AI模型在这些任务中“战胜”人类报告的比例。

结果显示，增强版GPT-5（GPT-5-high）在40.6%的任务中被评为优于或相当于行业专家的水平；Anthropic的Claude Opus 4.1在49%的任务中达到这一标准。OpenAI认为，Claude的高分可能部分源于其生成图表的能力更易获得评审青睐，而非绝对性能更强。

尽管如此，OpenAI也承认，GDPval目前仅覆盖了人类在真实工作中所执行任务的一小部分，距离“取代人类”的阶段仍有相当距离。但这一测试体现了公司在衡量AI逼近人类专业能力上的新尝试，也为观察AI在经济价值工作中进展提供了参考。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签