动点科技 09月26日
AI能力基准测试:GDPval评估模型与人类专业人士的差距
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出新型基准测试GDPval,旨在评估AI模型在各行业与人类专业人士在经济价值工作中的表现差距。该测试聚焦于美国GDP贡献最大的九大行业,涵盖44种职业任务,通过让真实从业者对比AI与人类生成的报告,衡量AI模型超越人类的比例。测试结果显示,GPT-5-high在40.6%的任务中表现优于或等同于专家,而Claude Opus 4.1则达到49%。OpenAI认为Claude的高分可能与其图表生成能力有关,并承认GDPval仅覆盖了人类工作的一小部分,AI距离全面取代人类尚有距离,但该测试为衡量AI逼近人类专业能力提供了新视角。

🌟 **GDPval基准测试的推出**:OpenAI发布了名为GDPval的新型基准测试,其核心目的是量化评估AI模型在执行经济价值工作时,与人类专业人士之间表现的差距。这一测试被视为AI迈向通用人工智能(AGI)的重要里程碑,AGI意味着AI能在广泛的经济活动中全面超越人类。

📈 **测试的行业与职业覆盖**:GDPval测试重点关注对美国国内生产总值(GDP)贡献最大的九大行业,包括但不限于医疗、金融、制造业和政府等关键领域。测试设计涵盖了软件工程师、护士、记者等共计44种具体的职业任务,力求模拟真实工作场景。

📊 **评估方法与结果解读**:该测试要求真实行业的从业者对AI模型生成的报告与专业人士撰写的报告进行盲评,并选择更优的一份。初步结果显示,增强版GPT-5(GPT-5-high)在40.6%的任务中被评为优于或相当于行业专家,而Anthropic的Claude Opus 4.1则在49%的任务中达到了同等标准。OpenAI认为Claude的高分可能部分归因于其在生成图表方面的优势,这可能更容易获得评审的青睐。

⚠️ **AI能力与未来展望**:尽管GDPval测试为衡量AI在专业工作中的进展提供了新的视角,OpenAI也坦承,该测试目前仅覆盖了人类在真实工作中所执行任务的一小部分。AI模型距离全面“取代人类”的阶段仍有相当长的距离,但这一测试的推出标志着在量化AI逼近人类专业能力方面迈出了重要一步。

据悉,OpenAI近日发布了一项名为GDPval的新型基准测试,用于评估其AI模型在各行各业与人类专业人士的工作表现差距。这一测试被视为衡量AI距离实现通用人工智能(AGI)——即能在经济上具有价值的工作中全面超越人类——的重要一步。

GDPval聚焦于对美国国内生产总值贡献最大的九大行业,包括医疗、金融、制造业及政府等领域,涵盖了软件工程师、护士、记者等44种职业任务。测试要求真实从业者对比AI生成的报告与专业人士撰写的版本,并选择更优的一份。例如,某个任务中邀请投资银行家撰写末端配送行业的竞争格局分析,并与AI生成的报告进行对比。OpenAI随后统计AI模型在这些任务中“战胜”人类报告的比例。

结果显示,增强版GPT-5(GPT-5-high)在40.6%的任务中被评为优于或相当于行业专家的水平;Anthropic的Claude Opus 4.1在49%的任务中达到这一标准。OpenAI认为,Claude的高分可能部分源于其生成图表的能力更易获得评审青睐,而非绝对性能更强。

尽管如此,OpenAI也承认,GDPval目前仅覆盖了人类在真实工作中所执行任务的一小部分,距离“取代人类”的阶段仍有相当距离。但这一测试体现了公司在衡量AI逼近人类专业能力上的新尝试,也为观察AI在经济价值工作中进展提供了参考。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI评估 GDPval 通用人工智能 AGI OpenAI Claude Opus GPT-5 AI能力 专业任务 基准测试 AI evaluation GDPval Artificial General Intelligence AGI OpenAI Claude Opus GPT-5 AI capabilities professional tasks benchmark test
相关文章