虎嗅 09月30日
AI专家驳斥“泡沫论”,指出指数级增长趋势
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI研究专家Julian Schrittwieser驳斥了当前普遍存在的AI“泡沫论”或“平台期”的说法。他警告称,这种质疑是对AI技术指数级增长趋势的误读,并将其比作新冠疫情初期对指数传播的忽视。尽管AI在某些任务上仍会犯错,但这并不能否定其快速发展的潜力。Schrittwieser引用METR和OpenAI的GDPval研究数据,显示AI模型自主完成复杂任务的时长正呈指数级增长,最新的模型已能处理超过两小时的软件工程任务。此外,在涵盖44个职业的GDPval评估中,顶尖AI的表现已接近人类专家水平,预示着AI将在未来几年内深刻改变各行各业。

📈 **AI发展并非平台期,而是指数级增长:** Anthropic研究员Julian Schrittwieser反驳了AI已进入“平台期”的观点,认为这是对AI技术发展模式的误解。他指出,AI在执行复杂任务(如软件工程)的能力上,其完成时长正以指数级速度翻倍,最新模型已能处理超过两小时的任务,这与新冠疫情初期对指数传播的忽视有相似之处,人们容易因关注当下不完美而低估未来变革的规模。

💻 **AI在软件工程领域展现出惊人进步:** 独立评估机构METR的研究显示,AI模型自主执行软件工程任务的时长呈现清晰的指数级趋势。7个月前的模型已能以50%成功率完成一小时任务,而最新模型则已能执行超过两小时的任务,且部分模型表现略高于既定趋势线,表明AI在长时、复杂软件任务上的能力在快速提升。

💼 **AI正跨越多个职业领域,逼近人类专家水平:** OpenAI的GDPval评估涵盖44个职业,旨在衡量AI在更广泛经济活动中的表现。研究结果显示,顶尖AI模型(如GPT-5和Claude Opus 4.1)的表现已“惊人地接近”人类专家的水平,甚至开始挑战行业专家的能力,预示着AI的广泛应用潜力正逐渐显现。

🚀 **预测2026年AI将达到许多行业的专家水平:** 基于当前跨越多年和多个行业的指数级增长数据,Schrittwieser预测,到2026年底,至少有一个AI模型将在许多行业中达到人类专家的表现水平,甚至可能超越专家。他认为,若这些改进突然停止将是“极其令人惊讶的”,这表明AI的未来发展将是持续且快速的。

一位来自AI研究前沿的专家坚定反驳了当前普遍存在的“AI泡沫论”。

AI明星公司Anthropic的研究员Julian Schrittwieser在其个人博客中撰文警告,当前对AI“泡沫”或“平台期”的普遍质疑,是对技术指数级增长趋势的严重误读,这种心态与新冠疫情初期对指数级传播的忽视如出一辙。

当前围绕AI进步和所谓“泡沫”的讨论,让我想起了新冠疫情的最初几周。当指数趋势已经清晰预示了全球大流行的到来及其规模时,政客、记者和大多数公众评论员却仍将其视为一种遥远的可能性或局部现象。

他指出,尽管AI在执行编程或网站设计等任务时仍会犯错,但人们因此断言其无法达到人类水平或影响甚微是“一种奇怪的现象”,正如几年前人们还认为AI编程是“科幻小说”。

人们注意到,虽然AI现在可以编写程序、设计网站等,但它仍然经常犯错或走向错误的方向,然后他们不知何故就得出结论,认为AI永远无法在人类水平上完成这些任务,或者只会产生微小的影响。

Schrittwieser的核心论点基于两项关键研究:METR和OpenAI的GDPval。数据显示,AI模型自主完成复杂任务的时长正以指数级速度翻倍,最新的模型已能处理超过两小时的软件工程任务。更重要的是,在覆盖44个职业的GDPval评估中,顶尖AI的表现已“惊人地接近”人类水平,甚至开始挑战行业专家的能力。

在这篇题为《再次未能理解指数级》的博客文章中,Schrittwieser将当前对AI的怀疑论调比作“自欺欺人”,认为人们因关注当下的不完美而低估了即将到来的变革规模。

软件任务能力:每7个月翻一番

为反驳AI“平台期”论调,Schrittwieser首先引用了独立评估机构METR发布的《衡量AI完成长任务的能力》研究。该研究衡量AI模型能自主执行软件工程任务的长度,结果显示出“清晰的指数级趋势”。

根据该研究,7个月前的模型Sonnet 3.7已能以50%的成功率完成长达一小时的任务。而METR网站上的最新图表则进一步证实了这一趋势的延续性。

Schrittwieser指出,包括Grok 4、Opus 4.1和GPT-5在内的新模型不仅延续了趋势,“这些最新模型实际上略高于趋势,现在能执行超过2小时的任务!”

跨越代码:在44个职业中追赶人类专家

针对“AI仅在软件工程领域表现出色”的质疑,Schrittwieser引用了OpenAI发布的另一项名为GDPval的评估。该研究旨在衡量模型在更广泛经济活动中的表现,涵盖了9个行业的44个职业,任务由平均拥有14年经验的行业专家提供。

结果再次呈现相似趋势。Schrittwieser写道,最新的GPT-5已“惊人地接近人类表现”。

更有说服力的是,早于GPT-5发布的Claude Opus 4.1在该项评估中表现更佳,其性能“几乎与行业专家的表现相匹配”。Schrittwieser特别对此评论:“我在这里要特别赞扬OpenAI发布了一项评估,显示了另一家实验室的模型超越了他们自己的模型——这是诚信和关心有益AI成果的好迹象!”

展望2026:AI经济整合的“关键一年”

基于上述跨越多年和多个行业的指数级增长数据,Schrittwieser认为,若这些改进突然停止将是“极其令人惊讶的”。他给出了一个基于趋势外推的清晰预测:

    到2026年底,至少有一个模型将在许多行业中达到人类专家的表现水平。

他总结道,未来的模型可能会比专家更好。

这听起来可能过于简单,但通过推断图表上的直线进行预测可能会给你一个比大多数“专家”更好的未来模型——甚至比大多数实际领域专家更好!

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI泡沫论 指数增长 AI发展 Julian Schrittwieser Anthropic METR GDPval 人工智能 AI Exponential Growth AI Development AI Bubble Theory
相关文章