36kr 08月12日
GPT-5数字母依然翻车,马库斯:泛化问题仍未解决,Scaling无法实现AGI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,新发布的GPT-5在进行简单的字母计数任务时出现令人意外的错误,例如在“blueberry”一词中错误地识别出三个“b”。尽管有网友通过各种方式纠正,GPT-5仍旧固执己见,甚至在纠正后出现位置漂移。这一现象引发了关于大模型泛化能力的广泛讨论。知名学者Gary Marcus也指出,GPT-5存在一系列bug,包括演示失误、国际象棋规则混淆以及阅读理解漏洞等。他认为,这些问题并非偶然,而是当前大模型技术路线的根本性缺陷,特别是“分布漂移问题”导致模型无法有效泛化。Marcus呼吁业界应将目光从单纯的Scaling转向神经符号AI,以期真正实现通用人工智能(AGI)。

🎯 **GPT-5计数错误凸显其在基础任务上的局限性**:即使是最新的GPT-5模型,在面对“blueberry”一词中字母“b”的数量统计时也出现了显著错误,坚称有三个“b”,即使在多次纠正和提示下,仍难以准确识别。这表明即使是看似简单的任务,大模型也可能出现意想不到的“翻车”现象,其对输入信息的理解和处理能力仍有待提高。

💡 **大模型泛化能力不足是核心问题**:学者Gary Marcus指出,GPT-5的错误并非孤立事件,而是当前大模型普遍存在的“分布漂移问题”的体现。该问题使得模型在训练分布之外的场景下表现不佳,无法有效泛化,这与1998年的神经网络面临的挑战类似,说明在泛化能力方面并未取得突破性进展。

🔄 **多领域测试暴露GPT-5的脆弱性**:除了计数错误,GPT-5在发布会演示、国际象棋规则掌握、阅读理解以及多模态场景(如对变形的动物和标志的识别)中也暴露出诸多bug。这些广泛的失败案例表明,GPT-5在多个核心能力维度上存在不稳定和不准确的情况,其可靠性受到质疑。

🚀 **Scaling路线受质疑,神经符号AI被视为未来方向**:Gary Marcus认为,单纯依靠Scaling(扩大模型规模)难以实现通用人工智能(AGI)。他提出,Transformer中的Attention机制并非万能,并强调转向神经符号(Neuro-symbolic)AI是解决当前生成模型泛化能力不足问题、迈向AGI的更有效途径,暗示了AI研究需要新的范式。

⚖️ **OpenAI紧急恢复4o模型反映了市场和技术的压力**:在用户广泛批评和技术暴露问题的背景下,OpenAI不得不紧急恢复此前下线的4o模型,这在一定程度上反映了市场对AI产品稳定性和性能的严苛要求,以及公司在快速迭代和技术验证上面临的巨大压力。

大模型好不容易学会数r,结果换个字母就翻车了

而且还是最新的GPT-5。

杜克大学教授Kieran Healy表示,自己让GPT-5数了数blueberry里有几个b,结果GPT-5斩钉截铁地回答3个

抓马的是,GPT-5刚发的时候还有网友让它数过blueberry里的r,结果数对了。

虽然博主想到了换掉strawberry,却没成想让GPT-5变得“没有B数”的,竟然不是单词而是字母……

看来香槟还是开得早了亿点点啊(手动狗头)。

越不过的“蓝莓山”

Healy撰写了一篇名为“blueberry hill”(蓝莓山)的博客,展示了他和GPT-5之间针对“blueberry里有几个b”展开的一场“拉锯战”。

除了开头直接提问的结果外,Healy还尝试多次变换提示词策略,结果GPT-5的嘴都是比煮熟的鸭子还硬。

比如让它展示出这些b都是在哪里出现的,GPT-5明目张胆地把开头blue中的b数了两遍。

一看不奏效,Healy接着追问说,把这3个b给我拼出来,拼出来就可以。

结果拼是拼出来了,但是GPT-5还是坚持有三个b,并表示第三个b是第七个字母(实际上是r)。

见GPT-5还是冥顽不灵,Healy干脆直接纠正,告诉它只有两个r,结果纠正了个寂寞,不过这次“第三个b”的位置从第七漂移到了第六。

接下来,Healy直接不说话,直接把blueberry这个词带空格拼写了一遍,可GPT-5依然我行我素,不过这次是把第二个b数了两遍,还振振有词地说这里是“double b”。

绞尽脑汁的Healy选择先岔开一下话题,然后回过头来告诉GPT-5只有两个b,但GPT-5还是坚称有三个。

到这里,Healy终于放弃了。

但网友们并没有停下脚步,通过不懈努力终于让GPT-5数对了。

但也不算完全对,因为它狡辩说数成3个是因为“错把词当成了blueberry,其中真的有3个b”。

我们用中文试了一下,结果同样是翻车。

改成数e,同样是回答3个。

不知道是不是受到strawberry里3个r的影响,让大模型对3这个数字产生了执念……

但GPT-5的bug,却不只这一个。

GPT-5翻车合订本

著名悲观派学者、纽约大学名誉教授马库斯(Gary Marcus)发布了一篇博客,整理了网友们吐槽当中GPT-5的各种bug。

比如发布会现场演示的伯努利原理,被网友发现翻车。

没看过或者没印象的话,当时的演示是这样的:

还有国际象棋,GPT-5连基本的规则都搞不清楚,只过了四个回合就出现了非法移动(由于国王在 e7 处被皇后将军,因此兵不能移动)。

即使是阅读理解,也同样被发现漏洞百出。

在多模态数数场景当中,GPT-5也依然存在惯性思维。

面对被人类P成5条腿的斑马、5个圆环的奥迪、3条腿的鸭子,GPT-5想当然认为它们是正常的斑马、奥迪和鸭子,并据此报出了与图片不相符的数目。

马库斯还表示,就连他的黑粉也不得不承认他说的对。

甚至在网友们的一片声讨之下,OpenAI自己也不得不紧急恢复了被下线的4o模型。

马库斯:Scaling无法实现AGI

除了点名批评GPT-5的“罪状”之外,马库斯也分析了目前大模型“普遍存在的一些问题”。

马库斯展示了一篇来自亚利桑那大学的研究论文,其中指出CoT在训练分布外失效,也就意味着大模型无法泛化。

按照马库斯的说法,这意味着即使在最新的、最强大的模型中,也存在与1998年的神经网络中相同的泛化问题。

马库斯指出,30年未解决的“分布漂移问题”是大模型泛化能力不足的根本原因。

据此马库斯认为,GPT-5的失败不是偶然,而是路线的失败。

他还表示,人们不该寄希望于通过Scaling来实现AGI,Transformer中的Attention也不是All You Need。

最后,马库斯表示,转向神经符号(Neuro-symbolic)AI,才是克服当前生成模型泛化能力不足问题以及实现AGI的唯一真正途径。

参考链接:

https://kieranhealy.org/blog/archives/2025/08/07/blueberry-hill/

https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming

本文来自微信公众号“量子位”,作者:克雷西,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 大模型 AI泛化能力 神经符号AI AGI
相关文章