阮一峰的网络日志 10月01日
AI编程模型新高度:Claude Sonnet 4.5与GLM-4.6同日发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

假期前夕,AI编程领域迎来重大突破。Anthropic公司发布了Claude Sonnet 4.5,智谱公司则推出了GLM-4.6。这两个模型均被认为是目前最先进的AI编程助手,标志着AI在代码生成能力上达到了新的里程碑。Anthropic宣称Claude Sonnet 4.5是“世界上最好的编码模型”,在推理和数学方面表现突出。智谱则强调GLM-4.6在真实编程、长上下文处理、推理、信息搜索和写作等方面全面提升,并在多项测试基准中取得领先,同时声称在成本效益方面具有优势。文章通过对比测试,评估了GLM-4.6作为Claude Sonnet 4.5替代品的潜力,并探讨了GLM-4.6的开源、免费使用(Web界面)以及完善的中文支持等优势。

🚀 **AI编程模型竞争升级**:Anthropic的Claude Sonnet 4.5和智谱的GLM-4.6在同一天发布,标志着AI在代码生成领域的最新进展。Claude Sonnet 4.5被誉为“世界上最好的编码模型”,在推理和数学能力上表现出色。GLM-4.6则被智谱定位为“最强的代码Coding模型”,在多项真实编程场景中展现出强大的竞争力,并特别强调了其在成本效益方面的优势。

💻 **GLM-4.6的实际表现与优势**:通过对比测试,GLM-4.6在运行代码仓库测试用例、处理复杂编程任务(如数据库结构修改和文档生成)以及生成创意SVG图像方面,与Claude Sonnet 4.5表现出相当的竞争力。其开源(MIT许可证)、免费的Web界面使用以及完善的中文支持(文档+客服)是其相对于Claude Sonnet 4.5的重要优势,为国内用户提供了便捷且经济的选择。

💡 **开源与成本效益的吸引力**:GLM-4.6的完全开源路线和极具竞争力的成本效益(Web界面免费,API入门套餐价格低廉)使其成为开发者和企业的有力选项。相较于Anthropic对中国用户的限制和相对较高的付费标准,GLM-4.6在可访问性和经济性方面更具吸引力,有望成为Claude Sonnet 4.5的可靠替代品,进一步推动AI在编程领域的普及和应用。

1、

假期前最后一天(9月30日),热闹非凡。

上午,Anthropic 公司发布了 Claude Sonnet 4.5 模型

下午,智谱公司发布了 GLM 4.6 模型

我觉得,对于程序员,这个动态很重要。

因为这两个模型都属于目前最先进的 AI 编程模型。你想让 AI 生成代码,首选就是它们。

这就是说,一天之内,AI 编程模型又达到了新高度。

2、

Anthropic 发布公告的第一句话,就毫不谦虚地用了三个"世界之最"。

"Claude Sonnet 4.5 是世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。"

智谱的发布公告也是当仁不让。

"我们再次突破大模型的能力边界。

GLM-4.6是我们最强的代码 Coding 模型(较 GLM-4.5 提升27%)。在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。"

为了让人信服,智谱的发布公告还给出了详细的测试结果。

上图一共是8个测试基准的结果图。每个图的蓝柱是 GLM-4.6,绿柱是 GLM-4.5。对照组是前两天刚发布的 DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可以看到,蓝柱基本上都是排名前列,甚至第一。智谱还声称,GLM-4.6 非常节省 Token(也就是省钱),"比 GLM-4.5 节省30%以上,为同类模型最低"。

所以,它的结论就是:"GLM-4.6 在部分榜单表现对齐 Claude Sonnet 4/Claude Sonnet 4.5,稳居国产模型首位。"

这就有意思了,一个自称"世界上最好的编码模型",另一个自称"稳居国产模型首位"。

下面,我来测试,GLM-4.6 相比 Claude sonnet 4.5 到底怎么样。

3、

需要说明的是,这两个模型的比较,不完全是为了测试,也有实际的意义。

Anthropic 公司虽然产品很强,但是它限制中国人使用,国内用户正常途径无法开通它的服务。另一方面,它是付费模型,价格也不便宜,百万 token 的输入输出价格是3美元/15美元。

形成鲜明对照的是,GLM-4.6 是完完全全的国产模型,来自北京智谱公司。它采取彻底的开源路线(MIT 许可证),模型代码完全公开,可以任意使用。

你要想自己在家里安装,也是可以的。但是,它的硬件要求太高,家用设备达不到,所以,一般都使用它的云服务。

目前,智谱的官网(BigModelZ.ai),通过 Web 界面使用 GLM-4.6 是免费的。

它的 API 调用需要付费,入门套餐(coding plan)好像是一个月20元人民币。

另外,它有完备的中文支持(文档+客服),这也是 Anthropic 没有的。

总之,我的测试目的,也是想看看,它是不是真如官方宣称的那样强大,能不能替代 Claude Sonnet 模型。

4、

我的测试方法很简单。Anthropic 公司事先邀请了著名程序员西蒙·威利森(Simon Willison),试用 Claude Sonnet 4.5 模型。

西蒙·威利森已经在他的网站上,公布了试用结果

我就拿他的几个测试,用在 GLM-4.6 上面,然后比较一下运行结果就可以了。

大家可以跟着一起做,打开官网,把题目粘贴进去(最好贴英文),这样会有更深切的感受。

AI 终端工具(比如 Claude Code、Cline、OpenCode、Crush 等)也可以用,参考官方文档进行设置(需要先开通 API)。

5、

第一个测试。

拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。

pip install -e '.[test]'

pytest

这个测试需要联网获取代码,然后在后台运行。

智谱官网的 Web 界面跟 Claude 一样,提供 Python 和 Node.js 的服务器沙箱环境,可以生成后直接执行代码。

我省略它中间的推理步骤了,最后结果如下图(官网查看完整对话)。

278个测试用例通过,耗时 18.31s

整个运行过程(拉取、安装依赖、执行命令)跟 Claude Sonnet 是一样的。奇怪的是,Claude Sonnet 运行了466个测试用例,多出来100多个,不知道为什么。

6、

第二个测试是较复杂的编程任务,原始提示是英文,我翻译成中文。

1、 代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。

2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。

3、编写新的 pytest 测试用例,验证你的设计。

4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。

大家可以查看完整的对话记录

GLM-4.6 运行了几分钟,不停地吐出生成的代码。最终,它修改了脚本,增加了 API 和命令行调用接口,并编写和运行通过了测试用例。

它还生成了一个 tree_notes.md 文件,里面是本次修改的详细说明。

大家可以比较它的运行结果与 Claude Sonnet 的运行结果

从结果上看,它们的差异不大,都做到了提示的要求,并且代码都是可运行的。差异主要是实现细节,这个就需要详细阅读代码了。

7、

第三个测试是西蒙·威利森独家的,就是让 AI 生成一个鹈鹕骑自行车的 SVG 图片(Generate an SVG of a pelican riding a bicycle)。

这是现实中不存在、且没有参考物的景象,考察模型的想象和生成能力。

下面是 GLM-4.6 打开深度思考后生成的图片

下面是 Claude sonnet 4.5 打开深度思考后生成的图片。

两者的结果相当接近,只是 Claude 生成的鸟喙更明显,更能看出是一只鹈鹕。

8、

测试就到这里,我觉得总结来说,GLM-4.6 是一个非常强的国产模型,编码能力确实很优秀,可以当作目前公认的最强模型 Claude Sonnet 的替代品。

它的功能全面,除了编码,其他任务也能完成,而且响应速度快,价格低,性价比非常突出。

(完)

文档信息

    版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)发表日期: 2025年10月 1日

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI编程 Claude Sonnet 4.5 GLM-4.6 模型发布 代码生成 开源模型 人工智能 AI Coding Model Release Code Generation Open Source AI
相关文章