APPSO 09月30日
Claude Sonnet 4.5 发布,编程能力再创新高
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic 发布了 Claude Sonnet 4.5,在编程能力上再创新高。它在 SWE-bench Verified 测试中登顶业界第一,并能连续专注工作超过 30 小时。Claude Sonnet 4.5 在构建复杂智能体、操作电脑、推理和数学等方面都表现出色。Anthropic 还发布了 Claude Code 的检查点功能、原生 VS Code 插件、Claude API 的上下文编辑功能和记忆工具,以及 Claude Agent SDK。Claude Sonnet 4.5 的发布是 Anthropic 想要挽回流失用户的一次重要尝试。

🔧 Claude Sonnet 4.5 在编程能力上表现出色,在 SWE-bench Verified 测试中登顶业界第一,并能连续专注工作超过 30 小时,显著提升构建复杂智能体、操作电脑、推理和数学等能力。

📈 Anthropic 发布了 Claude Code 的检查点功能、原生 VS Code 插件、Claude API 的上下文编辑功能和记忆工具,以及 Claude Agent SDK,为开发者提供更便捷的编程体验。

🎯 Claude Sonnet 4.5 的发布是 Anthropic 想要挽回流失用户的一次重要尝试,展现了其在 AI 编程领域的领先地位和持续创新的能力。

🛡️ Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型,在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为,提升了安全性。

原创 发现明日产品的 2025-09-30 06:50 广东

论卷编程,还得看 Claude。

就在刚刚,Anthropic 正式发布 Claude Sonnet 4.5。

先说 Claude Sonnet 4.5 交出的成绩单,在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5 直接登顶业界第一。

更离谱的是,它能连续专注干活超过 30 小时。

好好好,AI 取代人类的优势又 +1 了。

比如让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能独立工作七小时。

用 Anthropic 的话来说,Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。

比方说,在 OSWorld 这个专门测试真实计算机任务的基准里,它拿下了 61.4% 的成绩,直接第一。要知道,四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先,这才多久性能就又往上抬了一大截。

而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。

有了这么强的能力,Anthropic 这次自然不会只发个模型就完事。

具体来看:

Claude Code加了「检查点」功能,能随时保存进度,想回退到之前某个状态一键搞定

终端界面翻新,还发布了原生 VS Code 插件

Claude API 增加了上下文编辑功能和记忆工具

代码执行和文件创建现在直接整合到对话里

甚至,Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了,叫 Claude Agent SDK。

智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI 智能体的棘手问题。

而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。

今天起,开发者还可以通过 Claude API 调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet 4 一样,每百万 tokens $3/$15,价格没变能力更强。

网友 @vasumanmoza 体验完直接发帖:

「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码,生成了 12 个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。」这评价,属于又爱又恨那种。

Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题。

知名测评博主 Dan Shipper 则表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。

性能强是一方面,安全性也得跟上。

据介绍,Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型。

靠着 Claude 更强的能力加上完善的安全训练,Anthropic 在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破。

比较让我感兴趣的是,Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能,叫「Imagine with Claude」。

在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。

不过,「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放。

附上传送门 claude.ai/imagine。

毫无疑问,今年的 AI 赛道依旧是卷编程的一年。

目前 Anthropic 估值已经到了 1830 亿美元,8 月还实现了年化营收 50 亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户。

甚至一周之后就是 OpenAI 年度开发者大会,Anthropic 这个时候抢先发布 Claude Sonnet 4.5,时间卡得够精准,明摆着就是要给对手上一波压力。

此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示,更先进的 Opus 模型,预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势。」

不过有一说一,Anthropic 自己眼下也有麻烦要解决。

过去两个月,Claude 系列模型刚经历了一场「降智」风波。用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max 用户都没能幸免。

虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新,还承认了两个独立 Bug,声明「绝非为省成本故意降智」,但由于没提供补偿或退款,GitHub 和 X 等平台上还是出现了退订潮,不少用户直接转投 Codex。

这次 Claude Sonnet 4.5 的发布,显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。

图片

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇

我们正在招募伙伴

📮 简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

更多岗位信息请点击这里🔗

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude Sonnet 4.5 Anthropic AI 编程 机器学习
相关文章