Claude 4.5 Sonnet发布，AI编码能力迎来新标杆

MIT 科技评论 - 本周热榜 10月04日 07:39

Anthropic发布了Claude Sonnet 4.5，号称是“世界上最好的编码模型”，尤其擅长构建“生产就绪级别”的AI Agent。新模型在SWE-bench Verified和OSWorld等关键基准测试中表现出色，超越了GPT-5 Codex和Gemini 2.5 Pro。Claude Sonnet 4.5在执行长时间、多步骤任务时表现出显著的稳定性，能够独立完成复杂的项目，如构建聊天应用。为支持开发者，Anthropic同步推出了Claude Agent SDK和Claude Code 2.0，并强调了AI安全和对齐方面的持续努力，旨在构建一个围绕Claude的完整开发者生态系统。

🚀 **性能飞跃，树立AI编码新标杆**：Claude Sonnet 4.5 在 SWE-bench Verified 测试中取得 77.2% 的高分，通过并行测试甚至达到 82%，显著优于 GPT-5 Codex (74.5%) 和 Gemini 2.5 Pro (67.2%)。在 OSWorld 和 Terminal-Bench 等真实世界应用场景测试中，Sonnet 4.5 也表现出领先优势，标志着 AI 在软件开发领域的可靠性和效率迈上新台阶，能够处理“生产就绪级别”的应用开发。

⏳ **稳定长时任务执行，媲美资深开发者**：Claude Sonnet 4.5 在执行长时间、多步骤任务时展现出卓越的稳定性，能够连续工作超过 30 小时完成复杂项目。早期客户试用表明，该模型能够独立完成从编写代码、搭建数据库服务到购买域名、进行安全审计等一系列复杂操作，例如成功构建了一款类似 Slack 或 Teams 的聊天应用，展现了其作为高效协作伙伴的潜力。

🛠️ **丰富开发者工具，赋能生态构建**：为进一步提升开发者体验，Anthropic 推出了 Claude Agent SDK，集成了构建复杂 AI Agent 的底层框架，解决了记忆管理、权限平衡和多智能体协调等难题。Claude Code 2.0 增加了“检查点”功能，允许用户随时保存和回滚任务状态，极大提升了大规模重构和自动化流程的实用性。新的终端界面和 VS Code 插件也旨在优化开发者的日常工作流程。

🔒 **安全对齐与挑战**：Anthropic 强调 Sonnet 4.5 是其“最对齐的前沿模型”，在减少不良行为和抵御恶意攻击方面取得显著进步。尽管如此，AI 安全仍是持续的挑战。模型在安全护栏的防御能力方面虽有增强，但仍可能被绕过。Anthropic 在降低误报率方面已取得成效，但偶尔的对话中断仍可能发生，显示了在保证绝对安全与用户体验之间的平衡仍需不断探索。

Claude 4.5 来了。

当地时间 2025 年 9 月 29 日，Anthropic 突然发布了 Claude Sonnet 4.5，并且毫不谦虚地宣称这是"世界上最好的编码模型"，强调其在构建复杂 AI Agent。

Anthropic 声称，Claude Sonnet 4.5 的核心突破在于，它能够创建“生产就绪级别”（production-ready）的应用程序，而不再仅仅是停留在原型开发阶段的模型，这标志着 AI 在软件开发全流程中的可靠性实现了质的飞跃。Anthropic 联合创始人兼首席科学官 Jared Kaplan 在采访中表示，用户在使用后会明显感觉到新模型更加智能，互动体验更像是在与一位能干的同事协作，共同解决问题。首席产品官 Mike Krieger 补充说，尽管 Sonnet 4.5 的模型规模小于此前的旗舰模型 Opus 4.1，但在几乎所有性能维度上都更为出色，能够为“真实的、实际的工作”提供有效支持。

从纸面数据来看，Claude Sonnet 4.5 的表现确实亮眼。在 SWE-bench Verified 这个衡量真实软件工程能力的基准测试中，新模型拿到了 77.2% 的分数。如果采用并行测试时计算（parallel test-time compute）——也就是同时运行多个尝试，然后筛选出最佳结果——这个数字还能攀升至 82%。要知道，仅仅四个月前，Claude Sonnet 4 在同一测试中的得分还是 72.7。相比之下，OpenAI 的 GPT-5 Codex 在这项测试中得分 74.5%，Google 的 Gemini 2.5 Pro 则是 67.2%。

图丨基准测试结果（来源：Anthropic）

在另一项 OSWorld 基准测试中，Sonnet 4.5 同样表现出色。该测试旨在评估 AI 模型在真实计算机桌面环境中的操作能力，如导航网站、填写电子表格、管理文件等。Sonnet 4.5 在此项测试中获得了 61.4% 的得分，较四个月前 Sonnet 4 创下的 42.2% 的领先成绩，实现了大幅度的提升。此外，在衡量命令行界面操作能力的 Terminal-Bench 测试中，Sonnet 4.5 也以 50% 的得分领先于 GPT-5 的 43.8%。

相比于基准测试分数，Sonnet 4.5 还有一个更值得关注的特性是其在执行长时间、多步骤任务时表现出的稳定性。据 Anthropic 透露，在内部和部分早期客户的测试中，观察到 Sonnet 4.5 能够连续工作超过 30 小时来完成一个复杂的项目。据悉，在早期客户试用中，Sonnet 4.5 成功构建了一款类似 Slack 或 Teams 的聊天应用，不仅编写了约 1.1 万行代码，还独立完成了数据库服务搭建、域名购买乃至安全审计等一系列复杂操作。

知名科技博主 Simon Willison 在获得早期试用后进行了一系列测试，他让模型克隆自己的大模型项目代码库，安装依赖，运行测试，然后在此基础上实验性地添加了一个新特性：将对话历史从线性结构改造为树状结构。整个过程涉及数据库迁移、编写工具函数、创建测试套件，最终 Sonnet 4.5 通过了所有的 22 个测试。Willison 认为这款新模型在编码能力上已超越了他此前偏爱的 GPT-5-Codex，并强调，Sonnet 4.5 这种在沙盒环境中直接与真实开发工具交互的执行力，正是其最核心的优势所在。

为了更好地发挥模型的能力，Anthropic 此次随模型一同推出了一系列重要的开发者工具更新。其中，最核心的是 Claude Agent SDK（软件开发工具包）的正式发布。据介绍，这个 SDK 打包了 Anthropic 内部用于构建其产品（如 Claude Code）的底层框架，解决了 AI 智能体在开发过程中常见的几个难题，例如长期记忆管理、用户授权与 AI 自主性的平衡，以及多个子智能体之间的协调等。将这套基础设施开放给所有开发者，有助于降低构建复杂 AI 应用的门槛。

图丨Agent 通常在一个特定的反馈循环中运行（来源：Anthropic）

同时，面向开发者的命令行工具 Claude Code 也升级至 2.0 版本，并加入了一个备受期待的新功能：“检查点”（Checkpoints）。该功能允许用户在 AI 执行任务的过程中随时保存状态，在出现问题时可以方便地回滚到上一个正常的节点，这对于执行大规模代码库重构或复杂的自动化流程来说非常实用。此外，新的终端界面和原生的 VS Code 代码编辑器插件，也旨在改善开发者的日常使用体验。

在性能大幅提升的同时，Anthropic 也一如既往地强调了其在 AI 安全和对齐（alignment）方面的努力。官方声称，Sonnet 4.5 是其迄今为止“最对齐的前沿模型”，在减少如谄媚（sycophancy）、欺骗、权力寻求等不良行为方面取得了显著进步。同时，模型在抵御提示注入（prompt injection）等恶意攻击方面的能力也得到了增强。

图丨来自自动行为审计器的总体不对齐行为得分（来源：Anthropic）

虽然，就在模型发布后不久，著名的 AI 提示工程师 Pliny the Liberator 就声称在几分钟内就破解了其安全护栏，成功生成了敏感内容。

图丨相关推文（来源：X）

毕竟，无论安全机制多么先进，只要模型本质上是一个统计预测系统，就总会存在被操纵的可能性。Anthropic 当然知道这一点，他们在 system card 中详细描述了各种安全措施，包括用于检测危险输入和输出的分类器，特别是与化学、生物、放射和核武器相关的内容。但这些分类器有时也会误判正常内容，导致误报率居高不下。Anthropic 表示他们已经将误报率降低了十倍，但这仍然意味着用户偶尔会遇到对话被意外中断的情况。

在定价策略上，Sonnet 4.5 延续了前代 Sonnet 的定价，即每百万输入 Token 3 美元，每百万输出 Token 15 美元。这个价格远低于性能更强的“旗舰”模型 Claude Opus（15/75 美元），不过又比 OpenAI 的 GPT-5 系列（1.25/10 美元）要高。

从最初的“模型即服务”（Model-as-a-Service），到如今推出 Agent SDK 和一系列开发工具的“平台即服务”（Platform-as-a-Service），Anthropic 的战略意图已然非常明确。他们不再满足于只提供最强大的引擎，更要附上最顺手的方向盘和最完备的底盘，以此构建一个围绕 Claude、覆盖从个人用户到企业开发者的完整生态系统。

Gemini 3 可能也将在不久后发布，“世界最佳编码模型”或许又将易主，但在当前阶段，单纯的模型性能跑分固然重要，但如何将这些能力转化为稳定、易用、可信赖的生产力工具，并借此留住开发者，才是决定未来格局的关键。而在这一方面，Anthropic 的确做得相当完善。

参考资料：

1.https://www.anthropic.com/news/claude-sonnet-4-5

2.https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/

3.https://x.com/elder_plinius/status/1972749864141561917

运营/排版：何晨龙

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签