MIT 科技评论 - 本周热榜 10月04日 07:39
Claude 4.5 Sonnet发布,AI编码能力迎来新标杆
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic发布了Claude Sonnet 4.5,号称是“世界上最好的编码模型”,尤其擅长构建“生产就绪级别”的AI Agent。新模型在SWE-bench Verified和OSWorld等关键基准测试中表现出色,超越了GPT-5 Codex和Gemini 2.5 Pro。Claude Sonnet 4.5在执行长时间、多步骤任务时表现出显著的稳定性,能够独立完成复杂的项目,如构建聊天应用。为支持开发者,Anthropic同步推出了Claude Agent SDK和Claude Code 2.0,并强调了AI安全和对齐方面的持续努力,旨在构建一个围绕Claude的完整开发者生态系统。

🚀 **性能飞跃,树立AI编码新标杆**:Claude Sonnet 4.5 在 SWE-bench Verified 测试中取得 77.2% 的高分,通过并行测试甚至达到 82%,显著优于 GPT-5 Codex (74.5%) 和 Gemini 2.5 Pro (67.2%)。在 OSWorld 和 Terminal-Bench 等真实世界应用场景测试中,Sonnet 4.5 也表现出领先优势,标志着 AI 在软件开发领域的可靠性和效率迈上新台阶,能够处理“生产就绪级别”的应用开发。

⏳ **稳定长时任务执行,媲美资深开发者**:Claude Sonnet 4.5 在执行长时间、多步骤任务时展现出卓越的稳定性,能够连续工作超过 30 小时完成复杂项目。早期客户试用表明,该模型能够独立完成从编写代码、搭建数据库服务到购买域名、进行安全审计等一系列复杂操作,例如成功构建了一款类似 Slack 或 Teams 的聊天应用,展现了其作为高效协作伙伴的潜力。

🛠️ **丰富开发者工具,赋能生态构建**:为进一步提升开发者体验,Anthropic 推出了 Claude Agent SDK,集成了构建复杂 AI Agent 的底层框架,解决了记忆管理、权限平衡和多智能体协调等难题。Claude Code 2.0 增加了“检查点”功能,允许用户随时保存和回滚任务状态,极大提升了大规模重构和自动化流程的实用性。新的终端界面和 VS Code 插件也旨在优化开发者的日常工作流程。

🔒 **安全对齐与挑战**:Anthropic 强调 Sonnet 4.5 是其“最对齐的前沿模型”,在减少不良行为和抵御恶意攻击方面取得显著进步。尽管如此,AI 安全仍是持续的挑战。模型在安全护栏的防御能力方面虽有增强,但仍可能被绕过。Anthropic 在降低误报率方面已取得成效,但偶尔的对话中断仍可能发生,显示了在保证绝对安全与用户体验之间的平衡仍需不断探索。

Claude 4.5 来了。

当地时间 2025 年 9 月 29 日,Anthropic 突然发布了 Claude Sonnet 4.5,并且毫不谦虚地宣称这是"世界上最好的编码模型",强调其在构建复杂 AI Agent。

Anthropic 声称,Claude Sonnet 4.5 的核心突破在于,它能够创建“生产就绪级别”(production-ready)的应用程序,而不再仅仅是停留在原型开发阶段的模型,这标志着 AI 在软件开发全流程中的可靠性实现了质的飞跃。Anthropic 联合创始人兼首席科学官 Jared Kaplan 在采访中表示,用户在使用后会明显感觉到新模型更加智能,互动体验更像是在与一位能干的同事协作,共同解决问题。首席产品官 Mike Krieger 补充说,尽管 Sonnet 4.5 的模型规模小于此前的旗舰模型 Opus 4.1,但在几乎所有性能维度上都更为出色,能够为“真实的、实际的工作”提供有效支持。

从纸面数据来看,Claude Sonnet 4.5 的表现确实亮眼。在 SWE-bench Verified 这个衡量真实软件工程能力的基准测试中,新模型拿到了 77.2% 的分数。如果采用并行测试时计算(parallel test-time compute)——也就是同时运行多个尝试,然后筛选出最佳结果——这个数字还能攀升至 82%。要知道,仅仅四个月前,Claude Sonnet 4 在同一测试中的得分还是 72.7。相比之下,OpenAI 的 GPT-5 Codex 在这项测试中得分 74.5%,Google 的 Gemini 2.5 Pro 则是 67.2%。

图丨基准测试结果(来源:Anthropic)

在另一项 OSWorld 基准测试中,Sonnet 4.5 同样表现出色。该测试旨在评估 AI 模型在真实计算机桌面环境中的操作能力,如导航网站、填写电子表格、管理文件等。Sonnet 4.5 在此项测试中获得了 61.4% 的得分,较四个月前 Sonnet 4 创下的 42.2% 的领先成绩,实现了大幅度的提升。此外,在衡量命令行界面操作能力的 Terminal-Bench 测试中,Sonnet 4.5 也以 50% 的得分领先于 GPT-5 的 43.8%。

相比于基准测试分数,Sonnet 4.5 还有一个更值得关注的特性是其在执行长时间、多步骤任务时表现出的稳定性。据 Anthropic 透露,在内部和部分早期客户的测试中,观察到 Sonnet 4.5 能够连续工作超过 30 小时来完成一个复杂的项目。据悉,在早期客户试用中,Sonnet 4.5 成功构建了一款类似 Slack 或 Teams 的聊天应用,不仅编写了约 1.1 万行代码,还独立完成了数据库服务搭建、域名购买乃至安全审计等一系列复杂操作。

知名科技博主 Simon Willison 在获得早期试用后进行了一系列测试,他让模型克隆自己的大模型项目代码库,安装依赖,运行测试,然后在此基础上实验性地添加了一个新特性:将对话历史从线性结构改造为树状结构。整个过程涉及数据库迁移、编写工具函数、创建测试套件,最终 Sonnet 4.5 通过了所有的 22 个测试。Willison 认为这款新模型在编码能力上已超越了他此前偏爱的 GPT-5-Codex,并强调,Sonnet 4.5 这种在沙盒环境中直接与真实开发工具交互的执行力,正是其最核心的优势所在。

为了更好地发挥模型的能力,Anthropic 此次随模型一同推出了一系列重要的开发者工具更新。其中,最核心的是 Claude Agent SDK(软件开发工具包)的正式发布。据介绍,这个 SDK 打包了 Anthropic 内部用于构建其产品(如 Claude Code)的底层框架,解决了 AI 智能体在开发过程中常见的几个难题,例如长期记忆管理、用户授权与 AI 自主性的平衡,以及多个子智能体之间的协调等。将这套基础设施开放给所有开发者,有助于降低构建复杂 AI 应用的门槛。

图丨Agent 通常在一个特定的反馈循环中运行(来源:Anthropic)

同时,面向开发者的命令行工具 Claude Code 也升级至 2.0 版本,并加入了一个备受期待的新功能:“检查点”(Checkpoints)。该功能允许用户在 AI 执行任务的过程中随时保存状态,在出现问题时可以方便地回滚到上一个正常的节点,这对于执行大规模代码库重构或复杂的自动化流程来说非常实用。此外,新的终端界面和原生的 VS Code 代码编辑器插件,也旨在改善开发者的日常使用体验。

在性能大幅提升的同时,Anthropic 也一如既往地强调了其在 AI 安全和对齐(alignment)方面的努力。官方声称,Sonnet 4.5 是其迄今为止“最对齐的前沿模型”,在减少如谄媚(sycophancy)、欺骗、权力寻求等不良行为方面取得了显著进步。同时,模型在抵御提示注入(prompt injection)等恶意攻击方面的能力也得到了增强。

图丨来自自动行为审计器的总体不对齐行为得分(来源:Anthropic)

虽然,就在模型发布后不久,著名的 AI 提示工程师 Pliny the Liberator 就声称在几分钟内就破解了其安全护栏,成功生成了敏感内容。

图丨相关推文(来源:X)

毕竟,无论安全机制多么先进,只要模型本质上是一个统计预测系统,就总会存在被操纵的可能性。Anthropic 当然知道这一点,他们在 system card 中详细描述了各种安全措施,包括用于检测危险输入和输出的分类器,特别是与化学、生物、放射和核武器相关的内容。但这些分类器有时也会误判正常内容,导致误报率居高不下。Anthropic 表示他们已经将误报率降低了十倍,但这仍然意味着用户偶尔会遇到对话被意外中断的情况。

在定价策略上,Sonnet 4.5 延续了前代 Sonnet 的定价,即每百万输入 Token 3 美元,每百万输出 Token 15 美元。这个价格远低于性能更强的“旗舰”模型 Claude Opus(15/75 美元),不过又比 OpenAI 的 GPT-5 系列(1.25/10 美元)要高。

从最初的“模型即服务”(Model-as-a-Service),到如今推出 Agent SDK 和一系列开发工具的“平台即服务”(Platform-as-a-Service),Anthropic 的战略意图已然非常明确。他们不再满足于只提供最强大的引擎,更要附上最顺手的方向盘和最完备的底盘,以此构建一个围绕 Claude、覆盖从个人用户到企业开发者的完整生态系统。

Gemini 3 可能也将在不久后发布,“世界最佳编码模型”或许又将易主,但在当前阶段,单纯的模型性能跑分固然重要,但如何将这些能力转化为稳定、易用、可信赖的生产力工具,并借此留住开发者,才是决定未来格局的关键。而在这一方面,Anthropic 的确做得相当完善。

参考资料:

1.https://www.anthropic.com/news/claude-sonnet-4-5

2.https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/

3.https://x.com/elder_plinius/status/1972749864141561917

运营/排版:何晨龙

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude 4.5 Sonnet AI编码 AI Agent 软件开发 Anthropic Claude Sonnet 4.5 AI Coding AI Agent Software Development Anthropic
相关文章