Anthropic发布Claude Sonnet 4.5，在SWE-bench上取得77.2%的成绩

Braintrust Blog 10月02日

Anthropic宣布发布Claude Sonnet 4.5，在SWE-bench验证测试中达到77.2%的成绩，可自主运行30小时，并在编码和推理任务中创下新基准。与AI社区对新型模型的关注不同，Anthropic采用数据驱动的方法，通过'理想评估'测试（aspirational evals）来识别新模型带来的实际能力提升。当Claude Sonnet 4在5月跨越成功阈值时，Anthropic在两周内开发了Loop功能，该功能通过自动分析评估结果来优化提示词，Claude Sonnet 4.5在优化效果和推理速度上均优于前代模型。建议企业建立类似的评估体系，将AI能力提升直接转化为业务场景，通过自动化测试和快速迭代抢占先机。

📈 理想评估（aspirational evals）通过测试未来才可能实现的AI能力（当前模型得分约10%），Anthropic持续测试新模型以构建Braintrust功能，Claude Sonnet 4.5的突破促成了Loop的快速开发，该功能能自动优化提示词，4.5版在优化效果（平均每次编辑提升9.8%）和推理速度（快1.2倍）上均显著优于4版。

🚀 AI能力提升通常呈现'能力悬崖'现象，Claude Sonnet 4.5在SWE-bench验证测试中成绩从40%跃升至77.2%，自主运行时间从7小时延长至30+小时，OSWorld计算机任务提升19.2%，这些突破可能催生全新应用类别而非渐进式改进。

🔧 企业应识别3-5个AI改进能最大程度影响业务的场景，建立类似Anthropic的评估体系，使用真实数据、业务逻辑和集成需求而非合成基准，通过自动化测试管道（如Braintrust Proxy）即时发现能力跃迁，当新模型达到成功阈值时快速迭代上线。

🤖 Loop通过无监督实验自动优化提示词，4.5版最佳平均每次编辑提升12.6%，评分提升29.6%（推理时间5.2秒），对比4版最佳（11.1%/21.6%，6.2秒），证明新模型在优化任务中更具优势。

📊 通用基准测试对特定业务机会指导有限，应构建模拟实际使用场景（含真实数据格式、约束和业务逻辑）的评估，当新模型达到关键指标时（如Loop的优化成功率），团队需立即行动开发功能，而非等待数月后的反应式开发。

Learn how aspirational evals can help you figure out when new AI models unlock new product opportunities.

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签