Braintrust Blog 10月02日
Anthropic发布Claude Sonnet 4.5,在SWE-bench上取得77.2%的成绩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic宣布发布Claude Sonnet 4.5,在SWE-bench验证测试中达到77.2%的成绩,可自主运行30小时,并在编码和推理任务中创下新基准。与AI社区对新型模型的关注不同,Anthropic采用数据驱动的方法,通过'理想评估'测试(aspirational evals)来识别新模型带来的实际能力提升。当Claude Sonnet 4在5月跨越成功阈值时,Anthropic在两周内开发了Loop功能,该功能通过自动分析评估结果来优化提示词,Claude Sonnet 4.5在优化效果和推理速度上均优于前代模型。建议企业建立类似的评估体系,将AI能力提升直接转化为业务场景,通过自动化测试和快速迭代抢占先机。

📈 理想评估(aspirational evals)通过测试未来才可能实现的AI能力(当前模型得分约10%),Anthropic持续测试新模型以构建Braintrust功能,Claude Sonnet 4.5的突破促成了Loop的快速开发,该功能能自动优化提示词,4.5版在优化效果(平均每次编辑提升9.8%)和推理速度(快1.2倍)上均显著优于4版。

🚀 AI能力提升通常呈现'能力悬崖'现象,Claude Sonnet 4.5在SWE-bench验证测试中成绩从40%跃升至77.2%,自主运行时间从7小时延长至30+小时,OSWorld计算机任务提升19.2%,这些突破可能催生全新应用类别而非渐进式改进。

🔧 企业应识别3-5个AI改进能最大程度影响业务的场景,建立类似Anthropic的评估体系,使用真实数据、业务逻辑和集成需求而非合成基准,通过自动化测试管道(如Braintrust Proxy)即时发现能力跃迁,当新模型达到成功阈值时快速迭代上线。

🤖 Loop通过无监督实验自动优化提示词,4.5版最佳平均每次编辑提升12.6%,评分提升29.6%(推理时间5.2秒),对比4版最佳(11.1%/21.6%,6.2秒),证明新模型在优化任务中更具优势。

📊 通用基准测试对特定业务机会指导有限,应构建模拟实际使用场景(含真实数据格式、约束和业务逻辑)的评估,当新模型达到关键指标时(如Loop的优化成功率),团队需立即行动开发功能,而非等待数月后的反应式开发。

Learn how aspirational evals can help you figure out when new AI models unlock new product opportunities.

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Anthropic Claude Sonnet 4.5 SWE-bench AI评估 能力悬崖 Braintrust 自动化测试 提示词优化
相关文章