Learn how aspirational evals can help you figure out when new AI models unlock new product opportunities.

📈 理想评估(aspirational evals)通过测试未来才可能实现的AI能力(当前模型得分约10%),Anthropic持续测试新模型以构建Braintrust功能,Claude Sonnet 4.5的突破促成了Loop的快速开发,该功能能自动优化提示词,4.5版在优化效果(平均每次编辑提升9.8%)和推理速度(快1.2倍)上均显著优于4版。
🚀 AI能力提升通常呈现'能力悬崖'现象,Claude Sonnet 4.5在SWE-bench验证测试中成绩从40%跃升至77.2%,自主运行时间从7小时延长至30+小时,OSWorld计算机任务提升19.2%,这些突破可能催生全新应用类别而非渐进式改进。
🔧 企业应识别3-5个AI改进能最大程度影响业务的场景,建立类似Anthropic的评估体系,使用真实数据、业务逻辑和集成需求而非合成基准,通过自动化测试管道(如Braintrust Proxy)即时发现能力跃迁,当新模型达到成功阈值时快速迭代上线。
🤖 Loop通过无监督实验自动优化提示词,4.5版最佳平均每次编辑提升12.6%,评分提升29.6%(推理时间5.2秒),对比4版最佳(11.1%/21.6%,6.2秒),证明新模型在优化任务中更具优势。
📊 通用基准测试对特定业务机会指导有限,应构建模拟实际使用场景(含真实数据格式、约束和业务逻辑)的评估,当新模型达到关键指标时(如Loop的优化成功率),团队需立即行动开发功能,而非等待数月后的反应式开发。
Learn how aspirational evals can help you figure out when new AI models unlock new product opportunities.
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑