LLM评估：Braintrust的五大经验教训

Braintrust Blog 10月02日 20:52

Braintrust团队在LLM产品开发中积累了丰富的评估经验。他们发现，有效的LLM评估应支持24小时内模型上线，能快速将用户反馈转化为评估案例，并用于新功能上线前的验证。为应对生产环境的不可预测性，应结合真实生产数据和自定义评分器。在构建LLM代理时，优化工具设计和输出格式至关重要，同时要关注代理的上下文信息。持续的评估和模型切换能力是抓住新模型带来的机会的关键。最后，Holistic Tuning（整体调优）——即同时优化数据、提示和评分器——比单独优化某个环节效果更佳。Braintrust推出了AI评估助手Loop，旨在自动化并改进这些评估流程。

🚀 **高效模型迭代与部署**: 真正的价值体现在评估循环能支持在24小时内将新模型快速部署到生产环境。例如，Notion的AI团队能在每次重大模型发布后第二天就将其集成到产品中。这要求评估流程具备高度的敏捷性，能够快速响应模型更新，确保产品竞争力。

💡 **快速反馈闭环与主动验证**: 评估体系应能迅速将用户报告的Bug转化为可执行的评估案例，确保问题不再遗漏。此外，评估不应仅限于回归测试，还应主动用于验证新功能，确保在用户接触产品前就了解其成功率，从而降低发布风险。

📊 **数据驱动与自定义评分**: 仅依赖合成数据集不足以应对生产环境的复杂性，必须持续将生产环境的真实用户轨迹纳入评估数据集。同时，虽然开源库提供了现成指标，但专业团队最终会开发自定义评分器，以精确反映其AI行为的具体需求，而非依赖通用标准。

🛠️ **LLM代理的深度优化**: 现代LLM代理在工具调用和输出上花费的Token远超系统提示。因此，设计应面向模型而非仅API，有时需创建专门的“LLM友好”端点。优化输出格式（如从JSON切换到YAML）能显著提高成功率，因为它更简洁且易于模型解析。同时，审计和优化代理的上下文信息（如工具、格式和流程）比单纯调整提示更有效。

🔄 **整体调优与AI辅助**: 评估不仅仅是优化提示，而是包含数据、任务（提示/代理/工具）和评分器的整体。将LLM用于整体评估（包括数据和评分器）比仅优化提示能带来更大的改进。Braintrust推出的Loop，一个AI评估助手，能自动化并改进评估流程，如优化提示、识别缺失数据、分析低分原因及生成更严格的评分器，从而实现端到端的评估优化。

What our customers have taught us about running evals at scale.

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签