What our customers have taught us about running evals at scale.

🚀 **高效模型迭代与部署**: 真正的价值体现在评估循环能支持在24小时内将新模型快速部署到生产环境。例如,Notion的AI团队能在每次重大模型发布后第二天就将其集成到产品中。这要求评估流程具备高度的敏捷性,能够快速响应模型更新,确保产品竞争力。
💡 **快速反馈闭环与主动验证**: 评估体系应能迅速将用户报告的Bug转化为可执行的评估案例,确保问题不再遗漏。此外,评估不应仅限于回归测试,还应主动用于验证新功能,确保在用户接触产品前就了解其成功率,从而降低发布风险。
📊 **数据驱动与自定义评分**: 仅依赖合成数据集不足以应对生产环境的复杂性,必须持续将生产环境的真实用户轨迹纳入评估数据集。同时,虽然开源库提供了现成指标,但专业团队最终会开发自定义评分器,以精确反映其AI行为的具体需求,而非依赖通用标准。
🛠️ **LLM代理的深度优化**: 现代LLM代理在工具调用和输出上花费的Token远超系统提示。因此,设计应面向模型而非仅API,有时需创建专门的“LLM友好”端点。优化输出格式(如从JSON切换到YAML)能显著提高成功率,因为它更简洁且易于模型解析。同时,审计和优化代理的上下文信息(如工具、格式和流程)比单纯调整提示更有效。
🔄 **整体调优与AI辅助**: 评估不仅仅是优化提示,而是包含数据、任务(提示/代理/工具)和评分器的整体。将LLM用于整体评估(包括数据和评分器)比仅优化提示能带来更大的改进。Braintrust推出的Loop,一个AI评估助手,能自动化并改进评估流程,如优化提示、识别缺失数据、分析低分原因及生成更严格的评分器,从而实现端到端的评估优化。
What our customers have taught us about running evals at scale.
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑