Braintrust技术问答：评估、代理和LLM可观察性

Braintrust Blog 10月02日

Braintrust举办的《In the Loop：技术问答》聚焦于评估、代理和LLM可观察性。Bryan Cox和Ankur Goyal分享了评估技巧，建议从少量示例开始建立反馈循环，并使用Levenshtein距离、事实性检查等简单方法。他们介绍了新上线的代理功能，支持链式提示和复杂工作流。此外，还讨论了GitHub Action缓存结果、匿名化处理PII、多模态附件上传、自动化评分与人工复核，以及Brainstore日志数据库的用途。未来，评估将更自动化，更好对齐AI与人类期望。

📊 评估建议从少量（约10个）示例开始，利用真实用户反馈快速迭代，初期不必追求完美数据集，重点是通过反馈循环不断改进。

🔍 推荐使用Levenshtein距离进行简单字符串比较，以及基于OpenAI提示的事实性检查（Factuality）和无需精确答案的封闭式问答（Closed QA）等基础评估方法，根据自动化与人工评分的差异进行调整。

🗣️ 新增的代理功能简化了多个提示的链式操作，支持循环、并行分支和外部工具调用，API和SDK均已支持，未来还将推出带视觉标注的直观UI以简化复杂工作流。

⚙️ 高级用户可将Braintrust GitHub Action集成到CI流程，该功能能智能缓存结果，仅重运行受最近代码更改影响的评估，显著节省时间和成本。

🔒 正在开发匿名化功能，可移除个人身份信息（PII），使用户能安全地将真实用户反馈纳入评估过程。

📁 评估游乐场（playground）近期支持多模态附件上传，可直接评估相关数据集。

🤖 自动化评分有助于标记有趣或棘手的案例，人类应重点复核这些结果。游乐场还允许非技术人员和领域专家直接优化提示和分数，大幅提升评估质量。

📊 Brainstore是专为大规模LLM工作负载构建的日志数据库，解决了海量数据、大型JSON日志和快速增长的挑战，支持对象存储快速扩展，提供即时搜索，极大改善日志管理和可观察性。

✍️ 团队通常先用LLM草拟初始评分标准，再进行人工细化，这种方式能显著加速评分过程。

🧬 合成数据在真实数据稀缺或因隐私/法规限制无法获取时有用，但应作为补充而非替代真实用户数据。

A recap of our technical Q&A hosted by CEO Ankur Goyal.

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签