A recap of our technical Q&A hosted by CEO Ankur Goyal.

📊 评估建议从少量(约10个)示例开始,利用真实用户反馈快速迭代,初期不必追求完美数据集,重点是通过反馈循环不断改进。
🔍 推荐使用Levenshtein距离进行简单字符串比较,以及基于OpenAI提示的事实性检查(Factuality)和无需精确答案的封闭式问答(Closed QA)等基础评估方法,根据自动化与人工评分的差异进行调整。
🗣️ 新增的代理功能简化了多个提示的链式操作,支持循环、并行分支和外部工具调用,API和SDK均已支持,未来还将推出带视觉标注的直观UI以简化复杂工作流。
⚙️ 高级用户可将Braintrust GitHub Action集成到CI流程,该功能能智能缓存结果,仅重运行受最近代码更改影响的评估,显著节省时间和成本。
🔒 正在开发匿名化功能,可移除个人身份信息(PII),使用户能安全地将真实用户反馈纳入评估过程。
📁 评估游乐场(playground)近期支持多模态附件上传,可直接评估相关数据集。
🤖 自动化评分有助于标记有趣或棘手的案例,人类应重点复核这些结果。游乐场还允许非技术人员和领域专家直接优化提示和分数,大幅提升评估质量。
📊 Brainstore是专为大规模LLM工作负载构建的日志数据库,解决了海量数据、大型JSON日志和快速增长的挑战,支持对象存储快速扩展,提供即时搜索,极大改善日志管理和可观察性。
✍️ 团队通常先用LLM草拟初始评分标准,再进行人工细化,这种方式能显著加速评分过程。
🧬 合成数据在真实数据稀缺或因隐私/法规限制无法获取时有用,但应作为补充而非替代真实用户数据。
A recap of our technical Q&A hosted by CEO Ankur Goyal.
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑