掘金 人工智能 08月10日
豆包新模型+PromptPilot体验测评
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动发布了两款重磅新模型Doubao-Seed-1.6-thinking和Doubao-Seed-1.6-flash,在多模态深度思考、推理速度和视觉理解方面表现出色,分别支持256K长上下文和高达16K的输出长度。文章详细测评了这两个模型在图片内容总结、标题生成及逻辑推理方面的能力。同时,还介绍了PromptPilot平台,该平台能够智能生成、调试和优化提示词(Prompt),帮助用户高效提升大模型处理复杂任务的准确性和输出质量。通过一个品牌评价情感分类的Test Case,展示了PromptPilot从生成Prompt、手动优化、单case调试到批量测试、智能评分和持续优化的全流程实践,为用户提供了清晰的操作指引和深刻的体验感受。

🚀 **Doubao-Seed-1.6-flash模型:极致速度与多模态理解** 该模型在推理速度上表现惊艳,TPOT仅需10ms,并支持文本和视觉理解。其256K的长上下文窗口和高达16K的输出长度,结合近10%的纯文本能力提升,使其在处理图像内容总结和生成贴切的图片标题方面表现出色,准确且高效。

🧠 **Doubao-Seed-1.6-thinking模型:强化思考与逻辑推理** 此模型显著强化了思考能力,尤其在Coding、Math和逻辑推理方面较前代有提升,并同样支持多模态和256K长上下文。通过对图片内容进行解构和逻辑推理,能够准确识别前景人数及戴帽人数,展现了其强大的深度分析能力。

🎨 **PromptPilot平台:全流程Prompt智能优化** PromptPilot平台旨在解决大模型的核心输入问题,提供Prompt的生成、调优、评估和管理全流程服务。它能将复杂问题拆解,结合工具生成多样化解决方案,并根据用户反馈持续优化,极大地提升了Prompt的效率和质量。

💡 **PromptPilot实践:品牌评价情感分类案例** 通过一个品牌评价情感分类的Test Case,文章详细演示了PromptPilot如何从任务描述生成初始Prompt,再通过用户反馈进行手动优化,实现如“产品名称”List结构等精细化调整。随后,通过单case调试和批量测试,利用评分标准对模型输出进行评估,并进行智能优化,最终达到满意的效果。

📈 **智能优化与迭代:持续提升模型表现** PromptPilot平台支持通过重复优化流程来持续提升模型表现,用户可以根据优化报告中的综合得分对比,决定是否继续优化。若效果仍不佳,还可联动精调能力,以获得更好的实验结果,体现了平台的灵活性和深度。

原文

豆包新模型+PromptPilot体验测评

字节出了两款新模型,简直是王炸的存在,一个是Doubao-Seed-1.6-thinking|250715,另外一个是Doubao-Seed-1.6-flash|250715,这两款模型在多模态深度思考上的强化、极致的推理速度和视觉理解上已经做到了非常惊艳的地步,接下来我可以替大家体验测评一把。另外还公布了PromptPilot平台,对用户的任务进行提示词生成,调试和智能优化。好了,不多说了,我们开始探索之旅吧


🚀  简单Chat对话框指令体验

1、Doubao-Seed-1.6-flash|250715

极致速度、支持多模态、256K长上下文,纯文本能力大幅提升近10% ,Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms;同时支持文本和视觉理解,文本理解能力超过上一代lite,纯文本能力大幅提升近10%。支持256k上下文窗口,输出长度支持最大16k tokens。

我上传了一张图片,让它帮我总结图片内容,大家看下效果。

效果如下:

大家可以看到基本与图片内容很吻合,而且多模态深度思考速度非常快,对于这种视觉理解也非常准确,接下来我们再让模型生成图片标题,请看

题目非常贴切,而且对题目的含义解释也非常精美。

2、Doubao-Seed-1.6-thinking|250715

思考能力强化、支持多模态、256K长上下文Doubao-Seed-1.6-thinking模型思考能力大幅强化,对比Doubao-1.5-thinking-pro,在Coding、Math、逻辑推理等基础能力上进一步提升,支持视觉理解。支持256k上下文窗口,输出长度支持最大16k tokens。

我上传了一张图片,让它帮我总结出“前景有几个人,其中有几个人带帽子”,大家看下效果

可以看到它不但能解构出图片内容,而且对内容做了逻辑推理,能准确的知道前景中的人数和戴帽子的人数,非常棒的体验,大家下来也可以做此尝试,相信我一定会惊艳到你的。

🎨 PromtPilot 操作实践

Prompt(提示词)作为大模型的核心输入指令,直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力,如逻辑推理、步骤分解等。PromptPilot 提供全流程智能优化,涵盖生成、调优、评估和管理全阶段,帮助您高效获得更优 Prompt 方案。

随着模型能力持续提升,待解决的问题日趋复杂,解决方案也从单一的 Prompt 调优,转向对包含多个步骤、工具及 Agent 参与的 Workflow 进行系统性优化。PromptPilot 依托大模型能力,自动拆解问题、规划流程,结合可用工具生成多样化解决方案,并基于用户反馈持续优化,最终轻松实现代码部署。

接下来我们就以一个Test Case为例,比如:品牌评价情感分类--文本理解任务,实操PromptPilot。

1、生成Prompt

在互联网上,有很多客户发布的关于我们“脱敏品牌1”产品的内容和一些评价,有说我们这个面好吃的,有说这个饮料价格贵之类的,好的坏的都有,我们比较希望把这些内容能用大模型识别和格式化整理一下。首先要看一下,这些客户说的是正面评价还是负面评价;如果是负面的,就再分个类,看看是价格问题还是口味口感还是什么其他问题,然后看看对应的是哪个产品名,是牙膏还是饮料还是什么其他产品,给出来产品名称。我目前想到的是以下问题分类:包装不当:产品包装相关的评价;价格:产品价格相关的评价;口味口感:食品类产品的口味、口感相关的内容;食品安全:关于食品类产品卫生、安全性的内容;售后维权:退换货等售后相关的内容;其他:无法归类为前述标签的内容;以JSON格式输出,字段是情感判断、评价维度、产品名称。

比如:你需要关注模型的规则和输出结果格式 比如“最终的输出json里面产品名称可能涉及到多个,因此需要是一个list结构;不需要思考标签和output标签,最终直接输出json即可”。

则反馈内容:

最终的输出json里面产品名称可能涉及到多个,因此需要是一个list结构;不需要思考标签和output标签,最终直接输出json即可
我们可以看到产品名称现在是list结构了。

2、调试Prompt

    单case调试:接上一步,点击“验证Prompt”,进入Prompt调试页

    填写变量

    我们选择一个case,内容如下:

      #[脱敏品牌1]饮料 不知道是[脱敏品牌1]业务员黑还是[脱敏品牌1]领导黑心,我们商家在你们在那里下了那么多钱的货,你们送货过来日期不是最新的,而且下货多过期了,打电话催到你们[脱敏品牌1]消费中心那边半个月了终于过来一个业务员,结果说把这些过期饮料全部换成白开水换,真是无语死了

      将case内容添加到变量中,按箭头指示先点击填写变量,然后在输入框中输入case内容,那么在左侧你会看到变量内容。

          选择target model(doubao-seed-1.6-flash),并生成模型回答

          与case集合比对

          case原结果是:

          模型的结果是:

          可见模型生成的结果和case一摸一样。

          将模型结果添加到评测集中

          原始case集文件截图

        3、准备测评数据

          准备case集文件

          接下来,进行批量测试和智能优化。需要上传case集、配置评估标准、进行智能优化。我们测评case集文件截图如下:

          上传case集文件

          先点击上传文件,然后选择我们的case集文件,注意:这里的case集文件列必须包含:CUSTOMER_REVIEWS和理想回答。

          确定评分标准

          promptPilot平台是5分制,因此需要按照5分制来进行适配,评分标准如下:

            每题总分 5 分:1. 输出JSON和参考答案JSON完全一致,没有冗余字段和内容,得 52. 相比参考答案有多余字段,得 13. 字段取值内容和参考答案不一致,得 14. "产品名称" 取值不是 List,得 15. 参考答案为"{}"时,输出任何字段都直接判为 16. 输出结果格式不是合法JSON直接得 1

            点击编辑按钮:输入评分标准,保存之后,点击生成全部回答。

                生成全部回答(生成需要几分钟时间,请耐心等待);

                所有回答生成完毕后,点击“为所有回答评分”,开始自动为所有case自动打分

                生成评分中,需要等待几分钟

                生成完成

                生成完成之后,点击右上角智能优化。

              4、进入智能优化

                点击“智能优化”切换界面,点击 “已准备好数据,开始智能优化”(需要耐心等待几分钟)

                智能优化中。。。智能优化完成之后可以点击查看优化报告。

                查看优化报告

                优化报告页面的中段位置有综合得分对比

                **
                **

              5、假如优化结果不满足

                继续优化,直到获得满意的分数

                回到“智能优化”界面,在最新的Prompt基础上继续上面的优化流程,直到满足实验通过要求。

                本步骤可以重复多次,通过更多的迭代次数,利用更多的算力来拿到更好的效果。在多次重复过程中,promptPilot会自动基于最新的prompt版本进行下一步迭代更新。

                如果经过多次,依然不提升,promptPilot提供联动精调的能力

                注意:这个能力目前是在方舟平台,仅通过方舟平台登录可体验(免费智能精调)

              **
              **

               小结

              全程体验下来确实惊艳到我了,不管是新模型对多模态的深度思考能力强化或者推理速度的极致提升,还是PromtPilot平台对Prompt的任务极致理解和智能优化,都让我耳目一新,如沐春风。科技向善,未来的技术一定是让复杂归于简单,让智能隐于无形。

              Fish AI Reader

              Fish AI Reader

              AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

              FishAI

              FishAI

              鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

              联系邮箱 441953276@qq.com

              相关标签

              豆包新模型 Doubao-Seed-1.6 PromptPilot AI 提示词优化
              相关文章