宝玉的分享 09月16日
Shopify 分享构建智能体经验:架构、工具与评估
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Shopify 分享了他们在构建 AI 智能体(Agent)方面的宝贵经验,强调了 Agentic Loop 的核心循环机制:由大模型判断并调用工具,再根据工具结果决定下一步行动。他们提出了打造智能体的四大核心建议:架构简单化、工具清晰且有边界、模块化设计(如即时指令 JIT)以及 LLM 评估与人类判断的高度相关性。文章特别强调了控制工具数量在20个以内以优化 Agent 能力,并介绍了通过 SubAgent 分摊上下文以解决主 Agent 上下文长度限制的方案。此外,Shopify 还详细阐述了通过人工专家标记数据训练 LLM 进行结果评估,以实现 Agent 的自我优化和改进,这是一种兼顾效率与准确性的折中方案。

🛠️ **精简工具集,优化智能体能力**:Shopify 建议将智能体可调用的工具数量控制在20个以内。过多的工具会显著影响智能体的精确选择能力,导致效率低下。文章提出,未来趋势并非 JIT 方案,而是通过 SubAgent(子智能体)来分摊上下文,将特定类别的工具归属给不同的子智能体,从而缓解主智能体上下文长度的限制,并赋予子智能体一定的自主性,类似于大型公司的部门划分。

⚖️ **建立可靠的评估体系,驱动智能体优化**:智能体能否出色地完成任务,关键在于其生成结果的评估能力。Shopify 提出了一种创新的评估方案:首先,由人类专家在真实环境中收集多样化的结果,并进行人工标记(好/坏)。然后,利用这些标记数据训练 LLM,使其能够模仿人类专家的判断标准。当 LLM 的评估结果与人类高度一致时,便可将其应用于后续的 Agent 生成结果评估,从而实现自动化和高效的优化,尽管存在误判的可能性,但作为一种折中方案,其有效性得到了认可。

🔄 **Agentic Loop 核心机制与架构原则**:Shopify 构建智能体的核心是 Agentic Loop,即一个持续的循环过程。在这个循环中,大模型负责判断当前任务所需调用的工具,Agent 实际执行工具调用,并根据工具的反馈信息决定是继续调用工具还是任务完成。这种架构要求工具集清晰且有明确边界,设计上应采用模块化,并确保 LLM 的评估结果与人类的判断高度相关,同时要提前防范和处理奖励作弊等问题,并持续优化整个评估体系。

Shopify 分享了他们构建 Agent 的经验,整体架构也是目前主流的 Agentic Loop,就是不停的循环,让大模型判断需要调用什么工具,Agent 去调用工具,根据调用工具的结果看是继续调用工具还是任务完成。

他们针对打造 AI 智能体给了4条核心建议

    架构简单化,工具要清晰有边界

    模块化设计(如即时指令)

    LLM 评估必须与人类高度相关

    提前应对奖励作弊,持续优化评估体系

我看下来主要是两点值得借鉴的地方:

一、工具不要太多,尽量控制在 20 个https://baoyu.io/uploads/2025-09-16/1758024464260.png758024464260.png" data-width="100%" data-align="center">

如果工具数量太多会极其影响 Agent 的能力,很难精确选择工具

那么解决方案是什么呢?

不要看他们分享的 JIT 方案,明显是一个过渡性的产物,需要动态的去生成调用工具的指令,为了保证不影响 LLM 的 Cachehttps://baoyu.io/uploads/2025-09-16/1758024484961.pngads/2025-09-16/1758024484961.png" data-width="100%" data-align="center">

真正的靠谱方案其实 PPT 里面也写了(看图3),只是它们还没实现,而实际上 Claude Code 这部分已经很成熟了,就是用 SubAgent(子智能体),通过 Sub Agent 分摊上下文,把一类工具放在一个 SubAgent 中,这样不会影响主 Agent 上下文长度,也可以让子 Agent 有一定自制能力,有点类似于一个公司大了就分部门,每个部门就是一个 SubAgent。

二、Agent 生成的结果要 Evaluate(评估)

Agent 要做得好,很重要的一点就是要能评估它生成的结果是好还是坏,这样 Agent 自己就能对自己的结果进行改进优化。

所以他们先找了一些人类专家,从正式环境中抽取了足够多样的结果,来人工标记是好还是坏,然后把这个结果作为基准数据集,再去写提示词让 LLM 来评估,让 LLM 评估的结果和人类的结果保持一致。当 LLM 评估https://baoyu.iohttps://baoyu.io/uploads/2025-09-16/1758024524265.png果,这样就不需要人工介入。

至于会不会误判,我想肯定还是会的,但不管怎么说还是一个比较好的折中方案。

其他还有一些强化学习的训练方法,有兴趣可以自己去看看原文。

https://baoyu.io/translations/building-production-ready-agentic-systems

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Shopify AI Agent Agentic Loop 工具调用 LLM评估 SubAgent 人工智能系统 Shopify AI Agent Agentic Loop Tool Calling LLM Evaluation SubAgent AI Systems
相关文章