Agent落地挑战与实践：从技术到商业的深度解析

Founder Park 09月11日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Agent技术热潮背后，实际落地面临诸多挑战。新一代Agent Model在规划和工具调用能力上大幅提升，但“隐性知识”的获取成为2B领域核心难点。文章深入探讨了Agent创业中的技术路线选择（Workflow vs Agentic）、商业化策略（KA vs SMB），以及通用Agent的局限性。文中强调了垂直深耕的价值，并展望了Agent的学习与记忆机制的未来发展方向，指出情景记忆和过程数据收集是关键突破口。

💡 **技术迭代与工程学教训**：新一代Agent Model在规划和工具调用能力的提升，使得过去大量基于规则的工作流编排等外围工程变得不再必要，许多早期投入的工程化工作被大模型能力所取代，这构成了一笔“学费”。这意味着Agent开发重心正从复杂的工程实现转向如何更好地利用模型能力。

🧠 **隐性知识是2B Agent落地的关键**：Agent在2B领域面临的最大挑战是获取“隐性知识”，包括行业内的默会知识、组织内部的共识性知识以及企业长期实践形成的自定义规则。这些知识决定了Agent能否真正理解业务逻辑并有效落地，上下文工程（Context Engineering）成为构建Agent环境的核心。

🛣️ **技术与商业化路线选择**：Agent创业者需在Workflow-based（规则驱动，适用于流程化工作）和Agentic（自主编排，适用于复杂分析任务）技术路线间做出选择。同时，商业化上应考虑KA（大客户）的高价值与高门槛，以及SMB（中小客户）的快速验证和标准化机会，建议采取分层并进的策略。

🎯 **垂直深耕优于通用Agent**：通用Agent在留存率和付费转化上普遍偏弱，难以做到“面面俱到”。更务实的做法是聚焦垂直场景，如PPT Agent，通过在内容生成、排版设计和数据可视化等环节进行深度优化，构建差异化优势，提升用户留存。

📈 **Agent的学习与记忆机制**：AI的学习能力是Agent发展的核心，尤其是在情景记忆（Episodic Memory）方面。AI目前在情景记忆方面几乎是空白，需要主动收集过程数据、深度学习人机协作轨迹、建立场景化学习机制以及可持续的上下文演进，才能真正实现Agent的长期记忆和自适应学习。

科技最前沿的 2025-09-04 20:20 北京

实际落地真的很难，垂直场景才能做深做透。

2025 年，在 AI 业内，Agent 无疑是最热的话题。模型侧，新一代 Agent Model 的能力大幅提升，支持更强大的长时规划和工具调用。同样，产品侧，Agent 也正在从简单的聊天助手进化为真实环境中持续交付的数字员工。

但真正实际好用的 Agent 产品屈指可数，其实这也说明了 Agent 的实际落地远远比我们预期中的更复杂。

做 Agent 的真正卡点在哪？是技术还没到位吗？在 Agent 创业中，有哪些真实的教训和经验？现在做通用 Agent 产品，还有价值吗？......

Atom Capital 近期组织了一场闭门沙龙，邀请了硅谷和大陆专注 Agent 前沿的创业者和大厂技术专家，围绕 Agent 的这些难点进行了深入讨论，全是来自一线的实战心得、技术和业务洞察。

TLDR：

The Bitter lesson 依然生效，新一代Agent Model的"规划"和"工具调用"能力的提升，取代了过去大量基于规则的工作流编排等外围工程。

隐性知识的获取是一个Agent的核心挑战，尤其在2B领域。

Context，即隐性知识和业务逻辑的好坏决定了大模型如何能够在实际落地中完成任务，是否真正实现"可生产可交付"的价值。

Workflow跟自主编排Agent各有用武之地，会长期并行。但价值重心很明显正在逐步向后者迁移。

通用Agent的留存与付费转化偏弱，新客多、留存低成为常态，更务实的做法是从"通用"转向"垂直深耕"。即便在"通用"赛道，也先聚焦特定场景。

长期来看，真正的护城河在于几个核心能力：深度的环境理解与操作能力、持续的学习记忆闭环、针对特定场景的模型优化，以及多Agent间的协作标准。

超 12000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；

不定期赠送热门新品的邀请码、会员码；

最精准的AI产品曝光渠道

01 热潮背后：

创业实践的教训、挑战与调整

今年Agent真正从"目标"变成了"手段"——过去大家谈论Agent更多是在描绘一个理想状态，现在则是在用它解决具体问题。随着底层模型能力加速进化，嘉宾们分享了痛苦的教训、面临的主要挑战以及相应的重心调整。

Bitter lesson：今年最大的Learning是什么？

之前做Agent的大量工程化工作都“交了学费”。一位嘉宾分享，两年前他们开始做Agent的时候，模型能力还不够，GPT-4虽然智商ok，但也有各种问题，包括工具调用、准确性、上下文长度、速度等。他们因此做了很多外围的工程化，做了各种工具，去年他的产品在 SWE-Bench 测试中两次拿到榜首。可是这样的方案不具有通用性，也不稳定。今年Claude Code出来后，他发现，过去做的这些工作都没有意义，都被大模型吃掉了。模型本身就是Agent，开发者只需要给它环境，这对他的冲击非常大。

这个“交学费”的痛苦经历被多位嘉宾提及。教训的背后，是因为新一代Agent Model的"规划"和"工具调用"能力的提升，取代了过去大量基于规则的工作流编排等外围工程。

Agent目前最主要的挑战是什么？

隐性知识的获取是一个核心挑战，尤其在2B领域。大模型能力不再是主要瓶颈，但是Agent如何能够给到大模型足够的context来实际落地，依然面临几个方面的挑战。

一是默会知识。在真实世界真实场景中，有很多默会知识，而这些是没有被记录、AI不知道的。以广告行业为例，什么样的创意是好的创意，什么样的slogan是好的slogan，行业内人士可能需要梳理出一套规则给到AI。

二是协作需要的共识性知识。在真实的组织中，人和人之间的协作是口耳相传的。一个大之下有小组织，每个小组也有自己的生态。以字节为例，大家都用Golang，但是每个小组用Go的方法都不一样。这些组织内部的共识性知识，目前是严重缺乏的。

三是企业内部在长期实践中形成的自定义规则。一位嘉宾分享了一个真实案例，很具有代表性。他在帮助客户计算ACV（年度合同价值）指标时发现，虽然业界有标准算法，但企业实际操作时却面临着各种复杂情况：哪些合同应该计算在内，哪些不算？合同截止时间能否延期？出于某些实际考虑，不在结算周期内的合同需要如何特殊处理？每家企业的处理方式都不同。同样一个指标，不同公司的计算方法可能完全不同。即便是看似标准的 Salesforce，不同企业对同一字段的定义也不尽相同。这些源自业务实践的自定义规则与术语，都是外部难以直接感知的“隐性层”。

产生这些问题的本质，是AI完全改变了过去软件的工作方式。以前软件都是在做工具给人使用，因为工具直接解决问题的成本过高，问题由人来解决。在Agent时代，Agent需要直接解决问题，这就要求开发者把人脑如何解决问题的思路都做出来。这里包括默会知识、协作的共识性知识、各个企业内部自定义的规则等等。目前，Agent开发者花了大量时间和精力来构建这些context。

创业者应该在哪里发力？

聚焦上下文工程来构建环境。因为大模型能力的迅速提升，Agent实施重点不再是模型与工具，而是如何构建环境让大模型更好地落地。这个转变很关键，因为"环境"很可能就是那层不会被大模型淹没的地基。

这里的“环境”包含三要素：

执行能力：让 Agent 在真实界面、终端与移动端进行 Computer Use。

业务连接：把企业系统、数据与权限工具化、可调度化。

上下文载体：承载领域术语、企业知识与使用习惯等关键信息。

其中最核心的是context，即隐性知识和业务逻辑。Context的好坏决定了大模型如何能够在实际落地中完成任务，是否真正实现"可生产可交付"的价值。

02 创业者的抉择：

技术和商业化路线

03 通用Agent的灵魂拷问

"万能工具"的困境

作为头部通用Agent，Manus做得很出色。它是第一个出圈的通用Agent，营销做得非常好。它的产品Demo很炫酷，特别是AI操作电脑和浏览器过程的可视化，以强烈的科幻感激发了用户对AI的无限想象，从而吸引了大量用户并显著提升了品牌效应。

这类通用Agent的一个问题，是大家使用久了以后发现，实际体验往往难以达到预期。最大卡点在于"面面俱到，却难以做到最好"，在具体场景的深度与质量上普遍"只到60分"。用户在实际使用中，往往会转向更专业的工具——做网站用专门生成器，写代码用编程助手，做调研用研究助手……导致通用Agent的留存与付费转化偏弱，新客多、留存低成为常态。

聚焦垂直的价值——以PPT Agent为例

对资源有限的创业公司而言，更务实的做法是从"通用"转向"垂直深耕"。即便在"通用"赛道，也先聚焦特定场景，在规划自动化的基础上引入专用模型与专业工具链，围绕具体任务做深做透。

这里以一位头部PPT Agent负责人所分享的经验为例：

如果用一个粗略的评分标准做参照：普通人做的PPT大概60分（刚及格），专业高手能到80分，乔布斯苹果发布会那样的顶级路演是100分；而目前通用大模型PPT 能力多在四五十分，只能“搭个架子”。

如何提升Agent的PPT 能力，让大模型跨过这几十分的差距？

拆解下来，PPT制作主要有三个环节：

内容生成：这是第一步，也是基础。用户通常会给出指令，要求Agent收集相关信息。内容的质量、丰富度和准确性至关重要。如果内容本身就不好，后面的环节都会受影响。这部分核心考验的是Agent的强检索与综述能力，决定了PPT上限。

排版与视觉设计：收集到内容后，如何将其合理排版并呈现出良好的视觉效果，这是PPT区别于普通文档的关键。

数据图表可视化： PPT中经常需要展示数据。原始数据多是文字或数字，需要将其恰当地转化为曲线图、柱状图、流程图等可视化形式。

现阶段，AI生成PPT的普遍做法是“模板 + 大模型适配”，并用代码生成完成排版和视觉设计。但这种方法容易出现一些系统性瑕疵（宽高比不对、元素重叠、比例失调等），因为代码生成的视觉和排版设计沿用了网页生成的逻辑，缺乏针对PPT场景的优化。

这位嘉宾所在团队围绕PPT场景做了深入优化：在内容检索与排版视觉这两个环节分别训练了专用模型，通过纠错与蒸馏提升模型在 PPT 领域的表现；同时补齐多样工作流（从“只美化现有 PPT”到“按既定大纲排版与制图”）、对接个人历史素材与企业知识库、遵循组织模板与品牌规范等等。

结果也验证了这条路径的有效性：其产品生成PPT的质量显著优于通用Agent。通用 Agent 的用户留存率普遍只有约10%，而该PPT Agent可达到20%以上，在竞争中形成了清晰差异化。

04 重新思考：人与Agent的交互

未来，Agent是否像人一样操作电脑、还是API就行？

Agent通过GUI操作电脑的能力正在快速成熟。嘉宾们分享了很多令人印象深刻的实践案例：QA测试Agent能够像人一样打开浏览器测试网站，小红书发帖Agent可以批量操作图片选择、打标签并发布内容。o3模型几乎不需要特殊定制就能直接使用，对常见UI界面的识别和操作能力已相当成熟……

但GUI操作的长期价值仍存在很大争议：GUI本质上是为人类认知优化的界面，对Agent来说并非最优路径。当Agent能直接调用API、操作服务器甚至编写代码时，绕开GUI似乎是更优解。在这种情况下，还有什么必要坚持GUI操作吗？

我们有两点考虑：一是现实世界过去几十年积累了大量基于GUI的应用，短期内完全绕过并不现实。而更深层的原因，在于GUI承载的不仅仅是操作功能，还有丰富的上下文信息。人类选择GUI而非纯语言操作，很大程度上是因为视觉能够提供丰富的场景信息和认知优势。如果未来Agent在视觉理解上的能力获得提升，甚至超越人类，GUI操作的价值可能会重新凸显。

如何设计人与Agent交互的颗粒度？

Agent产品设计中最困难的问题之一是确定交互颗粒度：什么时候需要用户确认？什么时候应该主动询问更多信息？

以旅行规划为例，这个看似简单的场景实际上包含大量个人偏好。如果用户要求Agent制作东京七天的旅行计划，Agent直接去执行可能无法满足需求。实际上，Agent需要了解很多信息：用户是否去过东京？喜欢什么风格的旅行？预算范围如何？之前去过哪些地方，有什么特别喜欢的体验可以作为参考？但如果过度询问用户偏好，又可能让用户感到繁琐。

要解决好这个问题，关键在于Agent要具备判断能力：什么情况下需要更多信息，什么情况下可以基于常识推进。最有潜力的方案是让Agent在交互过程中逐步学习用户偏好，记住修正和反馈，在后续交互中主动应用这些知识。比如，LemonAI最近演示的产品，正在尝试通过学习用户的偏好来制定旅游计划。

未来人与Agent将如何协作？——来自管理学的启发

传统管理学中的情境领导理论将管理模式分为四种：指导（Directing，明确告诉下属每一步怎么做），教练（Coaching，与下属充分讨论，然后以管理者为主导来做决定），支持（Supporting，管理者提供建议但由下属主导决策），授权（Delegate，完全放手让下属去做）。情境领导的核心，是管理者必须了解下属的能力范围，采取相应的管理模式。

利用这套框架来思考人与Agent的协作，会发现Agent与人的协作关系要复杂得多。Agent在不同维度的能力差异巨大：它可能在某些方面表现卓越，在另一些被认为是常识的领域却会判断错误。更具挑战性的是，Agent可能会自主做出超出权限的决策，比如调用昂贵的API却不考虑成本，或在需要人工审批的环节直接推进。这种能力分布的不均，要求对Agent采用更加精细化的管理策略。

实践中最有效的方法是建立共享上下文机制。这不是简单的信息同步，而是让Agent理解它所处的工作环境、可用的工具和权限边界、协作的规则以及核心目标，以及什么时候需要请求人工确认。

一个有趣的趋势是，最先进的AI产品正在尝试让AI更主动地参与协作。Agent不再是被动的执行工具，而是会主动提出建议，并在遇到困难时主动请求人工协助。

多Agent架构为何难以落地？

在多Agent协作的探索上，许多嘉宾也分享了在落地中遇到的挑战。最核心的矛盾是：如果所有Agent共享全部上下文，并不是真正的 “多Agent协作”；但要从庞杂上下文里精准抽取每个Agent所需的部分，又是个极大的挑战。抽取不准，交接就会立刻失败；共享过头，又会退化成一个超长System Prompt的“单体Agent”。如何抽象出各个agent和所属的context，还需要更多的实践。

许多开发者尝试多Agent协作的动机很朴素：上下文越长，大模型越“笨”。当问题变成几十步、上百步，单体Agent容易在中途“绕回去”——前几步还能跟上，越到后面就越容易进入自我循环。理论上，把超长的推理链路拆分成可管理的子问题，由多Agent来分别解决，可以缓解Context过长导致的模型变笨问题。但在真实业务中，何时切分子任务、如何调度合适的Agent，成为了最大卡点。

有效的路径可能是采用任务分解加专家模型的组合：把复杂问题拆解成相对独立的子任务，每个子任务由擅长该领域的Agent处理。整个流程类似MapReduce模式——调度分发、并行处理、结果归并，关键是要做到可观测和可回溯。

更进一步的思路是引入Agent-to-Agent的异步协作机制，把一致性、延迟和成本等工程约束纳入系统设计。比如，某些子任务可以容忍一定的信息延迟，某些关键决策则需要实时同步。这样既能保证协作效果，又能控制系统复杂度。

05 大模型与Agent

大模型会淹没Agent吗？

06 下一个突破口：记忆和学习

学习能力是关键

01

热潮背后：

创业实践的教训、挑战与调整

02

创业者的抉择：

技术和商业化路线

03

通用Agent的灵魂拷问

04

重新思考：人与Agent的交互

05

大模型与Agent

大模型会淹没Agent吗？

06

下一个突破口：记忆和学习

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签