原创 Jomy 2025-04-24 15:12 北京
中国 Agent 开发者的入门必读文章(希望✪ ω ✪
文 | Jomy @302.AI
编 | 南乔River @ShowMeAI
✦✦✦
上一篇文章 聊了聊 Tool、MCP 和 Agent 三者之间的关系。简单来说就是 Agent = LLM + Tools,而 MCP 统一了 Tools 开发和使用的过程。
文章很受欢迎,很多朋友也跟我进行了交流讨论。但在沟通中,我发现还是有部分朋友对 Agent 存在质疑和误解:
- 有人断言「Model is Agent」,认为 Agent 只是过渡,终将被更强大的基础模型所取代。有人觉得通用 Agent 比垂直 Agent 更高级,笃信「通用 Agent」会很快实现。更普遍的是,把各种自动执行任务的产品,都泛泛地称为 Agent。
这种认知混乱的现状,一方面源于 Anthropic、Google、OpenAI 等头部公司尚未就 Agent 精确定义达成共识,仍在「各说各话」;另一方面,媒体的过度炒作与选择性解读,也使得 Agent 这个词被严重稀释和泛化,几乎失去了技术内涵。
那么,到底什么是 Agent?它与我们熟知的 LLM、Tools、Workflow 又是什么关系?它的出现将为 AI 的发展带来哪些深刻变革?
今天,我将结合 302.AI 的一线实践经验,帮大家厘清 Agent 本质,并分享我对未来发展格局的判断。
1. Agent = LLM + Tools
在喧嚣中寻找共识
2025 年,公认的 Agent 之年。随之而来的,是这个词的泛滥成灾。文章、播客、访谈、演讲、闭门会、白皮书…… 人人都在谈论 Agent,大家却越听越迷糊。
尝试给 Agent 一个定义
知名科技博主 Simon Willison 曾在 X 发起了一个挑战:用 280 字给 Agent 下一个通用的定义。
这个月,Latent Space 主理人 Swyx 在 2025 AI Engineer Summit 上重提此事,展示了评论区里五花八门的答案(如上图所示)——满屏的定义,恰恰就是当前认知混乱的缩影。
几个月过去了,即便行业巨头纷纷下场,也没能完全统一口径。混乱仍在继续。让我们看几家代表性的观点:
每家都用一个长长的文档来说明 Agent 是什么。但没几个人真的会认真看完。
巨头的 Agent 定义示意图与公式总结(我看完了)
其实没那么复杂,我们可以抓取一个最精简、也是最核心的公式:Agent = LLM + Tools
这足以揭示了 AI Agent 核心机制:LLM 负责思考和调用,Tools 负责执行和与返回结果。理解了这一点,你就已经掌握了走进 Agent 世界的钥匙。
2. LLM
模型是没有记忆的
为了更好的理解下面的段落,我们还需要提一提大语言模型(LLM)的一个基础特性。
模型为什么无法替代 Agent 呢?因为模型(LLM)本身是没有记忆的,专业术语叫 stateless(无状态的)。
这是一个极其重要但容易被忽略的事实。通俗来讲,无论你之前与一个 LLM 对话了多少轮,它本身并不会「记住」任何历史信息。每次交互,它处理的都只是你当前输入的内容。模型本身的状态,不会因为过去的输入输出而改变。
那么,为什么我们常常感觉 AI「记住」了自己之前说过的话,能够进行连贯的多轮对话呢?
这其实是一种模拟的记忆。应用程序(比如 ChatGPT 等)每次向模型发送新请求时,会主动将之前的对话历史作为上下文(Context)一并打包发送给模型。模型依据这个临时的、外部提供的「记忆」来进行回应,从而让人产生了连贯对话的「错觉」。
这种外部存储的「记忆」,可以存在你设备本地,也可以存在云端服务器,总之它不在模型内部。这种设计将模型计算与会话状态管理解耦(decouple),使得同一个模型可以同时服务于大量不同的用户和会话,不会互相干扰。
把 LLM 完成对话,类比成电脑重启
3. Tools
从问答到循环的进化
正是因为 LLM 无状态、擅长处理单次输入输出的特性,非常适合做一问一答,所以其最初、最自然的应用形态便是对话机器人(Chatbot)。
Chatbot 交互模式基本就是「人 - AI - 人 - AI - ....」的交替循环。在这个过程中,人类不断通过提问、追问、澄清来引导 AI,使其输出逐渐符合预期。这个阶段被称为 Human in the Loop(人在循环中)。
无论是单轮问答,还是通过程序传入历史上下文多轮对话,本质上都没有脱离这种模式。
Human in the Loop(人在循环中)
随着 LLM 能力的提升,人们逐渐发现,AI 的回答越来越靠谱了,很多环节已经不再需要人类的干预。于是,一个革命性的想法诞生了:能否让 AI 自己与自己「对话」呢?换言之,能否让 AI 在执行任务的过程中自我驱动呢?
我们把这种「人 - AI - AI - AI - ....」的新逻辑,称之为 Human on the loop(人在循环外)。人类只需设定一个初始目标,后续所有步骤都由 AI 自主循环完成。
Human on the loop(人在循环外)
✦✦✦
这正是 Agent 重要本质之一:自我循环。
实现这种了「自我循环」,LLM 才有了调用工具的能力。比如,我们最熟悉的 Function Call(函数调用),就是一个典型的 LLM 自我循环过程:
人提出问题 → AI 提出调用工具来辅助回答 → 工具自动执行返回结果 → AI 接收到结果来判断是否继续循环。
这里需要特别指出一个常见的误区:大部分应用客户端把上述过程呈现在了同一个对话界面里,让用户误以为只有一次 AI 问答。但实际上,每调用一次工具,AI 都需要回答两次。
这也是 LLM 无法取代 Agent 的根本原因:LLM 无法在一次回答中既调用工具,又获得工具调用的结果。
4. Agent 框架
三种循环类型
模型学会了自我循环,这时 AI 突然「意识」到:我这次可以不直接回答!我可以先请求调用某个工具,从模型外部获得信息后,交给下一个循环的自己;然后在下一个循环里,再基于这些新信息来回答!
那么谁来控制循环过程呢?LLM 本身无法完成,这是就需要借助人类构建的外部代码,用来接收请求和传递信息。这类代码就叫 Agent 框架,本质是控制 AI 自我循环和维护记忆。
我把当前的 Agent 框架分为三大类:
第 1 类:手动 Agent 框架
开发者预先设定好任务执行的每一步计划,明确规定哪个步骤使用哪个工具,LLM 主要负责在预设节点上填充内容或做简单决策。
我称之为工作流(Workflow),它是一个白盒系统。
手动 Agent 框架 = LLM + Tools + Workflow
第 2 类:半自动 Agent 框架
将 AI 预设为不同身份的垂直 Agent(系统提示词+特定工具),每个垂直 Agent 完成不同的子任务,最后通过框架将每个子任务的执行过程和结果组合起来,完成最终目标。
我称之为 Multi-Agent System(多 Agent 系统),它是一个灰盒系统。
半自动 Agent 框架 = LLM + Tools + Prompt + Orchestration(编排)
第 3 类:全自动 Agent 框架
只给模型设定一个最终目标,模型接收到目标就开始自我循环,直到完成目标或遇到无法解决的障碍。
全自动 Agent 框架是最简洁的,调用工具的那几行代码,就是其全部的核心了,复杂过程全部交由模型去解决。
我称之为 Single-Agent System(单 Agent 系统),也就是所谓的通用 Agent,它是一个黑盒系统。
全自动 Agent 框架 = LLM + Tools
✦✦✦
需要强调的是,这 3 种框架并不是对立关系,而是常常组合使用。比如,Multi-Agent 系统可以与 Workflow 相结合,Single-Agent 系统也是 Workflow 和 Multi-Agent 系统的重要组成部分。
5. 判断一:单 Agent 框架存在极限
多 Agent 系统仍是目前的主流
随着 OpenAI o3 和 o4-mini 等新模型的发布,我们观察到了模型 Agent 能力的明显提升——能够更熟练地使用更多工具、执行更长的步骤链来完成复杂任务。这些进步的本质,是模型自我循环的次数增加了。
抽打陀螺保持旋转
这时,有一种声音出现了:模型要替代 Agent 了,或者 Model is Agent。其实,这句话更严谨准确的技术表达是:Single-Agent 系统要替代 Workflow 和 Multi-Agent 系统了;或者说,通用 Agent 将一统天下。
但我认为,这只能是一个美好的愿景,短期内不可能实现。
原因 1:可控性
LLM 的输出天然带有一定的随机性。对于一个需要多个步骤才能完成的复杂任务,如果完全依赖模型本身的能力,那么每一步决策的微小偏差都可能被累积和放大,最终导致结果谬以千里。
原因 2:模型能力欠缺
目前,主流 LLM 的训练和评估都围绕单轮次(或有限轮次)的问答任务展开,缺乏针对「长链条现实任务」的训练和评估。这导致 LLM 在完成复杂任务方面存在先天不足。
我们极度缺乏 LLM Agent 训练所需要的高质量行动序列数据。例如,训练「搜索」任务时,不能只看最终结果,还要评估模型获取信息、生成中间步骤、根据反馈调整计划、甚至回溯重试的能力。我甚至怀疑,连 OpenAI 或者 Anthropic 这种大厂,也未必能拿到足够数量的这类数据。
因此,通往 AGI 的必经之路,是将 LLM 变为 Agent,在真实世界中去做持续的强化学习,最终才有可能超越人类。LLM 训练也从此迈向 Agent 与环境直接、持续互动获取第一手经验为主导的新纪元(也就是Sutton 所说的 the Era of Experience)。
LangChain 关于 Agent 落地阻碍因素的调研结果
✦✦✦
这里给一个明确的结论: 受限于当前 LLM 的可控性以及能力,指望一个全能的模型 + 简洁的单 Agent 系统包打天下,在短期内是不现实的。Multi-Agent 系统将是未来相当长一段时间内构建复杂、可靠 Agent 应用的主流范式。
6. 判断二:从对话问答到任务委托
AI 使用方式发生巨变
随着 Agent 时代的到来,一个显而易见的变化是:我们与 AI 的交互模式正在从「即时的回答问题」 转向「异步的完成任务」。
过去,我们问 AI 一个问题,期待它立刻给出答案。现在及未来,我们交给 Agent 一个复杂任务,它可能需要几分钟甚至几小时来独立工作,并最终交付一个完整的结果。这个转变,看似简单自然,却将带来一系列深远的影响。
根据 OpenAI 之前公布的 AGI 路线图,我们现在已经发展到了 Agent 时代
影响 1:Token 消耗暴增
过去人机对话模式下,Token 消耗速率受限于人类的输入和阅读速度(大约每秒 4 个 Token)。
现在 AI 实现自我循环后,Token 消耗速率取决于模型的推理和生成速度(可达每秒上百 Token 甚至更多),而且机器还可以 7x24 小时不间断工作,因此 Token 消耗将指数级增加。这还会对模型服务的并发能力和推理速度,提出前所未有的巨大挑战。
影响 2:AI 产品形态发生变化
当交互的核心从「过程」转向「结果」,当用户不再需要实时等待 AI 的每一步响应,当用户从「AI 创作者」变为「AI消费者」,产品形态又会如何发展呢?
影响 3:垂直 Agent 生态爆发
如上文所说,复杂任务需要多 Agent 协作完成。这就意味着,市场需要大量专注于解决特定领域、特定类型问题的「垂直 Agent」。
而垂直 Agent 的开发以及它们之间的互联互通(比如我们上篇文章讨论过的 ANP 和 A2A),将开启下一个巨大的创业和创新浪潮。
7. 判断三:闭源 VS 开源
共同撑起一个巨大 Agent 生态
Agent 生态的爆发,把用户的关注点从「用了哪个模型」拉向了「哪个 Agent 能最好地完成我的任务」。这不仅会重塑产品形态,更将深刻改变 AI 的商业模式。
我认为,未来 Agent 生态可能会闭源与开源并行的商业发展路径。
路径 1:闭源 Agent 生态
部分模型厂商将不再提供模型接口,而是直接提供 Agent 接口。Alexander Doria 和 Naveen Rao(Databricks 副总裁)前段时间发表了相同的观点,并且给出了明确的时间周期:只需要 2-3 年,甚至更快。
传言已久的 GPT-5,或许就会以这种形态出现,把 LLM 和工具直接封装在一起。
在基础模型通用能力提升有限的情况下,通过对特定工具使用的训练,来提高最终完成任务的效果。这样做还可以通过用户现实任务的反馈,不断地强化模型能力,形成数据飞轮。
路径 2:开源 Agent 生态
另一部分模型厂商(尤其是开源模型厂商,比如 DeepSeek 等)则将联合广大的开发者社区,共同构建一个开放、多元的 Agent 生态。
Agent 开发门槛一定会远低于传统软件,这使得更多普通人也能参与其中,融合自己的独特经验来开发出各种各样的 Agent,满足海量的长尾需求。
Agens 开源与闭源生态之争,开始了
一边是闭源巨头用数据飞轮形成规模化效应,一边是人民群众为开源社区贡献出自己的独特经验。这一定会是一个史无前例的巨大市场。
8. 总结
让我们再次回到本文的核心:Agent = LLM + Tools
- AI 通过调用工具获得了与现实世界交互的能力,再通过交互反馈实现自我循环并完成任务。这就是 Agent 最核心的本质。控制 AI 自我循环的代码,就是 Agent 框架。Multi-Agent 系统因其在复杂任务上的可控性和可靠性优势,将是现阶段的主流架构。进入 Agent 时代,AI 使用量将指数级的上涨,AI 产品的形态会发生变化,同时也将开启垂直 Agent 生态的浪潮。Agent 会出现闭源生态和开源生态,共同催生出一个史无前例的巨大市场。
Agent 是一种新的 Scaling Law。
数千年人类发展史,我们个体智力的增长早已趋于平缓,但人类文明整体科技水平却在加速进步。这背后关键的驱动力,正是人类学会了使用工具,学会了大规模协作。
很有可能,我们创造的硅基智慧,正在经历着一模一样的进化历程。
本系列推荐
官方资料
- OpenAI | A practical guide to building agents (2025.4): https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf | 中文版Google | Agents (2024.12): https://www.kaggle.com/whitepaper-agents | 中文版Anthropic | Building effective agents (2024.10): https://www.anthropic.com/engineering/building-effective-agents | 中文版Lilian Weng | LLM Powered Autonomous Agents (2023.6): https://lilianweng.github.io/posts/2023-06-23-agent | 中文版
推荐阅读
- Shunyu Yao | The Second Half (2025.4): https://ysymyth.github.io/The-Second-Half | 中文版David Silver, Richard Sutton | Welcome to the Era of Experience (2025.4): https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf | 中文版LangChain | How to think about agent frameworks (2025.4): https://blog.langchain.dev/how-to-think-about-agent-frameworks | 中文版Windsurf | What is an Agent? (2025.4): https://windsurf.com/blog/what-is-an-agent | 中文版Latent Space | Agent Engineering (2025.3): https://www.latent.space/p/agentWeaviate | What Are Agentic Workflows? Patterns, Use Cases, Examples, and More (2025.3): https://weaviate.io/blog/what-are-agentic-workflows | 中文版TechCrunch | No one knows what the hell an AI agent is (2025.3): https://techcrunch.com/2025/03/14/no-one-knows-what-the-hell-an-ai-agent-is | 中文版Alexander Doria | Actual LLM agents are coming. They will be trained (2025.3): https://vintagedata.org/blog/posts/designing-llm-agentsAlexander Doria | The Model is the Product (2025.3): https://vintagedata.org/blog/posts/model-is-the-product | 中文版李宏毅 | Al Agent (2025.3): https://www.youtube.com/watch?v=M2Yg1kwPpts | 中文版Bloomberg | OpenAI Scale Ranks Progress Toward ‘Human-Level’ Problem Solving (2024.7): https://www.bloomberg.com/news/articles/2024-07-11/openai-sets-levels-to-track-progress-toward-superintelligent-aiRichard S. Sutton | The Bitter Lesson(苦涩的教训) (2019.3): http://www.incompleteideas.net/IncIdeas/BitterLesson.html | 中文版
