刘高畅/李可夫 2025-08-10 14:16 上海
自定义Agent利好算力,低幻觉利好2B应用

🌟GPT-5的编程能力提高,降低了大众通过AI编程开发Agent的门槛,使得不具备编程背景的用户也能为自己高度特定的个人及工作任务,构建和部署定制化的AI Agent。
🛡️GPT-5的幻觉显著下降,提高了Agent的可靠性,尤其在一些高风险领域,模型出现幻觉可能造成严重后果。
🛠️GPT-5的工具调用能力提升,能完成更复杂任务,Agent执行中可能需要与多个API、数据库或内部系统交互,GPT-5能帮助Agent完成更复杂任务。
📈GPT-5高达400K上下文窗口+多模态升级,Agent能处理更长任务更大量数据,例如一次性分析一份完整的、冗长的法律合同或财务报告。
💰GPT-5推理效率提高与API降价,Agent经济性价比提升,复杂的Agent工作流通常涉及大量且冗长的LLM调用,模型成本也是影响Agent落地的重要因素。
刘高畅/李可夫 2025-08-10 14:16 上海
自定义Agent利好算力,低幻觉利好2B应用
OpenAI于8月7日发布GPT-5。GPT-5 是一个统一的系统,它包含一个能够解答大多数问题的智能高效模型、一个能够解决更复杂问题的更深层次的推理模型(GPT-5 thingking),以及一个实时路由器,可以根据对话类型、复杂度、工具需求以及用户的明确意图选择模型。GPT-5的综合能力全面提升,具体而言,GPT-5的突出进步包括如下方面:编码能力大幅提升。GPT-5在复杂的前端生成和大型代码库的调试方面表现出色, 通常只需一次提示就能创建美观且响应迅速的网站、应用程序和游戏。
图表1:GPT-5创建的网页小游戏
资料来源:OpenAI,国盛证券研究所
图表2:GPT-5创建的绘画工具
资料来源:OpenAI,国盛证券研究所
幻觉率大幅降低。GPT-5产生幻觉的可能性显著低于OpenAI之前的模型。在 ChatGPT 生产流量中代表匿名提示的网页搜索中,GPT-5 的响应包含事实错误的可能性比GPT-4o 低约 45%;在思考时,GPT-5 的响应包含事实错误的可能性比 OpenAI o3 低约 80%。
图表3:GPT-5幻觉率相比o3大幅降低
资料来源:OpenAI,国盛证券研究所
健康领域表现优异。GPT-5在HealthBench 上的得分明显高于任何先前的模型。HealthBench是OpenAI今年早些时候基于现实场景和医生定义的标准发布的评估。与之前的模型相比,GPT-5更像是一个积极的思想伙伴,主动标记潜在顾虑并提出问题以提供更有用的答案。
更快更高效的思考。GPT-5 从更少的思考时间中获得更多价值,在视觉推理、代理编码和研究生水平的科学问题解决等各个功能中的输出token相比 OpenAI o3减少了 50-80%。
上下文长度增加,在API中所有GPT5 模型最多可接受 272k个输入token,并生成最多 128k个推理及输出token,总上下文长度为400k个token。在一系列多模态基准测试中表现出色,涵盖视觉推理、视频推理、空间推理和科学推理。更强大的多模态性能意味着 ChatGPT 能够更准确地对图像和其他非文本输入进行推理——无论是解读图表、总结演示文稿照片,还是回答有关图表的问题。
工具调用能力进步。GPT5在遵循工具指令、处理工具错误以及自主实现串行或并行的多工具调用方面表现更佳。两个月前,Sierra.ai 发布了τ2-bench telecom 测试基准,作为高难度工具使用评估体系,重点揭示了语言模型在用户可变更环境状态下的性能显著衰减现象。此前所有参评模型的得分均未超过49%,而 GPT5 的得分为 97%。
模型价格有竞争力,GPT-5在各项能力提升的同时,API价格相对业内其他顶尖模型有显著优势:
图表4:模型API价格
模型输入价格(美元/百万token)输出价格(美元/百万token)GPT-51.2510GPT-5 mini0.252GPT-5 nano0.050.4Gemini 2.5 pro(prompts <= 200k tokens)1.25 10Gemini 2.5 pro(prompts > 200k tokens)2.515Claude Opus 4.11575Claude Sonnet 4315Claude Haiku 3.50.84资料来源:OpenAI,Google,Anthropic,国盛证券研究所
GPT-5最受益的方向是自定义Agent
能够自主规划和执行任务的AI Agent是当下产业热点。然而在Agent实际落地过程中依然存在多种问题,GPT-5的提升大幅降低了Agent落地的门槛,提高了可用性。GPT-5 把更低幻觉、更强工具使用、更长上下文和更高性价比的推理打包到一套统一系统里,因此我们认为GPT-5最利好的方向是各类自定义Agent,具体展开理由有下:1)编程能力提高,降低Agent开发门槛编程语言用简洁、优雅的语法和语义规则,定义清晰明确的指令,让计算机完成各种任务。代码是数字世界的基础生产力工具。GPT-5的编程能力提高,进一步降低了大众通过AI编程开发Agent的门槛。
2) 幻觉显著下降,Agent可靠性跃升。大模型的幻觉问题是Agent的一大障碍,尤其在一些高风险领域模型出现幻觉可能造成严重后果。GPT-5的幻觉显著下降提高了Agent的可靠性。
3) 工具调用能力提升,能完成更复杂任务。Agent执行中可能需要与多个API、数据库或内部系统交互,例如,一个旅行Agent可能在一次任务中需要查询航班API、酒店API和用户日历,然后综合结果这项任务在使用旧模型时常常会失败。GPT-5工具调用能力提升,在遵循工具指令、处理工具错误以及自主实现串行或并行的多工具调用方面表现更佳。能帮助Agen完成更复杂任务。
4)400K上下文+多模态升级,Agent能处理更长任务更大量数据。建立在有限上下文窗口模型之上的Agent,无法处理长期任务、记住过往交互或消化大型文档,它们会忘记关键信息,迫使用户不断重复,从而中断复杂的工作流程。GPT-5配备了高达400k的上下文窗口,可以解锁更多以前难以实现的用例:
·Agent可以一次性分析一份完整的、冗长的法律合同或财务报告。
·软件开发Agent在修复错误时可以理解整个代码仓库的上下文 。
·客户服务Agent可以回顾客户的完整交互历史,以提供真正个性化的支持 。
同时GPT-5在多模态上全面提升,也让Agent可以处理更多类型的复杂数据,大幅提高可用性。
5)推理效率提高与API降价,Agent经济性价比提升
复杂的Agent工作流通常涉及大量且冗长的LLM调用,模型成本也是影响Agent落地的重要因素。GPT-5与o3相比在各种推理任务中使用的输出token减少了50-80%。这使得Agent工作流更快、更便宜。简单的查询可以获得近乎即时、低成本的响应,而复杂的任务则能获得必要的计算资源,用户或开发者无需手动切换模型。这种智能的资源分配是实现大规模部署Agent而又不致成本失控的关键。在API定价方面,OpenAI也采取了和Gemini或Claude相比极具竞争力的策略,这让Agent的性价比大幅提高。
未来有三种Agent:自己给自己做Agent、厂商给用户做Agent、单位给员工做 Agent
我们认为未来有Agent的形式有三种:用户个人自制的Agent、模型厂商驱动的通用Agent和企业定制的Agent:
图表5:Agent的落地形式
资料来源:国盛证券研究所绘制
1)用户给自己做Agent:AI Agent革命的一个重要趋势是AI带来的技术普惠。借助一系列强大的无代码/低代码平台,不具备编程背景的个人用户也能为自己高度特定的个人及工作任务,构建和部署定制化的AI Agent。这标志着一个新时代的到来:自动化不再是大型企业的专属,而是成为人人可及的个性化工具。
据市场研究机构Straits Research数据,2024年全球无代码AI平台的市场规模为 36.8 亿美元,预计到 2025 年将达到 47.7 亿美元,到 2033 年将达到 379.6 亿美元,在预测期间(2025-2033 年)以 29.6% 的复合年增长率增长。例如字节的扣子开发平台可以帮助用户零基础进行Agent 专业开发,OpenAI推出的GPTs让用户可以自己创建结合了指令、额外知识和任何技能组合的自定义版本的 ChatGPT。
Lovable公司通过其AI驱动的应用程序构建平台,Lovable让非技术背景的用户也能创建功能性软件,如电商网站等。今日头条2025年5月报道Lovable团队规模仅18人,于短短6个月内实现了5000万美元的ARR。
图表6:Lovable平台上的大量AI创作项目
资料来源:Lovable官网,国盛证券研究所
蓝鲸新闻2025年6月30日报道,前月之暗面核心产品的领航者明超平所创立的AI编程新项目“新言意码”成功完成了新一轮融资。其核心产品YouWare面向的是不会写代码、但具有创作需求的群体,比如设计师、内容创作者、产品经理等。YouWare 已初步搭建起一个围绕创意生成的轻编程社区,设有“产品展示”“交流创意”“二创项目”等功能板块。截至5月中旬,平台上的创作项目已达数十万。
图表7:YouWare平台上的大量AI创作项目
资料来源:YouWare官网,国盛证券研究所
2)厂商给用户做Agent全球顶尖的科技巨头,正在投入巨资,构建功能强大、应用广泛的通用C端Agent。它们的战略目标并非解决某个单一任务,而是要成为用户不可或缺的“生活操作系统”。例如OpenAI在7月17日发布的ChatGPT Agent,可通过其自有虚拟计算机为用户处理复杂任务,具备自主思考与行动的能力,能够主动从其智能体技能库中选择合适的工具,利用网络完成任务,包括深入的财务研究、填写在线表格、制作幻灯片等。通过工具下拉菜单选择“智能体模式”即可激活功能,虚拟机会实时展示 ChatGPT 的具体操作流程,用户可随时中断并接管浏览器操作。
图表8:ChatGPT Agent在虚拟机中工作
资料来源:OpenAI,国盛证券研究所
字节旗下Agent应用“扣子空间”,字节定义为是精通各项技能的“通用实习生”与各行业的“领域专家”,具备无限拓展能力的 AI Agent。
图表9:扣子空间
资料来源:扣子空间,国盛证券研究所
百度发布的智能体APP“心响”是通用超级智能体,超给力的AI指挥官,多智能体协作、自主任务规划、多形态交付结果,用户仅需一句话即可一键完成复杂任务。
图表10:百度心响APP
资料来源:百度官网,国盛证券研究所
3)单位给员工做 AgentAgent的第三种形式,是在企业内部的部署,Agent不再仅仅是个人工具,而是作为强大的“数字同事”或“数字员工”,与人类员工并肩工作。它们旨在增强员工的专业能力、自动化复杂的业务工作流,带来可衡量的投资回报(ROI)。尤其是垂直的行业Agent,在这里,Agent不再是通才,而是被训练成特定行业的“领域专家”,拥有深厚的专业知识。例如今日头条报道Toma凭借针对汽车经销商的AI Agent拿到a16z领投的1700万美元。汽车经销商长期受电话漏接、客服高流失率等问题困扰,客户体验和业务发展受限。Toma公司凭借独特AI语音技术,为每家经销商定制专属AI代理,实现高效电话处理和优质客户服务。具体案例中一个经销商集团拥有40人的集中式BDC团队,在使用Toma后,AI承担了约50%的来电量,用节省下来的时间进行了比以往历史上多6倍的主动外呼。
除了将Agent分为三类以外,我们还认为Agent落地的三大要素分别是数据、模型、接口:1)垂类数据是Agent能力拓展到各行业的关键。2)基础大模型的能力提升是Agent进步的核心动力。3)Agent需要通过各类接口与外部系统交互,获取上下文或执行操作,也即使用工具扩展Agent能力。
图表11:Agent的要素包括模型、数据、接口
资料来源:国盛证券研究所绘制
综上我们认为,GPT-5的能力全面进步是顶尖大模型的重大突破,将大幅利好各类Agent加速落地,其中编程能力的提升极大利好用户自定义Agent的推广渗透,进一步会带来广泛的算力需求,幻觉降低尤其有利于严肃2B场景Agent。
建议关注
05
风险提示
技术迭代不及预期风险:若技术迭代不及预期,则对产业链相关公司会造成一定不利影响。
经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。
行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。
具体分析详见2025年8月10日发布的报告《GPT-5最受益的方向:自定义Agent》
特别声明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。
重要声明:本订阅号是国盛证券计算机团队设立的。本订阅号不是国盛计算机团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断,相关的分析意见及推测可在不发出通知的情形下做出更改,读者参考时还须及时跟踪后续最新的研究进展。
本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见,普通的个人投资者若使用本资料,有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义,进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主作出投资决策并自行承担投资风险。
版权所有,未经许可禁止转载或传播。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑