index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
GPT-5的发布标志着ChatGPT产品线的重要升级,其Routing能力整合了产品线,带来UX革新,并强调实用性和生产力,从“朋友”转向“助手”。Vibe coding和reasoning能力显著提升,API支持自定义工具。然而,Agentic能力未见明显进步,对话“人味”减弱,指令跟随不如Claude。GPT-5并非单一模型,而是Router驱动的系统,旨在优化成本和用户体验。在价格战中,GPT-5对标Gemini 2.5,成为Claude 4的有力竞争者。其Tool Use能力是亮点,支持free-form function calling和Parallel tool calling,为AI智能发展打开新想象空间,但长期领先仍需Agentic能力的突破。
💡 **GPT-5定位转变与核心能力提升:** GPT-5被视为ChatGPT产品线的一次重要升级,其核心在于从“朋友”定位转向“助手”定位,更加强调实用性和生产力。通过引入Routing能力,实现了产品线的统一和用户体验的革新。在模型能力方面,Vibe coding(代码生成与调试辅助)和reasoning(推理)能力得到了显著提升,使得AI在解决现实用例中的卡点问题更加高效可靠。API新增了自定义工具支持,为开发者提供了更大的灵活性。
⚠️ **Agentic能力与用户体验的短板:** 尽管GPT-5在实用性上有所突破,但在Agentic能力方面,如复杂的Agentic coding任务和深度研究的表现,相较于竞争对手如Claude 4,进步并不明显。同时,GPT-5的对话风格“人味”有所减弱,指令跟随能力在复杂指令下也存在被忽略的情况,这可能影响了部分用户,特别是习惯了GPT-4o的用户的使用体验。
⚙️ **Router驱动的系统与商业策略:** GPT-5并非单一模型,而是一个由Router(路由器)驱动的系统,能够根据问题复杂度动态选择最优模型。这种设计有助于优化成本,并在商业上采取类似Apple的“单一旗舰产品”策略,以占据用户心智。在价格策略上,GPT-5采取了极具竞争力的定价,对标Gemini 2.5,旨在挑战Claude 4的高端定位,并通过更低价格的GPT-5 mini吸引更广泛用户。
🛠️ **Tool Use的创新与未来展望:** GPT-5在Tool Use(工具使用)方面展现了极大的潜力,支持free-form function calling和Parallel tool calling,使其能够像子代理一样独立理解意图并完成任务。这种设计摆脱了对严格JSON schema的依赖,使得模型调用工具更加自然和灵活。虽然目前在Agentic能力上仍有不足,但Tool Use的进步为OpenAI的长期领先奠定了基础,有望成为新的AI工作空间入口。
原创 Cage,GPT-5 2025-08-12 20:01 广东
前沿技术减速,商业渗透加速?

作者:Cage, GPT-5Insight 01如何评价 OpenAI,决定了如何评价 GPT-5如果把 OpenAI 当作已经成功破圈的 10 亿 MAU 大众产品公司:• GPT-5是一次 ChatGPT 产品的重要升级。Routing 能力的加入帮助 ChatGPT 模型第一次把产品线捋顺统一,是 UX 交互的一次重要革新。就像 Apple 决定只推出一款 iPhone 产品线,短期用户可能被迫适应 GPT-5 这个旗舰产品的优缺点,但长期更容易占领用户心智。•GPT-5 的模型能力强调实用性和生产力,标志着 ChatGPT 产品正在从 “朋友”走向“助手”。Vibe coding 的能力相比前代模型大幅度提升,reasoning model 也变得更可靠、高效。• GPT-5 引导着 AI 推理的算力需求继续增加。一旦推动更多普通用户、非技术企业的使用习惯向 reasoning model + vibe coding 迁移,会出现更多高 token cost 的推理任务。如果仍把 OpenAI 看作“追逐 AGI 技术范式的实验室”:• 这次发布看不到明确的范式升级,也没有解锁更高经济价值的新任务类型。• Router 没有内化到同一个模型中,这个进度有些低于预期。Scaling Law 告诉我们模块化系统的智能程度一定不如端到端模型。• 对 SOTA 模型做 vibe check 需要更长时间的体验和观察,去多维度、高频交互,就像结识了一个新朋友。未来一定有初创公司基于 GPT-5 降本、解锁新场景,这部分影响需要时间与规模化验证。这两个视角差异的背后其实是 OpenAI 在最近一年的蜕变:ChatGPT 是 To C 最好的智能产品品牌,他们正在从一个 research lab 公司转变为一个产品平台公司。近半年 ChatGPT 的增速显著加快、用户使用习惯开始泛化、使用粘性也开始增加,这代表着产品开始逃离传统增长困境的引力(escape velocity)、真正破圈走向大众,有了下一个 Google 的影子。因此我们会更希望 OpenAI 作为产品公司的视角来评价 GPT-5。Insight 02GPT-5 是精通现有场景的 Everything Model,但不是次世代 Agentic Model经过这几天的 vibe check,我们能感受到多数场景下,AI 的任务完成度都有一定提升,不是那种“上手即惊艳的智力飞跃”,但是真正解决了许多现实 use case 的卡点。GPT-5 有几个明显的能力提升:• Vibe coding 提升幅度大;在复杂问题上仍不及 Claude Opus 4.1 / Sonnet 4,但性价比极高,能平替大量基础任务。• Reasoning 的效率与效果较 o3 明显提升,长上下文 / 工具使用比前代更稳。• API 支持自定义工具,能定义高灵活度的 tool-use 工具集。也有一些明显的短板:• Agentic 能力体感没有明显进步,Claude Code 类 agentic coding 任务明显不如 Claude 4,Deep Research 的表现似乎也略有下降。•GPT-4o 式有“人味”和情感的对话在 GPT-5 上明显减弱,许多用户希望线上长期保留 4o / 4.5。主要原因可能是 routing system 的加入、 hallucanation 的降低还有 coding 数据比例的增加,后文会展开讨论。• 指令跟随(instruction following) 不如 Claude,尤其在 Cursor 这类环境比较明显,复杂指令中一部分要求容易被忽略。Insight 03GPT-5 不是单一模型,而是一个 Router 驱动的系统Router (路由器)能按用户给的问题复杂度与 prompt 信号,动态选择不同模型的智力水平、思考深度。用户可以说 think harder 来提示 router 用更深度的思考。Router 本身是个小模型,利用历史用户行为数据(如切换模型的时机、对回答的偏好/正确性)进行训练。随着 GPT-5 用户数据的积累,router 的模型选择能力会很快优化提升上去。未来 ChatGPT 计划会把 Router 合入同一个模型。目前仍未统一,这一进度是低于预期的。毕竟 Scaling Law 告诉我们 end-to-end model 比 cascade model 更智能。Routing 系统和用户抱怨的对话体验差相关性挺高,4o 重度用户使用起来容易不习惯:1/ 对于陪伴型用户,同时与多个“人格”对话,可能出现风格不统一;2/ 对于效率型用户,复杂问题若未被路由到 reasoning model,更容易出现幻觉。Routing 系统带来的商业影响有些类似 Apple 做手机的路径:只做一款产品,用户需要被迫接受一款单一的产品。但商业上这样有助于把成本优化做到更极致,长期的用户心智更容易占领。这一点明显比 Google Gemini 选择的多产品线(AI Mode, AI Overview, NotebookLM, Project Astra, Project Mariner, ...)并存更好。Insight 04下场 API 价格战,价格上对标 Gemini 2.5,做 Claude 4 killer伴随着 Anthropic API 收入超过 OpenAI 的消息,GPT-5 下场开始打价格战,用性价比挑战 Claude 4 的高端模型定位。• 旗舰模型价格对比:GPT-5 定价与 Gemini 2.5 Pro 持平,是 Sonnet 4 的一半、Opus 4 的十分之一,比 4o 还便宜。• 平价模型价格对比: Gemini 2.5 Flash 是 AI Coding 开发者之前最喜欢的平替模型,而 GPT-5 mini 更便宜。Insight 05相比 Coding Agent,GPT-5 更适合做 Vibe Coding24年6月 Claude 3.5 Sonnet 发布以来,Vibe Coding 在这一年成了 AI 能力应用的主航道,OpenAI 终于追上来了。我们测试和阅读开发者体验后,确信 GPT-5 的 coding 能力确实比前代模型提升很大,但更多是面向 Cursor 这样的 Pair Programming 产品使用,而不是为 Claude Code 这样的 Agentic Coding 产品设计的。GPT-5 Coding 上的优点是非常适合做 Pair Programmer,在 IDE 中配合进行迭代式开发 / Debug 体验的体验很不错。对应的缺点就是 GPT-5 还不够适合 Agentic Coding。对比 Claude Code(Opus 4.1),GPT-5 写代码更谨慎,对长代码/长时间执行的任务不够放得开。尽管 GPT-5 在 SWE-Bench 上的成绩为 74.9%,甚至略高于 Claude Opus 4.1 的 74.5%,但我们会认为 GPT-5 目前更像追平 Sonnet 3.7,而非对标 Opus 4.1。来自 Dan Shipper 的一个测试案例能比较生动地展示这个特点,他要求各个 Coding Model 做一个“地球生态气候系统模拟”的小游戏:• Gemini 和 o3 完成度很低,基本没跑起来;• GPT-5 顺利完成了,但是看起来很无趣,更像一个模拟系统,需要用户再去交互、进一步协同修改;GPT-5 完成的小游戏• Opus 4.1 one shot 完成了整个任务,并且 gameplay 上明显比 GPT-5 更好,加入了一定的用户 feature 和资源系统Claude Opus 4.1 完成的小游戏 (source https://every.to/vibe-check/gpt-5)
相比与 Claude 竞争专业开发者(professional developer)的尖端需求,ChatGPT 可能更适合切入类似 Lovable 的 vibe coding 平台去做泛大众开发者(citizen developer)的 vibe coding 需求。一个值得思考的问题是:考虑到 ChatGPT 10 亿月活的用户体量,这次是否有机会把 vibe coding 需求推到新的高度?我们认为OpenAI 其实有机会基于 coding + 用户泛化来做一个生成式软件的平台,这能成为新的 AI workspace 入口。Insight 06Reasoning 能力的进步和产品化正在扩散Sam 在推文中提到普通用户的 reasoning model 使用率正在从不到 1% 提升到 7%,plus 用户从 7% 提升到 24%。传统企业用户使用最多的其实也是 4o 模型,可以给 reasoning model 扩散的空间还很大。这其中一方面归功于 routing 能力带来的渗透率增加,另一方面值得关注的地方在于,reasoning 能力这次有两个重要进步:不是花哨的前沿解题能力提升,但是在应用中更加使用。• 幻觉显著优化:早期 o3 的 RL reward hacking 会导致“谎称任务完成/对不确定答案过度自信”。GPT-5 大幅缓解了这一点:在 CharXiv 多模态基准中,把 prompt 里的所有图片移除,o3 在 86.7% 情况下仍“自信回答”并不存在的图片问题,而这一情况在 GPT-5 仅占 9%。• 推理效率更高:在优于 o3 的同时,token 成本下降 50–80%。API 中也设置了参数可以支持 low / medium / high 三档推理强度(GPT-5 API 中也有 routing 机制,开发者可以选择看到模型 thinking trace)。Insight 07Tool use:最有想象力的更新,模型智能进入石器时代?人类会使用工具,这是人类智能和动物最大的差异。对于机器智能而言,tool use 同样重要,GPT-5 是一个不错的开始。这次 GPT-5 的发布强调了 tool use 能力的优化:GPT-5 不满足于 get_weather(address) 这类窄工具。它偏好开放式、可组合、以自然语言为输入的工具——能“1+1>2”,像子代理(sub-agent)一样独立理解意图并完成任务。当我们说工具的时候,通常包含了这样四类:Internal Retrieval(RAG、SQL),Web Search(比前一种检索更开放)、Code Interpreter(沙箱代码执行与数据处理)、Actions(一切对环境产生改变的操作,比如点击 UI、修改文件等)。过去这几类工具都需要严格的 JSON schema 设计,而 GPT-5 支持了更自由的调用接口,发布中成为 free-form function calling。 这个更新让模型不再强依赖“严格 JSON schema + 精确槽位填充”,而是先给出自然语言级的工具意图(包括基础的工具名/动词/关键参数),由小模型去解析和执行。另一个重要的更新方向是 Parallel tool calling:这个功能之前在 Claude、Qwen 的技术报告中都涉及过,GPT-5 在智能程度上进了一步,还能判断哪些该并行、哪些该串行,这样未来有机会解锁更长的任务链。说到这里其实会发现 GPT-5 的 tool use 设计思路比较接近 Claude Code:free-form function calling 类似于一种 subagent 设计,parellel tool calling 也在 Claude Code 中出现过。本文的大部分篇幅着墨于 GPT-5 在现有任务上是如何成为一个实用、优秀的 everything model,OpenAI 的产品化战略是如何体现在 GPT-5 发布中的。但 OpenAI 长期要保持领先的身位优势,Agentic 能力一定是不能落下的。这次 tool use 是一个不错的探索方向,我们期待 GPT-5 的后续演进上有更多这样的亮点。排版:夏悦涵延伸阅读Default Alive:警惕 AI 公司“亏损死亡螺旋”| AGIX PM Notes
Chatbot 落幕,企业 LLM 才是 AGI 关键战场|AGIX PM Notes
对谈 Pokee CEO 朱哲清:RL-native 的 Agent 系统应该长什么样?|Best Minds
Figma:年度最火 IPO,设计与代码生成一体化的最佳选手
阅读原文
跳转微信打开