夕小瑶科技说 09月17日
GPT-5 Codex:智能工程体,革新代码开发流程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了GPT-5 Codex,一个强大的“工程智能体”,它不再局限于代码生成,而是能够独立完成项目搭建、测试、bug修复、PR提交等一系列开发任务,并能连续工作七小时。Codex在SWE-bench基准测试中表现稳定,尤其在代码重构方面,成功率大幅提升。其核心优势在于能够根据任务复杂度动态分配计算资源,小任务快速处理,复杂任务投入更多精力进行推理和迭代。在代码审查方面,Codex的错误建议率显著降低,高价值建议比例提升。Codex已集成至ChatGPT订阅计划,并支持通过CLI、IDE插件、网页端及GitHub等多种方式调用,标志着Agent AI从产品功能向开发流程的转变。

🚀 **强大的工程智能体能力**:GPT-5 Codex 已从基础的代码生成器进化为全能的“工程智能体”,能够自主完成从项目搭建、运行测试、修复 Bug 到提交 Pull Request 的 entire development lifecycle。它支持连续独立工作长达七小时,极大地提升了软件开发的自动化程度和效率。

💡 **智能资源分配与动态思维**:Codex 的一项关键创新是其动态思维能力,能够根据任务的复杂度智能分配计算资源。对于简单任务,它能显著减少计算量;而在处理复杂代码重构或大型项目时,它会投入更多 token 来进行深入的逻辑推理、代码编辑和测试迭代,确保高质量的输出。

✅ **提升代码质量与审查效率**:在软件开发的关键环节——代码审查方面,Codex 表现出卓越的能力。其错误建议比例大幅降低,高价值建议比例显著提高,平均每个 PR 的留言数量也更精炼,这意味着它能提供更准确、更有价值的反馈,从而节省大量人工审查时间和精力。

🌐 **无缝集成与多场景可用性**:Codex 已深度集成到开发者常用的工具链中,支持通过命令行 (CLI)、IDE 插件 (如 VS Code)、网页端以及 GitHub 等多种方式调用。无论开发者身处何种开发环境,都能随时随地调用 Codex,实现无缝的代码辅助和流程自动化。

💰 **灵活的订阅与使用模式**:Codex 已包含在 ChatGPT 的各项订阅计划中,包括 Plus、Pro、Business 和 Enterprise。用户可以根据自身需求选择不同的订阅级别,并拥有相应的本地和云端任务使用额度,对于需要额外扩容的企业用户,也提供积分购买或共享池的灵活选项。

原创 R.Zen 2025-09-16 15:44 北京

凌晨一点,OpenAI 发布了 GPT-5-Codex,但这次,所有想调用 API 的开发者可能要失望了。

OpenAI 做了一个决定:Codex 并不通过 API 开放。

你不能靠 key 来偷偷调用 GPT-5-Codex 模型,只能通过 CLI、IDE 插件或者 Codex 网页端来用。

它的任务很简单:替你干活。

Codex 这次不再局限于写几行代码,而是从你提需求那一刻起,它会自己搭项目、跑测试、修 bug、贴截图、提 PR。一口气干完,而且能连续独立执行七小时不间断。

Codex 从 GPT-3 时代就有了雏形,但这次的 GPT-5-Codex,是 OpenAI 第一次把它变成了一个真正能交付的「工程智能体」。

跑分

GPT-5-Codex 到底有多强?可以先看几组跑分。

在基准测试 SWE-bench 里,Codex 的通过率从 GPT-5 的 72.8% 提高到了 74.5%。这提升不算夸张,但足够稳定,说明它在“修 Bug、补功能、读文档”这些传统任务上,更可靠了。

但一旦涉及到代码重构,差距就突然拉开了。

同样是让模型去处理大型代码库里的结构改造任务,GPT-5 的成功率只有 33.9%,而 Codex 做到了 51.3%。提升接近 20 个点。这种任务跟“写段小函数”完全不同,需要上下文联动、理解依赖关系、一步步通关调试。

Codex 的训练重点,显然押在了这里。

最值得我们注意的是这张图,GPT-5-Codex 是如何具有动态思维的 (统计 Codex 在不同任务复杂度下花了多少 token,相当于“模型输出量”)。

OpenAI 用自家员工使用 Codex CLI 的大量数据做了分析,把各级复杂度任务的 token 用量抽象分成百分位曲线,最后得到这样的结论:

在最简单的前 10% 任务中,GPT-5-Codex 一切从简处,比 GPT-5 少花了 93.7% 的计算量;

而在最复杂的后 10% 任务中,Codex 选择拿出加倍资源。比 GPT-5 多花了 102.2% 的 token,来做逻辑推理、编辑、运行测试和迭代。

换句话说,小任务快速,输出少;复杂大项目花更多时间思考和执行。这才是工程智能体该有的样子。

如果你团队是重度依赖代码审查的,Codex 还能省下不少人工精力。

官方对 Codex 的审查能力也做了测评。用三组数据说话:

    错误建议比例:GPT-5 的错误率是 13.7%,Codex 降到了 4.4%;

    高价值建议比例:GPT-5 只有 39.4%,Codex 提升到了 52.4%;

    平均每个 PR 留言数量:GPT-5 是 1.32 条,Codex 变成 0.93 条。少说废话,多讲重点。

这套测试成绩背后的意义是什么?

并不是 Codex 拿了个更好的 Benchmark 成绩,而是它证明了 Agent 式 AI 的三件事

    它可以按任务复杂度分配时间;

    它可以读懂系统级的上下文;

    它能输出“工程意义上的结果”,不是看起来漂亮的代码片段,而是真正能跑、能测、能合并进主分支的代码。

这也是为什么 OpenAI 说:“我们推荐把 Codex 只用在 Codex 系统里”。

使用规则

现在,Codex 已经打通了所有你可能写代码的地方——终端、IDE、网页端、GitHub,甚至 ChatGPT 的手机 App。无论你在哪写代码,它都能跟上节奏,随时接活。

他们还对 Codex 进行了更新。

CLI 体验更新了 UI,支持附加截图、线程图、上传设计格式了,展示工作进度和交互记录都更精细。它会在复杂任务中创建待办列表,自动进行环境搭建和依赖分析,环境初始化和 pip install 这类操作也能当场自动执行。

IDE 插件支持 VS Code、Cursor 和各种分支版,你打开一个文件,Codex 就知道你在搞啥。当场进行代码进行编辑,不用重复解释 prompt。编辑器里直接跳转到云任务,所有上下文不会丢。

云代理 Codex Cloud 则是最能打达自动化效率上限的部分:它能跟开浏览器,看自己生成的网页或 UI 页面,根据你给的截图进行返回渲染。如果需要,它会把运行结果的截图和日志展示给你,并提交到 GitHub PR。

价格

Codex 已经整合进了 ChatGPT 的全套订阅计划里,从 Plus 到 Pro,从 Business 到 Enterprise 都包含。

使用次数是有上限的,但给得不算少。

比如 Plus 用户,每 5 小时可以跑 30 到 150 次本地任务,一周内有总量限制。Pro 用户能跑得更多,大概是每 5 小时支持 300 到 1500 次左右的本地调用,还带“云端任务特批额度”。

Business 和 Edu 版本,如果需要额外扩容,可以单独买积分;Enterprise 则干脆按共享池走,用多少算多少。

Codex 不是第一个做 Agent 编程的公司,也不会是最后一个。但这可能是第一次,有人把 Agent 从“产品功能”变成了“开发流程”。

现在,就看我们敢不敢把一部分真实的项目,交给它了。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 Codex AI编程 工程智能体 代码开发 OpenAI 自动化 软件工程 GPT-5 Codex AI Programming Engineering Agent Code Development OpenAI Automation Software Engineering
相关文章