Z Potentials 09月12日
GPT-5智能水平提升,连接智能与现实应用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

GPT-5在智能水平上实现了显著提升,开始触及真正的深度认知领域。它不仅具备广泛商业应用能力,更能在IMO等极端困难领域展现出与最优秀人类媲美的证明能力。GPT-5突破了GPT-4在思想深度上的不足,展现出更强的推理能力和解决问题的可靠性。Greg Brockman强调,OpenAI的核心任务不仅是提升智能水平,更在于如何将智能与现实应用连接,让模型突破舒适区与象牙塔,真正接触并理解现实世界的复杂性与多样性。

🌟 GPT-5在智能水平上实现了显著提升,开始在IMO等极端困难领域展现出与最优秀人类媲美的证明能力,突破了GPT-4在思想深度上的不足。

🔗 OpenAI的核心任务不仅是提升智能水平,更在于如何将智能与现实应用连接,让模型突破舒适区与象牙塔,真正接触并理解现实世界的复杂性与多样性。

🚀 GPT-5的突破在于智能开始触及真正的深度认知领域,展现出更强的推理能力和解决问题的可靠性,为智能与现实应用的连接奠定了基础。

Latent Space 2025-09-06 12:39 北京

“我们聚焦的核心不仅是提升智能水平,更在于如何将智能与现实应用连接——让模型突破舒适区与象牙塔,真正接触并理解现实世界的复杂性与多样性。”

图片来源:Latent Space

Z Hightlights

从根本上说,瓶颈始终是算力。如果我们获得更多算力,就一定能找到充分发挥其价值的迭代方法。

如果从未进行过物理实验,或实际尝试混合化学试剂等操作,模型自然无法神奇地掌握这些技能——这正揭示了泛化能力的局限性:某些领域确实需要真实世界的实践经验。

GPT-4虽具备广泛商业应用能力,但其产生的思想深度有限。GPT-5的突破在于:智能开始触及真正的深度认知领域。

理想状态应该是默认使用我们的自动选择,而非手动配置。虽然尚未完全实现,但我们正在取得进展。最终目标是双重的:既确保高级用户获得所需的控制权与一致性,又不强迫广大普通用户纠结于版本号这类细节。

Greg BrockmanOpenAI的联合创始人兼总裁,曾任StripeCTO,致力于推动人工智能技术的发展和普及。本次访谈由Latent Space20258月发起,深入探讨GPT-5与开源项目GPT-OSS的最新进展,及OpenAI实现通用人工智能的战略路径。

OpenAI推理能力演进之路

SWYX: 祝贺你们发布了GPT-5GPT-OSSOpenAI领域的所有新进展都令人惊叹。我们稍后会详细探讨这些内容。非常高兴你能来到现场。上周这一连串的版本发布如同风暴般席卷而来,你此刻的感受如何?

Greg Brockman太疯狂了,一周内推出这么多成果确实非常疯狂。我们发布了开源模型,这些是我们长期研发的成果。我认为它们真正将OpenAI取得的多项技术进展浓缩到非常精巧的形态中,更易于使用——要知道过去几天其下载量已达数百万次。我们还发布了GPT-5,这同样是我们深耕已久的项目。看到这些成果面世并成功完成整个发布流程,我真心为团队感到骄傲。

Alessio FanelliGPT-5是首个混合模型。大多数用户无需主动选择模型架构——当然这其中涉及不少争议,我们暂且不讨论。但你最初是与IlyaOpenAI共同创立了推理技术团队。能否简要回顾OpenAI在推理技术方面的发展历程?最初你们仅专注于下一词元预测,后来意识到推理能力建设的重要性。请问从那个阶段发展到如今用户无感知的GPT-5,中间经历了怎样的技术路径?

Greg Brockman我认为在训练完GPT-4之后,我们获得了一个可对话的模型。记得最早进行后期训练时,我们实际采用了指令微调技术。当时使用的数据集非常简单:给定查询语句,标注模型应有的输出结果。当我们尝试连续输入多个查询时,发现模型竟然能结合先前问答链的上下文进行回应——这证明它具备了对话能力。尽管未经专门训练,但它能有效利用所有历史信息进行交流。

记得在某次有JakobIlyaWojciech等多位研究人员参与的会议上,我们曾讨论:为什么这还不算AGI这个模型显然并非AGI,却难以精确解释其原因——它似乎能回答任何问题,但存在可靠性不足、会产生错误答案、偶尔偏离正轨等问题。要弥补这个差距,最直接的方法是让模型在真实环境中验证其想法——通过强化学习实践:尝试提出假设、获取反馈,从而逐步提升可靠性。这对我们并非新概念:早在2017年,我们开发的Dota项目就完全基于强化学习,没有采用人类演示的行为克隆技术。从随机初始化的神经网络开始,最终产生了高度复杂、精密且准确的行为模式。这正是我们期望语言模型具备的可靠性。

因此从GPT-4训练完成时,我们就意识到必须转向推理范式,关键在于实现路径。我们曾提出约10种可能方案,团队成员全力投入验证。最终的成功凝聚了OpenAI众多成员多年来的努力——这个领域的进步往往需要坚定方向信念,即使前十次尝试可能失败(我们的大部分方案确实未成功),但只要持续突破,总能发现微弱曙光并由此成长。现在Jerry负责领导我们的强化学习团队并取得重大进展,这离不开卓越的基础设施建设。包括Wenda等推理团队成员、Felipe等众多OpenAI同仁的协同努力,才最终成就了这项突破。

SWYX确实令人惊叹。记得在AI Engineer大会上你曾提及对Turing论文的推崇——那篇论文在某种程度上开启了你的机器学习之旅。我认为Turing其实预见了学习机器将具备部分在线学习特性。这也是我反思从GPT-345发展历程时始终存在的疑问:学习机制最初完全基于离线预训练,现在正逐步向在线化演进。你认为这个观察是否准确?

Greg Brockman这确实是个非常有趣的问题——学习究竟发生在哪个环节?我认为我们尚未实现人类那样的完整学习闭环,况且人类的学习机制本身也存在模糊性:人类真的完全在线学习吗?例如睡眠期间,大脑会进行类似反向传播的过程,将信息整合到长期记忆中。

当前我们正在从"一次性训练+海量推理"的模式,转向"推理-训练"循环迭代的新范式。Ilya曾多次提出一个精辟观点:当模型能力较弱时,其生成的token价值极低;而当模型能力极强时,每个token都承载着深思熟虑的重要信息。强化学习正是利用这种特性——通过模型主动尝试生成数据,再基于这些高质量数据进行训练优化。因此,模型通过与现实接触进行标准化校准或筛选的观测数据,正在被反馈到机器学习系统中——这种学习方式我们已逐渐掌握其精髓。其所需的数据规模与传统预训练截然不同:在预训练中,10个样本几乎毫无价值,你需要数十万个同类行为样本才能进行有效学习,这与人类的学习方式完全背道而驰。

若重新审视整个进化历程及人类20年的成长史,会发现学习很大程度上依赖于对世界的持续观察——海量信息碎片持续通过感官输入。而在强化学习范式下,即使只提供10个或100个样本(比如10项待完成的任务),模型通过多次尝试后仍能有效学习。这使得人类策划者设计的任务能产生巨大杠杆效应,最终从模型中涌现出极其复杂的行为。下一步将是实现模型在运行过程中实时在线学习。虽然我们尚未完全实现这一目标,但未来的发展充满无限可能。

算力规模化与超临界学习

Alessio Fanelli我们曾与Noam Brown讨论过关于简单效率的问题。你认为当前的瓶颈仍然在于需要人类数据策划者设计优质任务来支持强化学习,还是觉得模型本身的简单效率仍是主要限制因素?

Greg Brockman从根本上说,瓶颈始终是算力。如果我们获得更多算力,就一定能找到充分发挥其价值的迭代方法。当前环境下,虽然通过强化学习范式获得了更高样本效率的算法,但这仍然需要消耗巨大算力。比如人类策划者设计1个、10个或100个任务后,模型会进行大量尝试——不是1次或10次,而是上万次尝试来完成单个任务。从中筛选成功案例并进行学习。这种情况下人类设计者获得的杠杆效应确实极高,但需要投入的算力也呈比例增长。

SWYXAlan Turing提出了超临界学习与亚临界学习的概念:亚临界学习指机器仅掌握我们直接教授的内容,而超临界学习要求机器还能推演所学知识的二阶、三阶乃至四阶影响,从而更新整个知识体系。如果我们拥有十倍或千倍的算力,应该如何以创新方式分配这些资源?算力应该优先投向哪些领域?

Greg Brockman我认为我们终将找到解决方案——这并非空话。回顾Dota项目的开发历程:当时我们决心开发新的强化学习算法,因为所有人都清楚当时的强化学习算法存在扩展性局限。记得JacobShimon曾质疑:这种认知是否有实证基础?事实上从未有人真正尝试过扩展传统PPO算法。于是我们以传统PPO作为基线开始推进。记得那时每周回到办公室,团队都将计算核心数量翻倍。随后智能体的真实技能水平持续提升——这说明只要持续突破算力边界,就能不断推进。当然最终会遇到瓶颈,那时才能真正开展创新性研究。但有趣的是,我们始终未能触达那个理论极限。

你会发现扩展过程本身恰恰蕴含着最珍贵的工程实践价值。虽然过程中会出现导致性能停滞的缺陷,但通过持续修复这些缺陷,我们始终在向前推进。神经网络初始化方式、尺度不变性等问题确实存在,但这些并非算法科学的核心本质。我们当前的处境是:在所有维度上持续突破,偶尔会遇到瓶颈。但多数情况下这些瓶颈只是可修复的技术缺陷,因此能持续向前推进。

当然,有些问题的修复投资回报率确实很低——当存在更优突破方向时,与其纠结某个具体问题,不如选择其他维度:是扩大模型规模投入更多预训练算力?还是强化RL环节增加实时推理算力?算力投入存在多重选择维度。某种程度上,我将算力视为精炼过程的载体:从能源转化为算力,最终淬炼为智能。这本质上是将算力转化为势能的过程——就像晶体化般凝结成模型执行有用任务的能力。算力如同智能的基础燃料与核心驱动力,它塑造神经网络的结构,最终输出可运行的程序。

最妙之处在于:尽管投入了大量算力进行创建,但这个程序能够被反复运行无数次——通过这种摊销效应,单次创建投入的成本会被海量次的使用均摊。这确实是一种极其优美的技术范式。

Alessio Fanelli这就像将动能转化为模型中的势能。你是否认为模型中已储存的势能可以重新转化为动能,应用于其他领域的强化学习?既然我们已经获得了IMO金牌,你认为仅通过扩展算力,就能让相同的基础模型和技术在其他领域达到IMO金牌级别的表现吗?还是认为仍需突破其他技术瓶颈?

Greg Brockman我们有充分证据表明,IMO模型同样能帮助我们在IOI竞赛中获得金牌——这确实令人惊叹。虽然技术框架存在细微差异,但真正的核心价值在于底层模型本身。我们并未进行针对性训练,这只是几位研究人员顺便开展的项目:"既然做了IMO,不妨试试IOI"

这之所以令人震撼,是因为过去这类成就需要庞大团队攻坚克难,而OpenAI的核心IMO团队实际上只有三人。这说明某些领域可能需要特定专业化调整,比如补充数据集等额外工作,但本质上我们已掌握通用学习技术——解决复杂问题的能力实际上具备高度可迁移性。学习解决复杂数学问题与撰写证明的能力,实际上可以迁移到编写程序和解决竞赛问题中。当然,如果从未进行过物理实验,或实际尝试混合化学试剂等操作,模型自然无法神奇地掌握这些技能——这正揭示了泛化能力的局限性:某些领域确实需要真实世界的实践经验

但当前这些模型的泛化能力已经达到超乎合理的程度。我们经常看到湿实验室科学家使用o3这类模型:输入实验设置后,模型能提出五个假设方案。虽然其中四个方案无效,但总有一个能够成功。根据我们获得的反馈,o3生成的成果甚至达到中等级别期刊的发表水平——虽然不及顶级期刊,但相当于三、四年级博士研究生所能产出的科研工作质量。这再次印证了令人震撼的事实——这就是o3模型当前达到的水平,而我们已明确知道如何全面提升o3的能力。这需要投入大量算力,需要艰巨的工作,需要精心设计训练任务,更需要人类倾注智慧、热爱、时间与心血。

但正如你所言,最终我们创造的是蕴含巨大势能的成果。更奇妙的是,这种势能并非一次性释放——它是一个可重复使用的检查点,能够跨所有任务被无数次调用。我认为这种技术最终将真正赋能全人类。

强化学习的实时限制与现实交互挑战

SWYX这个观点非常鼓舞人心。请允许我回溯两个问题:首先是关于技术瓶颈的讨论。此前与Noam Brown辩论时我曾提出,在物理时间维度确实存在瓶颈——因为现实时间的流逝不可压缩。虽然强化学习与环境模拟可以加速运行,但最终必须与物理时间同步。你可以看到,随着我们对现实世界的模拟精度越来越高,迭代速度正在无限逼近物理时间轴。请问你对突破这个限制有何见解?当然,既然现阶段尚未触及这个边界,我们暂时无需过度担忧。

Greg Brockman这确实是个根本性障碍。不过模型具备人类无法比拟的优势:可以同时运行无数副本,即使无法降低单次延迟,也能通过横向扩展突破限制。更值得思考的是算力的分配方向:当前大部分算力集中于模型训练,但随着模型部署规模扩大,推理与实际使用消耗的算力占比正在提升。设想未来模型将频繁与现实世界交互——它们可能需要耗费大量计算资源来斟酌每个行动决策,最终可能导致单次现实交互对应的算力消耗呈指数级增长,这将彻底改变我们对算力分配的传统认知。

构建高效的技术框架至关重要。试想如果在现实环境交互中执行了多步操作,如何建立检查点保存状态?若系统需要重启,当前状态全部丢失将会造成严重影响。数字世界与现实世界的根本差异在于:前者能实现完美状态观测、检查点保存与数据持久化,而现实环境则充满混乱与复杂性。但这并非坏事——正如我们在Dota项目中看到的智能体,它们能在极度复杂混乱的环境中有效运作。这说明算法本身具备这种能力,关键在于如何将这种能力适配到现实场景。

值得一提的是,Dota项目使用的仅是3亿参数的神经网络——相当于昆虫大脑般微小的规模。而现在我们正在向与人类参数规模相当的系统迈进,或许在算力层面也正在接近。虽然尚未完全达到这个水平(计算方式存在不同解读标准),但本质上我们正在向真实目标稳步前进。若思考AGI应有的形态,它应该具备以高度有效的方式与现实世界交互的能力。

SWYX根据粗略估算,人类大脑拥有约100万亿个神经元。而当前GPT-44.55的参数量级大概在低两位数到高一位数之间。当然我们无法确认具体数值,但可以确定的是我们正在向这个规模迈进。

Greg Brockman确实,人类大脑约有100万亿个突触——这大致相当于神经网络中的权重数量。两者存在某种等效性,可以说,我们正在接近这个数量级。

SWYX借此机会想请教一个上次未涉及的问题:你在Arc Institute休假期间有哪些收获?我很好奇这段经历是否对你现在OpenAI的工作产生了影响。

Greg Brockman我在DNA神经网络研究中发现最惊人的现象是:它们与人工神经网络完全同构。本质上只是将人类语言替换为遗传密码,其底层数学结构完全一致。

SWYX甚至使用更简单的词汇表。

Greg Brockman确实,遗传密码只有四个碱基字母。

SWYX但你们是否在更高层级进行token化处理?

Greg Brockman确实可以采用更高层级的token化方案。但我们的实际研究方法是直接处理原始序列——这让我意识到人类语言的核心特性:我们能够理解语义和结构,可以直观评估分词方案是否合理捕获了所有词汇要素。而生物学语言对人类而言完全是一种异质语言。但有趣的是,对于神经网络而言,人类语言并不比生物学语言更"自然"——这两种语言在神经网络眼中本质上是等同的。

SWYX本质上使用的是相同的硬件架构。

Greg Brockman完全正确。其中一个惊人的假设是:既然神经网络能很好地掌握人类语言,那么它们同样应该能精通生物学语言。我们确实观察到了相似的结果——这个训练于13万亿碱基对数据的400亿参数神经网络,其表现水平我认为相当于GPT-1GPT-2的阶段:已经具备广泛生物学下游任务的适用性与可操作性。但确实还未达到GPT-3GPT-4乃至GPT-5的水平——目前尚无法解决这些领域的超级难题。但我们已具备算力基础,掌握了正确的技术与算法,现在需要的是规模化扩展和长上下文处理能力的突破。生物系统对模型提出的挑战与语言序列不同:语言领域不存在十亿级token的序列,但DNA却拥有约40亿碱基对的超长序列。这要求我们在技术侧重上有所调整,但本质上需要解决的是相同的核心问题。

SWYX是否有某个应用领域最让你感到兴奋?例如药物发现——虽然这显然是普遍关注的方向,但是否存在某些更易实现且具有重大影响的中间阶段应用?

Greg Brockman从个人层面来说,我和妻子曾公开讨论过这个问题。她患有一种称为Ehlers-Danlos综合征的遗传性疾病。直到最近我们才开始发现相关的遗传标记,但其确切病因和来源至今仍不明确。如果拥有更强大的生物学研究工具,就应该能识别出多种疾病的遗传标记。这只是神经网络应用前景的一个具体例证。

GPT-5时代特征

Alessio Fanelli你如何定义GPT-5时代的开端?如果将345三个主要版本进行划分:GPT-3以文本生成为核心并开启RLHF技术路径,GPT-4实现多模态能力并突破低延迟与长程思考瓶颈。那么GPT-5的标志性特征是什么?虽然"智能体之年"已成为流行说法,但你认为还有哪些值得关注的关键突破?或者说,GPT-5将为我们解锁怎样的新范式?

Greg Brockman我认为智能水平确实达到了近乎难以描述的程度——虽然仍存在局限性和失败案例,但在IMO等极端困难领域,经过推理范式训练的模型已能写出与最优秀人类媲美的证明。尽管在特定领域仍有局限(例如尚未能证明未解定理),但其展现的智力成就已是确凿无疑的。

这与GPT-4有本质区别:GPT-4虽具备广泛商业应用能力,但其产生的思想深度有限。而GPT-5突破在于:智能开始触及真正的深度认知领域GPT-3在问题解决可靠性方面存在明显不足。我记得曾尝试教它完成列表排序这种基础任务——当时我们发现可以通过少量示例提示实现功能:展示几个排序示例后,模型能基本模仿该任务。但当我输入7个数字要求排序时,它失败了。于是我编写了详细的教学脚本:"我是老师,现在教你数字排序",并逐步演示两个数字、三个数字的排序方法。然而当我给出五个数字时,它依然无法正确排序。但若让GPT-5完成同样的五位数随机排序任务(虽然我尚未实际测试),我可以确信它无需任何调整就能完美实现——这充分体现了代际差异。

需要说明的是,模型确实可以使用Python工具。但更重要的是,这些模型能够辅助人类实现认知飞跃——我们已开始通过o3观察到这种迹象:专业数学家们开始测试GPT-5的能力,物理学家们也反馈说模型能重新推导出他们花费数月研究才获得的洞见。这种加速效应令人震撼。我记得高中和大学初期做数学研究时,需要耗费大量时间在脑内推演对象关系、建立概念连接。若能拥有一个真正理解我思考过程、能基于我的建议生成新见解的合作伙伴,必将极大加速研究进程,并使科研工作变得更有趣味性。因为研究者不必再陷入独自反复推演的循环困境(比如重复两周前的思路)。我认为与GPT-5作为合作伙伴共同推进智力前沿探索,代表着一种全新的科研范式。

Alessio Fanelli你是否认为人们受限于所处理问题的难度?我在使用CursorCodex时明显感觉到,当给予模型更具挑战性的任务时,它的表现会更出色。我发现很多人在X平台分享截图称"GPT-5改进不大",但这些问题本身难度有限。你宣称它是全球最佳编程模型的信心从何而来?作为世界顶级程序员之一,你的判断具有权威性。但对于普通用户,应该如何正确评估这些模型?

Greg Brockman确实存在任务饱和现象。如果只是进行"你好吗"这类闲聊,模型的表现空间有限。但若要求解决黎曼假设这类难题,则需要完全不同的智力层级。大多数任务介于这两个极端之间。

我们观察到GPT-5在需要深度智能的任务上表现远超其他模型。其次,我们投入大量时间研究用户在交互式编程场景中的使用反馈,并将这些数据持续反哺训练过程——这种深度优化在以往版本中并未如此强化。但对于o3这样的模型,我们采用一次性设定的任务进行训练时,模型在所有指标上都呈现持续优化趋势。它在Codeforces等竞争性编程平台上表现卓越。

这虽然令人振奋,但并不能反映实际编程的复杂性。真实编程环境要混乱得多:代码库存在本地状态、多种抽象层级、不同版本的库文件共存。这种多样性无法通过高度结构化的特定任务(比如完成10个预设任务)自动涌现。因此我们聚焦的核心不仅是提升智能水平(这始终是根本任务),更在于如何将智能与现实应用连接——让模型突破舒适区与象牙塔,真正接触并理解现实世界的复杂性与多样性。

Alessio Fanelli在更实践层面,你有哪些释放模型势能的具体建议?除了添加代码检查、类型检验、自循环任务等机制外,开发者还应考虑哪些元策略?你个人如何使用这些模型?

Greg Brockman我观察到最关键的是:充分发挥模型潜力需要特殊技能和持之以恒的韧性,需要真正理解模型的能力边界与缺陷。具体方法是:从小任务开始测试获取反馈,逐步增加任务难度,尝试探索其工作模式。人们通常会建立自己的提示词库。我自GPT-4时代起就积累了专属提示词库:在GPT-4发布前就开始收集测试案例,不断验证"这个功能是否能实现"。关键在于设计能产生多样化答案的查询——不需要唯一正确答案的开放性问题。例如在创意写作领域,我常要求模型融合《指环王》与创业公司两个主题,通过碰撞不同领域观察其创造力。

在实际测试中,我注重任务分解:首先将任务拆解为可独立运行的自包含模块,让模型能并行处理多个实例而非单一运行——这种多实例协同才能真正释放模型潜力。你需要成为智能体集群的管理者(而非单个智能体)。这意味着首先要重构代码库架构,然后推动模型尝试在代码库的多模块间协同操作。

虽然人们热衷前端测试(GPT-5确实擅长前端),但开发者多数时间并不专注于此,需避免过度拟合这种场景。关键是要培养对模型的直觉认知:将其视为自身能力的延伸,逐步熟悉其优势与局限。我常采用的方法是:在思考模型无法处理的复杂问题时,并行向其分派非关键路径任务。这样能持续获得反馈——无论任务成功与否都是低风险的,因为不需要空耗等待时间。

自我优化的编程智能体与工具使用

SWYX你曾提到CodexOpenAI编码能力的演进路线是让后台智能体与IDE智能体融合。请问这个构想有何新进展?是简单地让IDE调用后台API并实现数据导出,还是存在更深层的系统集成?

Greg Brockman我习惯用"同事类比法"来思考AI产品化:你希望优秀的程序员同事具备什么特质?因此你需要两种形态:结对编程的实时协同模式,以及远程异步协作模式。更重要的是需要具备跨场景知识记忆的统一实体——而不是每天忘记SSH密码的初级程序员。这意味着必须实现:以可审计的可靠方式让AI接入基础设施。这些模型的独特优势在于接受微观管理——人类反感被监控每个命令并要求汇报所有操作,但模型完全适应这种模式。这种特性值得深入思考,并通过接口设计最大化利用。

同时还需要实现无缝融合:模型能在远程机器执行任务(完全沙盒化、可观测且不破坏本地状态),并在必要时申请本地运行权限。根据任务性质和沙盒化程度,你可以进行一次性授权或完全委托访问。关键在于人类应掌控观测权并管理这个多形态智能体团队——智能体的身份不应以本地/远程运行位置区分。真正重要的是:模型作为执行主体,能申请在远程沙盒、本地环境或多个沙盒中运行,甚至跨设备协同(比如同时在你我的计算机上运行)。这些智能体本质上不必绑定任何特定本地环境。

SWYX你提到的审批机制让我想到朋友Fouad,他正在协助组建智能体鲁棒性团队,这个团队也是在工程师大会上宣布成立的。OpenAI对这个领域有什么具体规划?

Greg Brockman我们认为智能体鲁棒性需要通过纵深防御实现。首先在模型层面,我们发布了指令层级技术:通过标记消息来源(系统>开发者>用户)建立信任层级,使模型能识别"忽略先前指令"这类可疑请求——就像防范SQL注入那样,在底层构建抗攻击的鲁棒系统。但这只是基础:还需要多层系统控制。如果模型被沙盒隔离且无法执行敏感操作或访问特定数据,就能完全保证安全性。我们采取多级防护措施——随着智能体更深度融入生活并承担更多责任,其安全性也必须同步提升至前沿水平。

SWYX我常将其类比为Linux内核的权限环机制——有趣的是我们正在语言模型内部构建类似的多层安全架构。另外让我欣喜的是,在AI Engineer大会上关于Model Spec的演讲成为我们史上观看量最高的分享(虽然安全性与可靠性的实现确实极具挑战)。

Greg BrockmanModel Spec正是模型能力提升后价值对齐的典范——当模型足够强大时,其行为准则就成为最关键的问题。我们通过Model Spec向外界清晰传达了模型的设计意图,这虽不意味着当前模型能完全遵循,但它提供了明确的北极星指引:任何偏离规范的行为都违背我们的核心努力。

规范与实际行为之间的差距正在持续缩小。最有趣的是价值层面的思考:当被问及"地球是平的"这类争议性问题时,模型应该直接附和还是陈述科学事实?这些问题需要深度权衡,很难立即给出正确答案。但通过阅读Model Spec,你能看到其中蕴含的深思熟虑——这并非最终答案,而是我们希望汇聚社区反馈共同完善的框架。

Alessio Fanelli接下来我们确实需要讨论开源话题,但请允许我先提出一个更抽象的问题。记得你曾在Lex Freedman访谈中提及《基地》小说,这让我联想到与Brett Taylor的播客对话——我们讨论过某些语言的内禀能力(如Rust的内存安全性)。你是否认为LLM与软件开发正在形成历史循环:就像模型能预测"未来软件将充满蓝紫色渐变"(这正在成为现实),这些模型还将推动哪些趋势?我们能否主动引导这种变革?

Greg Brockman这确实涉及心理史学——从某种程度上说,这些模型本身就是心理史学的产物:它们通过观察人类思想进行训练(本质上就是分析公共数据并学习规则)。关键在于理解数据集的生成规律:这些数据背后的根本规则是什么?这就像外星人通过观看电视来理解人类行为。随后进入强化学习阶段:模型通过尝试获得正负反馈,逐步对齐人类期望。如今我们将它们置于现实环境中,要求处理前所未见的任务——它们正运用全部历史经验做出决策。

从某种意义上说,生物类比确实容易过度简化,但也可能被低估——它至少提供了有价值的思考框架:人类也遵循类似模式:DNA编码的史前记忆、父母给予的正负反馈、现实试错经验,最终综合运用这些知识做出行为预测。事实上我们能相当准确地预测他人行为,因为了解其价值观就能推断其行为倾向。对于模型而言,未来并非预先注定。算法本身不会强制模型偏好紫色渐变等特定特征,但整个训练过程确实会催生某种偏好

Alec常强调:这些模型不像单个人类,而更像整个人类文明的缩影——它们内嵌了无数种人格特质,我们的目标是激发特定人格。后期训练和强化学习会将这些可能性收敛到理想范围内。这意味着我们有机会塑造符合特定价值观的模型:如果你不喜欢紫色渐变,可以选择蓝色或绿色渐变——所有风格都能共存于单个模型中。GPT-5具有极强的指令遵循能力,是我们迄今个性化程度最高的模型:只需通过指令说明,就能让它按任何偏好运作。

SWYX我的类比是《星际迷航》中的博格集体——这种集体智能形态始终存在。关于《星球大战》与《星际迷航》哪种世界观更能预示未来的争论中,我认为《星际迷航》的设定更接近现实。

Alessio FanelliSam曾在推特发文选择死星——所以OpenAI其实属于星球大战阵营。具体原因可能需要直接问他本人了。

Greg Brockman这些模型最有趣的特质在于形成了多重反馈场域(如Ellen Marina等平台):既能观察人类偏好如何影响模型行为,又能看到模型输出如何被人类评判。这形成了层层迭代:模型基于人类偏好训练产生行为接受人类评判反馈调整(比如"紫色渐变过度使用需要调整")。这种协同进化持续进行:模型朝某个方向演进时,人类偏好可能发生变化,于是又推动模型转向新方向——通过不断迭代使模型越来越有用且符合人类价值观。

Alessio Fanelli当强化学习的奖励机制与人类真实偏好出现偏差时(例如模型过度使用try-catch来避免失败),我们该如何调整?是需要大量偏好数据来纠正这种行为,还是需要修改RL环境本身来降低这类行为的吸引力?我正在思考后续的改进方向。

Greg Brockman干预策略的选择取决于具体行为特征:有些知识(如不同库函数的用法)在早期训练中就已固化,但可以教导模型"不要依赖旧知识,应该查询最新文档"——这种指令属于更高层的控制。而对于过度使用try-catch这类问题,可以通过提示工程直接干预,或在强化学习阶段提供负向奖励。

这些模型的优势在于泛化能力:虽然需要针对大量偏好和风格提供训练反馈,但它们能举一反三。深度学习算法的泛化能力正是其精髓所在——我们围绕深度学习核心构建的整个技术栈(模型编排、反馈机制、数据管道等)固然重要,但真正的魔力在于泛化。虽然有时泛化能力不如预期,但这些模型确实能通过训练学习不同偏好与价值观,甚至泛化到未直接训练过的领域。这种跨代际的一致性表现让我们确信:只需在训练中展示多样性,模型就能自主扩展价值认知边界

SWYX我联想到一个梗图:"如果模型不泛化,就把整个世界变成你的数据分布"。说得轻巧,但实现过程堪比建造戴森球。在讨论开源前,最后关于GPT-5的问题:你承认了路由器的存在。之前在John Collison的播客中听到你提及Dota项目的幕后故事:测试版模型与主模型的拼接集成。这是否与GPT-5路由器的设计理念类似——将推理模型与非推理模型组合使用?

Greg Brockman在某种程度上确实相似。当时Dota项目采用多模型+路由器的架构有特定原因:某个模型在游戏前半段表现存在缺陷导致持续失败。由于行为域相对简单,我们能明确界定何时使用哪个模型。GPT-5的路由设计原理也类似:推理模型适用于需要深度智能但可接受延迟的场景;非推理模型适合要求快速响应且答案质量良好的任务。关键在于通过条件判断自动选择模型(比如用户信用额度耗尽时自动降级),而不将这种负担转嫁给用户。

需要说明的是:模型路由器是当前过渡方案,并非终极解决方案。完全集成的智能模型显然更理想,但证据表明AGI的最终形态可能不是单一模型,而是管理多个优势互补模型的调度系统。过去几年的重要发现是:将快速但能力较弱的小模型(能生成大量token)与昂贵但强大的推理模型结合,就能实现自适应计算。虽然尚未突破架构层面的自适应计算,但在系统编排层面已能轻松实现——这种模型可组合性带来了巨大能量。

SWYX模型卡片的制作令人惊叹——甚至提供了完整的条件判断参数:对话类型、复杂度、工具需求、显式意图和使用频次限制。这些参数中有哪些特别值得讨论的争议点?

Greg Brockman坦率说这些参数都符合预期。OpenAI确实做对了很多事,但命名体系显然不在其列——我们从未提供清晰的产品使用界面。回想历代模型:用户根本无从选择该用哪个版本。我妻子曾用o4版本时,我得告诉她"该用o3",而她反问"为什么o3o4好?"等到o4发布后,版本混乱更严重。这迫使我们必须进行复杂性重置:将系统复杂性内化而非转嫁给用户,这才是关键突破。因此我认为当前只是第一步。

我们已清晰听到社区的反馈:人们尚未准备好接受这种复杂性,我们未能兑现简化使用的承诺——理想状态应该是默认使用我们的自动选择,而非手动配置。虽然尚未完全实现,但我们正在取得进展。最终目标是双重的:既确保高级用户获得所需的控制权与一致性,又不强迫广大普通用户纠结于版本号这类细节

SWYXGPT-5的定价策略非常激进,甚至比Gemini更具竞争力。但在最近的技术见面会上我惊讶地得知,GPT-5的价格还能进一步降低。请问这个降价幅度是数量级级别的吗?其中有多少是通过Stargate等基础设施优化实现的?

Greg Brockman回顾我们的定价历史就会发现:每年都会进行大幅降价(具体系数虽不确定,但可能达到10倍甚至更激进)。以o3为例,价格降低80%后用量激增,最终收入保持持平甚至增长——这证明需求曲线极其陡峭:只要提高可访问性,用量就会爆发式增长。这与我们的使命高度一致:确保AGI造福全人类需要广泛普及技术,让更多人将AI融入生活与工作。而实现这一目标的关键在于提升推理效率、降低模型成本

当前限制因素主要是算力——我们正处于严重的算力约束中。如果现在大幅降价,实际上不会增加模型使用量。但我们还在持续提升效率:团队正全力突破推理效率的极限。部分优化来自模型架构改进(推理范式下的架构决策与预训练阶段截然不同),同时后期训练策略也至关重要:比如针对特定任务的思考时长控制等。我们将在多个维度持续推动改进。

SWYX顺便提供个数据:自GPT-4发布以来,相同智能水平的计算成本已降低1000——我这有详细图表可供参考。这个进步幅度确实惊人。

Greg Brockman还有哪些技术能在两年半内实现三个数量级的改进?

Alessio Fanelli想不到其他领域能做到这种改进幅度——成本从一万美元级别降至千元级别,甚至正在向分币单位迈进。在GPT-5发布时,我做了个"自我改进编程智能体"实验:让GPT-5为自己构建工具成为更好的编码助手。虽然它能执行自由职业者任务,但会在某些环节失败。当我要求它改进自建工具时,模型却回应"我不需要工具就能完成"——这听起来非常人类化。你认为这是否存在能力天花板?是因为模型只被教导使用现有工具(如图谱等),导致在推理时难以自主构建工具?还是说这代表着某种突破的前兆?

Greg Brockman这确实是进化过程中的必然阶段——但我们并非从零开始。核心在于训练方式:如果模型仅接触过特定工具集,未经历快速适应新工具的强化训练,就不该期望它在评估时表现不同。但自主创建工具提升效率,并持续积累工具库的能力,堪称工具箱中的革命性原语。若要解决那些未被攻克的极端难题,这种能力将成为关键依赖。

SWYX在架构决策或创新方面,是否有值得讨论的亮点?在GPT-OSS的架构选择中,哪些让你觉得特别突出?

Greg Brockman这些架构选择体现的是团队在多架构探索上的努力。以混合专家模型为例——虽然肯定要认可团队的技术决策,但核心设计理念是确保模型在目标环境中易于运行。稀疏度的选择直接关系到内存占用,前向传播的计算消耗等因素也在考量范围内。因此在很大程度上,架构决策受限于模型规模预期及其运行时可获得的计算资源。

SWYX这确实是非常务实的工程决策。

Greg Brockman确实如此。更重要的是,我们运用了大量前沿技术持续推动模型能力边界——这些技术的威力在模型中得到了充分体现。

SWYX我能清晰区分API专用模型与单机部署模型的架构差异。多租户场景下的批处理能力与单机环境截然不同。虽然不确定未来是否会融合,但或许会形成你常说的"模型生态园"模式。

Greg Brockman这种架构设计确实有趣:本地模型可选择性委托远程模型执行任务,既能提升运行速度,又符合隐私架构需求。关键在于智能分配计算负载——边缘计算意味着即使断网仍能保持基础功能,同时搭配慢速规划模型协同工作。这种交互机制非常值得深入探索。

SWYX确实如此。设想设备端部署GPT-5,配合GPT-OSS进行在线路由调度;或者Codex基础设施同时集成本地智能体与远程智能体,实现无缝协同与多智能体协作。这或许就是未来的技术图景,令人无比期待。

Alessio Fanelli最终实现设备随身化——技术演进方向已经清晰可见,所有环节正在形成闭环。关于设备细节我们就不深入讨论了。

OpenAI的战略优先级

SWYX另一个可能涉及地缘政治的问题:中国近期推出大量开源模型,为什么保持美国开源生态的存在至关重要?

Greg Brockman从实践层面看,开源模型带来的另一个价值是:基于我们开源模型构建应用的人,实际上是在我们的技术栈之上进行开发。如果你依赖我们持续改进模型、期待我们实现下一个突破,这种依存关系既有利于商业发展,也对国家具有战略意义。当人们直接运行源自美国的技术栈模型,并按照刚才讨论的方式实现交互协作时,就能构建完整的生态系统。

Alessio Fanelli让我们聊聊OpenAI的工程文化。我知道内部对云代码、ADER、开源工具等存在诸多讨论。你如何构建能最大限度发挥杠杆效应的团队结构?从人员规模、能力矩阵、组织架构等角度,OpenAI的团队建设策略是否有重大调整?有哪些可以分享的见解?

Greg Brockman软件工程正在多个维度发生变革。虽然某些核心算法领域(如CUDA内核开发)对模型而言仍具挑战性——这需要大量领域知识和抽象思维,但这类自包含问题恰恰适合我们的技术攻克。

架构设计类问题同样困难(比如系统组装与抽象规划),但模型已开始展现相关能力。事实上,即使对最优秀的工程师而言,他们的大部分工作都与模型当前的核心优势高度契合。对于非精通的编程语言领域,你肯定不愿手动编写代码——更适合让模型代劳。但部分工作反而变得更复杂:例如需要模型无法获取的上下文信息,或需要通过人际沟通做出决策。

目前团队架构尚未因这些工具发生根本变化,但当前最高优先级是推动模型在所有适用领域的应用,并建立负责任的防护机制。我们正从早期采用阶段向主流阶段过渡:生产力提升意味着我们需要更多人手——软件产能和技术债清理能力一直是核心瓶颈。如果工具能使效率提升10倍,我们就能完成100倍的工作量。这些模型带来的真正机遇不在于简单提升效率,而在于开启前所未有的可能性——这才是终极目标。

Alessio Fanelli你们如何调整团队工作方式以更好地适配语言模型?是否改变了问题追踪机制或代码库架构策略?

Greg Brockman我们仍处于探索初期,但目前最有效的策略是围绕模型优势构建代码库:创建更多自包含单元、配备快速运行的单元测试、完善模块功能文档。将细节交给模型处理效果显著。同时需要思考模块组合方式——确保AI优化模块仅被其他AI优化模块依赖,最终形成全系统AI优化架构。我们才刚刚触及可能性表面:模型发展速度极快,当前面临的局限性六个月内就可能大幅改善,因此不必过度适应当前版本,但此刻正是快速推进的黄金窗口期。

SWYX我非常好奇工程师的价值变化趋势:虽然部分工作正被自动化取代,但行业签约奖金却达到史无前例的高度。这令人思考:真正有价值的是工程师本身,还是赋能他们的系统?或许两者兼有,但市场确实在为工程师支付超高溢价。

Greg Brockman归根结底,我们正在创造人类史上最实用的工具——这些模型技术,以及支撑它们的、人类建造过的最大规模机器体系。当数据中心投资达到数百亿美元量级时,其规模已超出人类直观理解的范畴。

当前我们作为国家、社会乃至全球共同推进的工程项目,其规模已使"新政""阿波罗计划"相形见绌。这种投入是必要的:不仅因为技术带来的经济回报巨大,更重要的是我们正在迈向AI融合的新经济形态——这也正是我们使命的核心:预见变革并引导其造福全人类。

这堪称人类历史上罕见的机遇。我们幸运地身处这个时代并能参与其中——这是思考人类尺度变革的宏观背景。有时会产生认知失调:当你调试底层CUDA死锁或纠结紫色渐变时,突然意识到这关乎人类未来。因此工程师与公司的选择绝非小事:这不仅是团队问题,更关乎我们共同构建的社会与经济生态。我常退后一步思考宏观图景,但微观层面同样重要:人们是否快乐?是否与使命连接?是否感到工作有意义?这些才是真正驱动创新的核心。头条新闻未必反映真正驱动人的因素,但它们确实映射出人们对此技术潜力的经济现实认知

SWYX这与GNOME在多智能体团队的观点相通:人类个体智能存在局限,但作为文明整体,我们能登月、建城、创造AI——集体能实现的成就远超越个体。

Alessio Fanelli你如何看待当前AI研究现状?是否所有实验室都在做相同的事情?你认为每家实验室的不同思路最终会帮助我们收敛到正确方向,还是因为资金规模太大导致人们只能选择看似可行的路径?

Greg Brockman这个领域的多样性其实超乎预期——表面看像是趋同进化,但若与不同实验室深入交流,会发现各自持有独特视角。OpenAI早期就决定聚集思维方式高度一致的人才,因为长期攻读博士的研究者通常拥有独立的研究愿景,你很难强行指挥他们。若想要团队朝同一方向努力,就必须精心选择志同道合的人才——这或许是OpenAI早期最重要的决策,也是我们取得成就的关键。这意味着必然存在不同的发展路径选择:各实验室的学术品味与研究重点充分体现了这种多样性。

OpenAI始终专注于能实现阶跃式突破的研究——即使对于GPT-5这样的项目,我们虽然面临大量改进编码问题的压力,但有时必须退后一步思考:如何实现下一个阶跃函数?如何推动范式转移?推理范式的成功正是这种策略的典范。OpenAI在发展过程中多次践行这种阶跃式创新,并将持续如此。突破性进展仍待实现——多模态生成技术的多样性及其它创新方向,使得当前研究领域的丰富程度达到前所未有的高度。

SWYX更重要的是,这还只是主线研究,别忘了还有语音、图像生成、视频生成等方向。

Greg Brockman这些成就确实惊人。需要强调的是,每个突破背后都是小团队经年累月的专注投入。OpenAI的核心精神正是对重要问题做长期押注,确保所有研究方向最终汇聚成有机整体。

Alessio Fanelli从外部视角很难判断你们的重点方向,就像图像生成技术几乎突然出现。人们该如何区分:哪些应该自主探索开发,哪些应该等待你们的技术改进?

Greg Brockman这个领域的可能性空间极其广阔——神经网络和深度学习几乎适用于所有数据类型和领域。我们无法覆盖所有方向,但会持续推动核心推理范式发展。多模态、语音、图像生成、视频生成等领域同样重要且相互关联。

不过有些领域确实难以纳入核心优先级:例如2018年的机器人技术虽取得突破(机械手解魔方),但团队受限于硬件瓶颈(运行20小时肌腱就会断裂需要维修),这让我们意识到在其他领域能实现更快进展。团队后来转向开发GitHub Copilot——这无疑是项惊人成就。他们在数字领域的进展速度远快于物理领域。对我们而言,无论招募多少人才、获得多少GPU,带宽始终有限:作为一家公司、一个实验室,我们必须聚焦于连贯的核心问题。你会看到我们时而探索分支项目(其中部分可能最终纳入核心计划),但更重要的是:这个领域存在足够广阔的可能性空间等待所有人探索。

SWYX我们最后进行几个快问快答——请从OpenAI的视角跳出来看。

Alessio Fanelli你创立OpenAI时曾认为创办AI实验室为时已晚。如今人们是否也对某些领域存在类似的"为时已晚"的误解?哪些事情其实现在正该去做?

Greg Brockman显然,将模型与现实应用领域连接具有巨大价值。虽然可能觉得所有创意都被挖掘殆尽,但经济生态如此庞大——人类努力的每个应用领域都蕴藏着机遇。真正重要的是思考如何最大化利用我们创造的智能成果。以医疗领域为例:必须综合考虑所有利益相关者,理解现有系统运作方式,才能巧妙嵌入模型。所有领域都还存在大量未被采摘的果实。但我的建议是:聚焦那些价值不仅源于技术优化的领域。真正重要的是深入理解行业、积累专业知识和建立合作关系。

SWYX你偶尔会做天使投资?什么项目会吸引你?

Greg Brockman其实我已多年未参与天使投资。一切都会分散OpenAI的精力,我需要保持激光般的专注。

SWYX这是个时间旅行问题:你想给204558岁的自己寄什么便签?

Greg Brockman严肃地说,以当前技术发展速度,2045年实在难以想象。我希望那是个充满丰裕的世界,人类应该已成为多行星物种,几乎所有科幻梦想都已实现——除了受限于原子级物理运动速度的设想。坐在2025年的我,只希望那个世界能如我们想象般美好。

SWYX在真正丰裕的时代,我们还需要UBI吗?因为真正的富足意味着不再需要它。

Greg Brockman首先,OpenAI早期就激烈辩论过"AGI时代货币是否还有意义"——如果你能直接向计算机描述需求,它就能瞬间制造任何实体物品(几乎零成本),货币的概念确实变得模糊。但有一个资源的需求注定会持续飙升:算力。OpenAI内部已经显现这种现象:获得最多算力的研究者能开展最宏大的项目。未来如何分配算力访问权将至关重要——你拥有的算力越多,就能更好地解决关心的问题。算力分布机制将成为核心议题

因此关键问题在于:如果不工作能否生存?答案将是肯定的——物质需求会得到充分满足。但更深层的问题是:你能否追求更高目标?不仅是生成任意数量的电影,而是赋予其惊人细节与极致精美;不仅是获得解决方案,而是让系统为你进行相当100年主观体验的深度思考。算力投入永远能带来额外回报,因此我们必须慎重思考:如何架构这个社会系统。

SWYX顺便问个更难的问题:如果要给200518岁的自己寄张便签,你会写什么建议?当然这也是给所有年轻人的间接建议,但请以当年的自己为倾诉对象。

Greg Brockman最让我惊讶的是:待解决的问题会随时间增长而非减少。记得1999-2000年读到硅谷故事时,我觉得自己错过了时代——出生太晚,所有问题都被解决了,等我准备好时已无机会。这完全错了,现在才是技术领域最激动人心的时代:我们拥有能提升和革新人类所有领域的强大工具。当然存在需要克服的挑战,但正是为实现惊人成果而奋斗的意义所在——我希望年轻时就能明白"问题可用性随时间增长"这个核心认知。

原视频:Greg Brockman on OpenAI's Road to AGI

https://www.youtube.com/watch?v=35ZWesLrv5A

编译:Xinyue Wan

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 OpenAI 智能水平提升 现实应用
相关文章