原创 小雅 2025-10-17 15:27 北京
前不久,OpenAI 的两大巨头——首席科学家 Jakub Pachocki 与首席研究官 Mark Chen 共同接受硅谷风投 a16z 深度访谈,首次系统性地揭示了 GPT-5 的真实定位——这不是 GPT-4 的简单升级,而是一个重要的转折点。
震撼的不是 GPT-5 本身,而是它背后的野心:打造“自动化研究员”。
我们希望模型能自己发现新想法,自己推进研究。
Jakub的这句话,道出了 OpenAI 真正的目标——让 AI 从回答问题的工具,变成能独立做研究的科学家。
访谈中三个关键信号值得所有人关注:
融合革命:GPT-5 将整合两条技术路线——GPT 系列的「快速响应」与 o1 系列的「深度推理」,让模型自主判断“这个问题需要几秒还是几小时思考"。
硬科学突破已现:物理学家、数学家试用后震惊地发现,GPT-5 能提出非平凡的新数学结果——过去需要研究生花数月完成的推导,模型几乎能自动完成。
从"vibe coding"到"vibe researching":当前我们正处于与 AI 协同编程的阶段,但 OpenAI 的真正目标是"vibe researching"——与 AI 协同做研究,这将彻底改变科研的传统方式。
一、GPT-5 诞生:从 “快速响应” 到 “深度推理”
Mark 介绍,过去 OpenAI 有两条并行的技术路线。
一条是大家熟悉的 GPT 系列,从 GPT-2 到 GPT-4,特点是快速响应、即时输出;
另一条是 O 系列,它不追求速度,而是 “思考更久”,力求给出最优答案。
而 GPT-5 做了一件关键的事:把这两条路线彻底融合。
它能自主判断 “这个问题需要几秒钟还是几个小时思考”,不用用户手动选择模式。这让 “推理能力” 和 “类代理能力” 成了模型的默认配置,也让 GPT-5 成为首个真正意义上的 “推理模型”。
在推理过程中,GPT-5 像人类一样,也会经历“尝试 — 失败 — 调整 — 再尝试” 的过程。更重要的是,它能显著延长 “不跑偏” 的持续推理时长,解决了行业里 “步骤过多就会质量下降” 的老难题。
不过,训练 GPT-5 的过程也并不是一帆风顺的。最常见的麻烦是 “双重 bug”:既有代码层面的漏洞,也有研究者思维上的 “偏差假设”。这些问题一旦出现,可能让几个月的实验白费。
Jakub 坦言,很多重大突破的本质,其实就是 “识别并修正这些隐藏的错误”。
除了推理能力的融合,GPT-5 还有一个重要延伸 ——GPT-5 Codex,专门让推理智能落地到编程场景。
针对“把推理模型的智能,转化为实用的编程能力”的核心目标,Codex 团队具体做了三个升级:
能处理更复杂的真实编码环境,适配工业级开发需求;
关注开发者的风格和习惯,能根据需求调整 “模型主动性”;
优化了 “延迟时间”:简单题快速答复,复杂题花更多时间求最优解,解决了过去 “简单题耗时、难题不深入” 的失衡问题。
二、评估标准大转向:从 “考高分” 到 “创造新可能”
在 GPT-2 到 GPT-4 的时代,模型进步靠 “评测(evals)” 验证,分数从 98% 追到 99%,已经逼近饱和。
但根据 Jakub 所言, GPT-5 的价值,并不被定位在 “答对多少题” 上,而在于 “能不能提出全新解法”。
现在, OpenAI 更关注三个维度:
模型能不能自主发现问题?
能不能在开放领域持续推进研究?
能不能在没有提示的情况下找到新路径?
这种评估转向,在实际场景里已经有了清晰体现。比如在 AtCoder、IMO(国际数学奥林匹克)、IOI(国际信息学奥林匹克)这些顶尖赛事中,GPT-5 已经接近人类顶尖水平。
但 Jakub 强调:“这些比赛的排名不是重点,真正的进步是模型开始能发现新思路。”
更让人惊喜的是硬科学领域的突破。
Open AI 团队邀请许多物理学家、数学家试用后发现,GPT-5 能提出 “非平凡的新数学结果”—— 过去学生要花数月计算的内容,模型几乎能自动完成。对研究者来说,这简直是 “灵光一现的时刻”。
而在没有明确对错的开放领域,GPT-5 的能力也很关键。
Jakub 认为:“真正要推动科研,有明确定义的问题和开放性问题之间的界限会逐渐模糊。” 就像数学千禧难题,需要跨物理、数学分支设计研究路线,这和 AI 的推理本质高度契合。
现在 GPT-5 正用长时推理能力,在这些开放领域探索未知路径。
三、强化学习:推理的 “引擎”,潜力仍然巨大
外界很多人觉得,强化学习(RL)的潜力已经耗尽了,但 Jakub 并不认同这种观点:
“RL 还远未到顶点,它正让语言模型学会在复杂目标中自我进化。”
其实 OpenAI 早在大语言模型出现前,就开始探索强化学习了。近些年来,他们最大的突破,是把 “语言建模” 和 “强化学习” 结合到了一起:语言模型为 RL 提供丰富的环境,RL 则让模型学会执行复杂目标、自主决策和修正。
这对企业来说也有启发。
现在很多公司不知道怎么设计 RL 奖励模型,Jakub 给出了建议:RL 会逐渐变得更自然,未来会从 “人工设置奖励” 走向 “类人学习” 模式。大家别被 “当前的做法” 限制,给模型一些试错空间,比制定更多规则更重要。
四、AI 编程革命:从 “vibe coding” 到 “vibe researching”
作为曾经的竞技编程选手,Jakub 和 Mark 对 AI 编程的进步感触很深。现在 GPT-5 在很多编程比赛中已经接近顶尖人类水平,差距还在快速缩小。
过去 Jakub 并不习惯使用 AI 工具进行编程工作,但现在他坦言:“GPT-5 能在 15 分钟里完美重构 30 个文件,这种生产力提升根本无法忽视。”
不过目前行业还处在一个 “有点不自然的临界期”—— 模型不像真正的同事,但大家又必须依赖它。就像 Mark 说的,很多年轻人已经把 “vibe coding”(与模型协同写代码)当成默认工作方式。
但 OpenAI 的目标更加远大,他们想尽快跨过这个阶段,进入 “vibe researching”(与模型协同做研究)的新时代。
五、AI 的未来:瞄准 “自动化研究员”
谈到未来 1-5 年的路线,Jakub 明确表示,GPT-5 的长远目标是成为 “自动化研究员”。他再次强调:“我们希望模型能自己发现新想法,自己推进研究。” 而且这不只限于机器学习领域,还要推动物理、数学等其他科学领域的自动化进展。
要实现这个目标,有两个关键方向要突破。
首先是 “思考跨度” 的延长—— 目前 GPT-5 能连续推理 1-5 小时解决复杂任务,下一步要让它在更长时间线上保持规划和记忆能力,像人类研究者一样 “持续推进工作”,而不是只做 “短平快” 的答题。
其次是资源支撑。和过去相同,OpenAI 仍然倾向于把计算资源投入核心算法研究,而不是单纯优化产品。Mark 直言:“在前沿 AI 研究中,计算力几乎决定一切。” 目前行业仍受算力限制,而非外界传言的“数据瓶颈”。
为了培养更多研究人才,OpenAI 还推出了“驻留研究员” 项目。这个项目能让物理、金融等非 AI 背景的研究者快速上手,通过 “亲手实现核心成果、在错误中建立直觉”,相当于 “加速版博士训练”,正好补充了学术界 “长期攻坚” 的优势。
六、团队文化:持续学习,长期主义
OpenAI 能一直保持领先,离不开它独特的团队文化。Mark 一句话道出了核心:
“在 OpenAI,你永远不会停止学习。”
这里每周都有新突破,研究者必须全力以赴才能跟上,避免了其他公司 “前两年学习、后续进入平台期” 的困境。
背景的多元化也注定了研究者们需要具备持续学习的能力。 OpenAI 最成功的研究者,很多来自物理、数学、金融等非 AI 领域。他们的共同点不是背景,而是 “扎实的技术基础 + 能坚持攻克极具挑战的问题”。
在用人层面,OpenAI 团队并不简单看重 “社交媒体活跃度” 或 “表面成果”,而是更认可两种人:
一种是擅长 “提出新方向”的 ,不局限于实现现有想法,而是能打开全新研究思路;
另一种是擅长 “深挖与验证” 的,能把一个想法彻底落地,通过反复实验验证价值。
作为兼具顶尖研究机构和优秀产品公司属性的组织,OpenAI 从研究人员的特质出发,努力做到“研究与产品” 的平衡:
关心产品的研究员会和产品团队紧密合作,专注基础探索的研究员则能自由创新。
产品团队和领导层从不把现有产品当终点,而是和研究团队一起,锚定 “自动化研究员” 的长期目标,把扩散模型、代码推理等多样化方向,统一到同一路线图中。
面对外界反馈,比如竞品发布新模型,OpenAI 也有自己的定力 —— 不被短期产品反应左右研究的优先级。
Mark 强调:“研究的节奏是长期的,产品迭代更快。” 团队始终聚焦 “未来一两年甚至更久的重大问题”,不会陷入 “竞速思维”。
结语:AI 从 “回答者” 变成 “合作者”
GPT-5 不只是 “长时推理时代” 的开端,更在编程、硬科学领域打开了新可能。现在它不再是被动的 “回答者”,而是能和人类协同研究、创造新解法的 “合作者”。
这对企业来说,意味着三个转变:
使用 AI 时,要从 “提问等待” 升级为 “共同研究”;
衡量 AI 时,要从 “分数高低”转向 “创新与洞见”;
管理团队时,要从 “追热点” 转向 “培养长期攻坚与学习能力”。
GPT-5 不是终点,而是通往 “自动化研究员” 的关键里程碑。当 AI 能提出新数学定理、“vibe researching” 成为常态,知识边界与创新模式都会被彻底重塑。
AI 已经进入 “长思考” 时代,我们要学的不只是怎么用它,更是怎么跟上它的思考速度。
