36kr 08月04日
全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,AI 领域对 GPT-5 的关注度极高。据报道,GPT-5 的一项重要技术可能是“通用验证器”,该技术源于 OpenAI 的一篇论文,旨在解决大型语言模型(LLM)在优化答案正确性时,推理过程难以被理解和验证的问题,从而提升其“可解释性”。通用验证器通过一个小型模型来评估大型模型的推理链,并将其作为奖励信号反馈,以优化模型策略。这种“证明者-验证者”的游戏机制,类似于 GAN,能够训练模型生成更严谨、更难被伪造的解决方案,并提升验证器识别错误的能力。此技术有望成为 AI 发展的新方向,从“堆料”的 scaling 时代转向“架构突破”的自我进化时代,对实现通用人工智能具有重要意义。

⭐ 通用验证器旨在解决 LLM 可解释性问题,通过小型验证模型评估大型模型的推理过程,并反馈奖励信号进行策略更新,从而提升模型输出的可靠性和可信度。

🧠 “证明者-验证者”的游戏机制类似于 GAN,让大型模型在扮演积极解决问题的“证明者”和试图误导的“欺骗者”之间切换,从而训练出逻辑更严谨、不易被伪造的解决方案。

🚀 该技术将集成到未来主流模型的 RLHF(基于人类反馈的强化学习)流程中,有望成为 AI 发展的下一个时代标志,推动 AI 从依赖数据转向依靠更智能的内部学习机制进行自我完善和进化。

💡 即使未来模型能力远超人类,只要其输出能被“较弱但可信”的模型验证,就能保持人类对其的控制与信任,这对于高风险应用场景尤为重要。

🌟 论文来自 OpenAI 的超级对齐团队,虽然团队已分崩离析,但该技术的研究方向为突破当前数据瓶颈、实现更高级别通用人工智能提供了关键路径。

最近整个 AI 圈的目光似乎都集中在 GPT-5 上,相关爆料满天飞,但模型迟迟不见踪影。

我们报道了 The Information 扒出的 GPT-5长文内幕,奥特曼似乎也坐不住,发了推文表示「惊喜很多,值得等待」。

那么,在等待的过程中,我们来看看这次 GPT-5 的「疑似王牌」之一:通用验证器(universal verifier)。

据知情人士透露,OpenAI 一直在开发一种研究人员称之为「通用验证器」的东西,这个东西可能是 GPT-5 中用到的重要技术。

这个概念源于 OpenAI 去年发表的一篇论文。它解决的问题是:当 LLM 仅优化答案正确性时,其推理过程(如 Chain-of-Thought)变得难以被人类或小型模型理解和验证,导致「可解释性」下降。但在高风险应用中,用户需要能快速、准确判断模型输出是否正确,而不仅是输出答案本身。

为此,该论文提出了一套已准备好投入生产的技术管线,其核心在于:让一个「验证者」小模型来为「证明者」大模型的推理链打分,并将其作为奖励信号反馈给大模型进行策略更新

论文标题:Prover-Verifier Games improve legibility of LLM outputs

论文地址:https://arxiv.org/pdf/2407.13692

论文明确指出,这个验证者模型足够小,可以进行大规模部署,并且是「为未来的 GPT 部署而设计」的。

你可以把它想象成一个模型里住着两个「人格」,它们在进行一场持续的「左右脑互搏」游戏:

听起来是不是很像 GAN(生成对抗网络)?

通过让大模型在这两个角色之间不断交替,它既能学会写出逻辑更严谨、更难被伪造的解决方案,同时,那个小规模的「验证者」模型在反复的「欺骗」与「验证」中,其识别错误、标记漏洞的能力也变得越来越敏锐。这样做的好处在于,即使未来模型远超人类能力,只要其输出能被「较弱但可信」的模型验证,就能保持人类对其的控制与信任。

论文提出的训练方法能让模型逐渐学会产生清晰且结构良好的答案。

去年 8 月《连线》杂志的一篇文章披露,OpenAI 在微调 GPT-4 的代码助手时,就已经用基于模型的「批评家」在部分场景替代了人类反馈。

文章特别指出,该系统「将被整合到未来主流模型的 RLHF(基于人类反馈的强化学习)流程中」。

有人评论说,「证明者 - 验证者」训练方法不仅仅是一个小优化,它可能代表了 AI 发展的下一个时代。我们正在从一个依赖海量数据、靠「堆料」来提升性能的「scaling 时代」,转向一个通过设计更智能的内部学习机制、让 AI 自我完善和进化的「架构突破」时代。这或许是我们突破当前数据瓶颈、实现更高级别通用人工智能的关键路径。

值得一提的是,这篇论文来自 OpenAI 的超级对齐团队。在论文发布时,团队就已经分崩离析。去年,机器之心详细报道过这篇论文,感兴趣的读者可以重温一下。

论文之外,GPT-5 模型也有了一些新消息。

今天一大早,某博主发现 Perplexity 有漏洞访问 GPT-5,并且有 GPT-5 和 5 Pro 两个版本,限时 4 小时。

他展示了自己用 GPT-5 生成的小黄人,动态效果看起来很丝滑。

他还做了一个类似 Doom(FPS 游戏)的游戏片段,看起来也非常还原。

网友纷纷表示「震惊」,认为这可能是 AI 生成的「新时代」。

无论如何,大家对 GPT-5 的期待已经拉满了!

你觉得 GPT-5 会是个什么样子?

参考链接:

https://x.com/rohanpaul_ai/status/1951400750187209181

https://x.com/chetaslua/status/1951758235272401030

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:机器之心,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 通用验证器 AI 可解释性 大模型 强化学习
相关文章