IT之家 09月18日
DeepSeek-R1:用纯粹强化学习革新大模型推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-R1(简称R1)近期登上Nature封面,其核心在于通过纯粹的强化学习(RL)激发大语言模型(LLM)的推理能力,开创了AI推理新范式。该模型跳过传统的监督微调(SFT)阶段,仅通过定义任务格式和提供奖励信号,便能实现推理能力的飞跃式提升。R1在AIME竞赛中准确率大幅提高,甚至超越人类平均水平。经过多阶段的精炼,R1在通用能力和推理能力上均表现出色,其训练成本也远低于业界平均水平,为AI推理的未来发展提供了新的路径和思路。

💡 **纯粹强化学习驱动的推理新范式:** DeepSeek-R1 摒弃了传统的监督微调(SFT)方法,仅通过定义任务格式(如将思考过程和最终答案用特定标签包裹)和提供基于最终答案正确性的奖励信号,便能自主激发大语言模型的推理能力。这种“野蛮生长”的方式,使得模型在没有人类显式指导的情况下,也能发展出强大的推理策略,并在 AIME 数学竞赛中取得了远超人类平均水平的准确率。

🚀 **自我进化与“顿悟时刻”:** 在训练过程中,DeepSeek-R1 展现出惊人的自我进化能力。模型自主增加了“思考时间”,即在思考过程中生成的文本长度稳步增加,并涌现出自我反思、系统性探索替代解法等高级推理策略。研究人员甚至观察到了模型在反思过程中使用“wait”(等等)这一词频率急剧增加的“顿悟时刻”,清晰地揭示了其推理模式的转变和自我进化过程。

💰 **低成本高效训练与同行评审价值:** DeepSeek-R1 的训练成本仅为 29.4 万美元(不含基础模型成本),远低于 OpenAI、谷歌等公司,证明了纯粹 RL 方法的高效性。该模型是全球首个经过同行评审的主流大模型,其登上 Nature 封面并接受严格评审,验证了其研究的科学性和可靠性。同行评审的价值在于,它有助于评估 AI 系统的风险,并促使研究团队增加技术细节说明,提升了 AI 研究的透明度。

🛠️ **多阶段精炼与通用能力提升:** 虽然 R1-Zero 在推理上表现出色,但在通用能力上存在不足。通过冷启动、多轮强化学习(RL)以及大规模监督微调(SFT),DeepSeek-R1 成功地提升了其语言一致性、对话流畅性以及写作、开放域问答等通用能力,同时保持了在高难度推理任务上的顶尖水准,使其成为一个兼具强大推理能力和广泛应用性的模型。

DeepSeek 荣登 Nature 封面,实至名归!今年 1 月,梁文锋带队 R1 新作,开创了 AI 推理新范式 —— 纯粹 RL 就能激发 LLM 无限推理能力。Nature 还特发一篇评论文章,对其大加赞赏。

刚刚,DeepSeek-R1 登上了 Nature 封面!

今年 1 月,DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 论文发布,如今成功登上全球顶刊封面。

通讯作者梁文锋带队,用 RL 为大模型推理能力开辟了全新路径。

论文地址:https://www.nature.com/articles/s41586-025-09422-z

在封面推荐中,Nature 毫不吝啬地赞扬了 DeepSeek-R1 的成就。

开源之后,R1 在 Hugging Face 成为最受欢迎的模型,下载量破 1090 万次。关键是,它是全球首个经过同行评审的主流大模型。

值得一的是,补充材料首次公开了 R1 训练成本 ——294000 美元,数字低到惊人。

即便是加上约 600 万美元的基础模型成本,也远低于 OpenAI、谷歌训练 AI 的成本。

从一篇 arXiv 论文到 Nature 封面,DeepSeek 团队再次用实力为 AI 推理的未来铺路。

R1 被认为是首个经历同行评审过程的主流 LLM。

审稿人 Lewis Tunstall 表示:

这是一个非常值得欢迎的先例。若不公开分享大部分研发过程,我们将难以评估这些系统是否存在风险。

针对同行评审意见,DeepSeek 减少了拟人化描述,并增加了技术细节说明,包括模型训练数据类型和安全性能。

审稿人 Huan Sun 表示:

通过严格同行评审过程,有助于验证模型的有效性和实用性,其他公司也应效仿。

DeepSeek-R1-Zero 诞生

研究团队的出发点大胆而纯粹:彻底抛开对人类推理轨迹的依赖。

人类定义的推理模式,可能反而是一种束缚。

他们选择了一个强大的基础模型 DeepSeek-V3 Base,跳过了传统的 SFT 阶段。

取而代之的,是一个极其简洁的强化学习框架,只告诉模型两件事:

1. 任务格式:回答必须包含两部分,一个是被 <think> 标签包裹的「思考过程」,另一个是被 < answer > 标签包裹的「最终答案」。

2. 奖励信号:根据最终答案是否正确来给予奖励,不管采用什么样的思考方法。

在没有解题步骤的对错评判,没有思维方式的引导下,DeepSeek-R1-Zero 开始了它的「野蛮生长」。

在整个训练过程中,R1-Zero 的推理能力发生了质的飞跃。

以 AIME 2024 为例,它的平均解题准确率(pass@1)从最初的 15.6%,一路狂飙至 77.9%。

如果再配合「自洽解码」技术,准确率更是高达 86.7%—— 这一成绩远超 AIME 竞赛中所有人类选手的平均水平。

AI「顿悟时刻」

更令人着迷的,是它在能力提升过程中展现出的自我进化行为。

随着训练的进行,模型在 <think> 标签内生成的文本长度稳步增加。

它自发地学会了用更长的「思维链」来探索和优化解题策略,有时甚至会生成成百上千个 token 来反复推敲一个问题。

模型不再是线性地一步步解题,而是开始展现出「自我反思」和「系统性探索替代解法」等高级策略。

它会验证自己的中间步骤,甚至会主动探索「如果我用另一种方法会怎么样?」

在训练的某个阶段,研究人员观察到了一个清晰的「顿悟时刻」(Aha Moment)。

也就是,模型在反思过程中,使用「wait」(等等)这个词的频率突然急剧增加。

这一时刻,标志着 DeepSeek-R1-Zero 在推理模式上发生了明显转变,清晰地揭示了它的自我进化过程。

而这种进化,也完美诠释了强化学习的魅力:

不必教它如何解题,只需提供正确的激励,它就能自主地发展出比人类教的更高级的策略。

DeepSeek-R1 之路

尽管 DeepSeek-R1-Zero 展现了神级的推理能力,但由于其训练完全以推理为导向,它存在可读性差、偶尔会在中英文之间混乱切换的问题,并且在写作、开放域问答等通用能力上表现平平。

为了解决 R1-Zero 的问题,并让其强大的推理能力能被更广泛地应用,研究团队设计了一套精密的多阶段训练流程,并启动了第二阶段的「精炼」计划:

1. 冷启动(Cold Start):首先,用数千条高质量的、符合人类对话习惯的数据对模型进行初步微调,教它「好好说话」。

2. 第一轮强化学习(RL):再次应用强化学习,但这次的目标不仅是提升推理,也包括保持语言的一致性和对话的流畅性。

3. 大规模监督微调(SFT):团队将推理数据与海量的非推理数据(如写作、通用问答、代码工程)混合在一起,进行大规模的监督微调。这极大地扩展了模型的知识面和通用能力。

4. 第二轮强化学习(RL):最后,再进行一轮全面的强化学习,利用一个更复杂的奖励模型,进一步增强模型的有用性、无害性,并使其行为与人类偏好对齐。

经过多轮炼丹,DeepSeek-R1 不仅在 AlpacaEval 2.0 和 Arena-Hard 等衡量通用指令遵循和用户偏好的基准上,性能提升了 17%-25%,而且还在数学、编程等高难度推理任务上保持了顶尖水准。

揭秘 DeepSeek-R1「炼丹炉」

接下来,就让我们深入这个「炼丹炉」的内部,一探究竟。

GRPO 算法

在 AI 训练的赛道上,强化学习算法 PPO(近端策略优化)长期以来都是大语言模型训练的「标配赛车」。它虽然强大,但也以资源消耗巨大和实现复杂而著称。

DeepSeek 团队选择了一条更聪明的路,他们采用了 GRPO(组相对策略优化)算法作为核心驱动引擎。

PPO 就像一位极其谨慎的教练,它在每次训练更新时,都会严格限制新策略与旧策略的偏离程度,以防模型「跑偏」导致训练崩溃。

这种谨慎是有代价的,它需要大量的计算来维持稳定。

而 GRPO 则像一位更高效、更相信「集体智慧」的教练。它的核心思想是:

在每次训练时,让模型针对同一个问题,生成一组(比如 16 个)不同的答案。

然后,它不只是简单地奖励最好的那个,而是根据这一组答案的「相对好坏」,来整体优化模型。

具体来说,它会计算出每个答案相对于这一组答案平均水平的「优势」(Advantage),优势大的(即表现更好的)答案会得到更大的激励权重,而表现差的则会被抑制。

这种「组内竞争、择优而学」的机制,简化了 PPO 复杂的约束过程,不仅显著降低了资源消耗,还被证明在实践中同样稳定高效。

奖励设计

强化学习的本质,就是通过奖励(Reward)来塑造模型的行为。它决定了模型将朝着哪个方向进化。

为此,DeepSeek 团队设计了一套双轨制的奖励系统。

1. 基于规则的奖励

对于推理任务(数学、编程、逻辑),团队采用了一套极其严格的基于规则的奖励系统。

这里,有一个关键的决定:在推理任务上,完全不使用基于神经网络的奖励模型。

因为团队发现,AI 在长时间、大规模的强化学习中,会找到奖励模型本身的漏洞并加以利用,即所谓的「奖励投机(Reward Hacking)」。

2. 基于模型的奖励

然而,世界并非非黑即白。对于通用任务比如写作、对话,大多只有好坏之分。

于是,DeepSeek 团队引入了基于模型的奖励,从而让模型更符合人类的偏好。

如此一来,模型在保持强大推理能力的同时,也学会了如何生成更有用、更安全、更符合人类习惯的内容。

训练细节

DeepSeek 的训练并非一蹴而就,而是分为多个精心设计的阶段,每个阶段都有不同的侧重点和巧妙的参数调整。

最开始的训练完全聚焦于数学、编程等推理任务,仅使用基于规则的奖励。

一个有趣的现象发生在训练进行到第 8,200 步时:研究人员将模型处理的最大文本长度从 32,768 个 Token 猛增到 65,536 个 Token。

这一改变带来了立竿见影的效果,模型的性能和回答长度都出现了「大幅跃升」。

其他参数设置如下:

学习率:3×10⁻⁶

KL 散度系数:0.001

GRPO 裁剪比率 ϵ:10

推理采样温度:1

每个训练步包含 32 个独立问题,每步的批大小为 512。

每 400 步,用最新的策略模型替换参考模型。

在这一阶段,训练数据变得更加多样化。

团队遇到了一个意想不到的挑战:模型的「思维链」(<think> 标签内的内容)中频繁出现中英夹杂的「语言混合」现象。虽然这不一定影响最终答案的正确性,但极大地影响了可读性。

为了解决这个问题,他们创造性地引入了一个「语言一致性奖励」:如果模型在处理中文问题时,思维链中中文词汇的比例越高,获得的奖励就越多。

尽管实验表明,强行「矫正」语言会导致模型性能微乎其微的下降,但为了输出结果更符合人类阅读习惯,这个牺牲是值得的。

在这一阶段,研究人员结合了奖励信号和多样化的提示词分布来训练模型。

推理数据使用基于规则的奖励,通用数据则启用基于模型的奖励。

奖励可以公式化为:

其中

第二阶段保留了第一阶段的大部分参数,但将温度降至 0.7,以防因为系数过高造导致生成内容不连贯。

此外,这里还有一个关键操作:基于模型的奖励(有用性和安全性)仅在最后 400 个训练步中才被引入,从而避免奖励投机的产生。

挑战与未来

DeepSeek-R1 的诞生,为 AI 发展带来了深刻的启示,也伴随着新的挑战。

年初,DeepSeek-R1 发布后,OpenAI 感觉不可思议,指责 DeepSeek「可能使用了 ChatGPT 的输出来训练 R1」。

在与审稿人的交流中,DeepSeek 表示,R1 并非通过复制 OpenAI 模型生成的推理示例来学习。

不过,与大多数其他大语言模型一样,R1 的基础模型是在网络上训练的,因此它会吸收互联网上已有的 AI 生成的内容。

俄亥俄州立大学 AI 研究员 Huan Sun 表示,这一解释「与我们在任何出版物中看到的一样令人信服」。

Nature 审稿人、Hugging Face 机器学习工程师 Lewis Tunstall 补充说,其他实验室的复制尝试表明,DeepSeek 推理方法已经足够好,不需要这样做。

他说:「我认为现在的证据相当明确,仅使用强化学习就可以获得非常高的性能。」

Lewis Tunstall 说,其他研究人员现在正试图应用创建 R1 的方法来改进现有大语言模型的类似推理能力,并将其扩展到数学和编码以外的领域。他补充说,通过这种方式,R1「开启了一场革命」。

参考资料:HYJ

本文来自微信公众号:新智元(ID:AI_era)原文标题:《刚刚,DeepSeek 登上 Nature 封面!梁文锋带队回应质疑,R1 训练真 29.4 万美金》

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 AI推理 强化学习 大语言模型 Nature封面 LLM Reasoning Reinforcement Learning Large Language Models Nature Cover
相关文章