DeepSeek-R1：大模型推理研究迈入新纪元

2025-09-18 10:26 北京

9 月 17 日，开源 AI“顶流”DeepSeek 再次引发行业轰动。

整理｜冬梅

9 月 17 日，开源 AI“顶流”DeepSeek 再次引发行业轰动。其推理模型研究论文 DeepSeek-R1，DeepSeek 创始人梁文锋以通讯作者的名义正式发表在国际顶尖期刊《自然》（Nature）上，并登上当期封面。

这不仅标志着国产 AI 研究迈入世界舞台，也意味着大语言模型首次通过了完整的同行评审，填补了行业空白。

DeepSeek-R1 的核心突破在于，该模型无需依赖大量人工标注的思维链数据，而是借助强化学习（RL）机制，让模型在训练中自主形成推理能力。研究团队首先基于 DeepSeek-V3 Base 构建出 R1-Zero，通过只奖励最终预测正确性的方式，引导模型逐渐学会生成更长、更具逻辑性的回答。随后，团队在此基础上引入多阶段训练，结合监督微调和拒绝采样，最终打造出既具备强推理性能、又符合人类偏好的 DeepSeek-R1。

在全球开源社区中，DeepSeek-R1 已成为最受欢迎的推理模型之一。截至目前，其在 Hugging Face 平台的下载量已突破 1090 万次。

新版论文回应质疑，

披露训练细节

与今年初的预印版相比，本次发表于《自然》的论文补充了大量训练细节，并回应了此前外界关于“蒸馏”的质疑，总结下来可以概括为下面几个重点：

首先是数据来源问题。该论文中称，DeepSeek-V3 Base 的预训练数据完全来自互联网，虽然可能包含部分由 GPT-4 生成的文本，但团队强调未进行任何有意的蒸馏过程。

其次是去污染措施：为避免基准测试成绩“虚高”，团队对预训练和后训练数据进行了大规模清理。仅在数学数据中，就剔除了约 600 万条潜在污染样本。

安全性评估：DeepSeek-R1 引入外部风险控制机制，并通过 DeepSeek-V3 进行实时审查。在多个公开测试中，其安全性表现优于 Claude-3.7-Sonnet 和 GPT-4o 等主流模型。

此外，值得注意的是，该新版论文补充材料中首次披露了 R1 的训练成本：仅相当于 294000 美元。这不包括打造 R1 所基于的基础大模型花费掉的 600 万美元左右，但总金额仍远低于竞争对手模型所花费的数千万美元。

论文地址：

https://www.nature.com/articles/s41586-025-09422-z#code-availability

同行评审报告：

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf

首个经过同行严格审查的模型

R1 被认为是第一个经过同行评审流程的大语言模型重要项目。“这是一个非常受欢迎的先例，”Hugging Face 的机器学习工程师 Lewis Tunstall 说道，他曾审阅过《自然》杂志的论文。 “如果我们没有公开分享这一流程大部分内容的规范，就很难评估这些系统是否存在风险。”

到底经过同行严格审查这件事有多重要？意味着什么？

据悉，DeepSeek 团队于今年 2 月 14 日将论文提交至《自然》，经过 5 个月审查，在 7 月 17 日获准接收，并于 9 月 17 日正式发表。在此期间，共有 8 位外部专家参与评审，从原创性、方法设计到鲁棒性提出了上百条意见。

这些意见既包括对单复数用法等细节的修改，也涉及更为关键的学术问题，例如：避免在论文中过度拟人化 AI、澄清“开源”概念的使用、解释数据污染防控措施，以及提供更透明的监督微调（SFT）和强化学习（RL）数据链接。

最终形成的审稿文件长达 64 页，篇幅几乎是论文本身的三倍。DeepSeek 逐一回应并吸纳了建议，在正式发表版本中新增了多处章节与补充材料。

《同行评审报告》的关键结果指出：

以往的研究表明，大语言模型在涉及数学或逻辑推理的任务中，如果在生成最终答案前先生成推理过程，往往能取得更好的表现。现有的方法主要包括：通过提示工程（例如在输入中添加“让我们一步一步思考”这样的字符串）来引导模型生成推理，或者利用包含推理示例的训练数据进行监督微调。

本论文的主要贡献在于：他们证明了仅依靠强化学习，就可以教会大语言模型进行推理，而无需依赖提示工程，也几乎不依赖人工数据（如人工示范和奖励标注）。

这项研究在语言模型的后训练方法上具有奠基性意义：它展示了无需人工干预，仅通过强化学习就能实现接近专家水平的推理能力。最终得到的模型 DeepSeek R1 在多项评测基准上达到了业界领先的水平，并且已经在学术界引发了广泛关注和兴奋。

不过，论文也存在不足：其训练数据的具体组成缺乏透明度，可能会限制研究的可复现性；同时，模型开发过程中许多决策缺乏实证结果来解释其有效性。

今日荐文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签