AI前线 09月18日
DeepSeek-R1:大模型推理研究迈入新纪元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-R1,由DeepSeek团队研发的开源AI推理模型,其研究论文成功发表于国际顶尖期刊《自然》并登上封面,标志着国产AI研究迈向世界舞台。该模型的核心突破在于,不依赖大量人工标注的思维链数据,而是通过强化学习机制自主形成推理能力。文章详细介绍了R1的训练过程,包括多阶段训练、监督微调和拒绝采样。论文还回应了外界关于数据来源的质疑,强调数据来自互联网,并进行了严格的数据清理和安全性评估。R1的训练成本远低于竞争对手,且在多项评测中表现优异,被誉为首个经过同行严格审查的大语言模型,为AI研究树立了重要先例。

💡 **首个同行评审的AI推理模型**:DeepSeek-R1是首个成功通过《自然》期刊严格同行评审的大语言模型,其研究论文的发表不仅提升了国产AI的国际影响力,也为大语言模型的研究和评估树立了新的行业标准,证明了AI模型可以通过严谨的学术验证。

🧠 **纯强化学习驱动的推理能力**:该模型的核心创新在于利用强化学习(RL)机制,让模型在训练中自主生成推理过程,而非依赖大量人工标注的思维链数据或提示工程。这种自动化试错方法能够让模型在不遵循人类预设策略的情况下,自行学习和验证其工作逻辑,实现接近专家水平的推理能力。

⚖️ **成本效益与安全性并存**:DeepSeek-R1的训练成本仅为294,000美元,远低于行业内其他竞争模型,展现了高性价比。同时,模型在安全性评估中表现出色,优于Claude-3.7-Sonnet和GPT-4o等主流模型,通过外部风险控制机制和实时审查,确保了模型的安全可靠性。

🌐 **数据来源与透明度**:论文详细回应了关于数据来源的质疑,声明预训练数据主要来自互联网,并强调未进行有意的蒸馏过程。为保证测试的准确性,团队对数据进行了大规模清理,剔除了大量潜在的污染样本,并增加了技术细节说明,以提高研究的可复现性。

2025-09-18 10:26 北京

9 月 17 日,开源 AI“顶流”DeepSeek 再次引发行业轰动。

 整理|冬梅

9 月 17 日,开源 AI“顶流”DeepSeek 再次引发行业轰动。其推理模型研究论文 DeepSeek-R1,DeepSeek 创始人梁文锋以通讯作者的名义正式发表在国际顶尖期刊《自然》(Nature)上,并登上当期封面。

这不仅标志着国产 AI 研究迈入世界舞台,也意味着大语言模型首次通过了完整的同行评审,填补了行业空白。

DeepSeek-R1 的核心突破在于,该模型无需依赖大量人工标注的思维链数据,而是借助强化学习(RL)机制,让模型在训练中自主形成推理能力。研究团队首先基于 DeepSeek-V3 Base 构建出 R1-Zero,通过只奖励最终预测正确性的方式,引导模型逐渐学会生成更长、更具逻辑性的回答。随后,团队在此基础上引入多阶段训练,结合监督微调和拒绝采样,最终打造出既具备强推理性能、又符合人类偏好的 DeepSeek-R1。

在全球开源社区中,DeepSeek-R1 已成为最受欢迎的推理模型之一。截至目前,其在 Hugging Face 平台的下载量已突破 1090 万次

  新版论文回应质疑,

披露训练细节

与今年初的预印版相比,本次发表于《自然》的论文补充了大量训练细节,并回应了此前外界关于“蒸馏”的质疑,总结下来可以概括为下面几个重点:

首先是数据来源问题。该论文中称,DeepSeek-V3 Base 的预训练数据完全来自互联网,虽然可能包含部分由 GPT-4 生成的文本,但团队强调未进行任何有意的蒸馏过程。

其次是去污染措施:为避免基准测试成绩“虚高”,团队对预训练和后训练数据进行了大规模清理。仅在数学数据中,就剔除了约 600 万条潜在污染样本

安全性评估:DeepSeek-R1 引入外部风险控制机制,并通过 DeepSeek-V3 进行实时审查。在多个公开测试中,其安全性表现优于 Claude-3.7-Sonnet 和 GPT-4o 等主流模型。

此外,值得注意的是,该新版论文补充材料中首次披露了 R1 的训练成本:仅相当于 294000 美元。这不包括打造 R1 所基于的基础大模型花费掉的 600 万美元左右,但总金额仍远低于竞争对手模型所花费的数千万美元。

论文地址:

https://www.nature.com/articles/s41586-025-09422-z#code-availability

同行评审报告:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf

首个经过同行严格审查的模型

R1 被认为是第一个经过同行评审流程的大语言模型重要项目。“这是一个非常受欢迎的先例,”Hugging Face 的机器学习工程师 Lewis Tunstall 说道,他曾审阅过《自然》杂志的论文。 “如果我们没有公开分享这一流程大部分内容的规范,就很难评估这些系统是否存在风险。”

到底经过同行严格审查这件事有多重要?意味着什么?

据悉,DeepSeek 团队于今年 2 月 14 日将论文提交至《自然》,经过 5 个月审查,在 7 月 17 日获准接收,并于 9 月 17 日正式发表。在此期间,共有 8 位外部专家参与评审,从原创性、方法设计到鲁棒性提出了上百条意见。

这些意见既包括对单复数用法等细节的修改,也涉及更为关键的学术问题,例如:避免在论文中过度拟人化 AI、澄清“开源”概念的使用、解释数据污染防控措施,以及提供更透明的监督微调(SFT)和强化学习(RL)数据链接。

最终形成的审稿文件长达 64 页,篇幅几乎是论文本身的三倍。DeepSeek 逐一回应并吸纳了建议,在正式发表版本中新增了多处章节与补充材料。

《同行评审报告》的关键结果指出:

以往的研究表明,大语言模型在涉及数学或逻辑推理的任务中,如果在生成最终答案前先生成推理过程,往往能取得更好的表现。现有的方法主要包括:通过提示工程(例如在输入中添加“让我们一步一步思考”这样的字符串)来引导模型生成推理,或者利用包含推理示例的训练数据进行监督微调。

本论文的主要贡献在于:他们证明了 仅依靠强化学习,就可以教会大语言模型进行推理,而无需依赖提示工程,也几乎不依赖人工数据(如人工示范和奖励标注)。

这项研究在语言模型的后训练方法上具有奠基性意义:它展示了 无需人工干预,仅通过强化学习就能实现接近专家水平的推理能力。最终得到的模型 DeepSeek R1 在多项评测基准上达到了业界领先的水平,并且已经在学术界引发了广泛关注和兴奋。

不过,论文也存在不足:其训练数据的具体组成缺乏透明度,可能会限制研究的可复现性;同时,模型开发过程中许多决策缺乏实证结果来解释其有效性。

为了回应同行评审的意见,DeepSeek 团队减少了描述中的拟人化,并增加了对技术细节的说明,包括模型训练的数据类型及其安全性。“经过严格的同行评审流程无疑有助于验证模型的有效性和实用性,”哥伦布俄亥俄州立大学的人工智能研究员 Huan Sun 表示。“其他公司也应该这样做。”

DeepSeek 的主要创新在于使用一种自动化的试错方法(即纯强化学习)来创建 R1。该过程会奖励模型得出正确答案,而不是教它遵循人类选择的推理示例。该公司表示,这就是其模型学习自身类似推理策略的方式,例如如何在不遵循人类规定的策略的情况下验证其工作原理。为了提高效率,该模型还使用估算值来对自己的尝试进行评分,而不是使用单独的算法,这种技术被称为组相对策略优化

Huan Sun 教授表示,该模型在人工智能研究人员中“颇具影响力”。“到目前为止,2025 年几乎所有在大语言模型中进行强化学习的研究都可能以某种方式受到了 R1 的启发。”

使用了 OpenAI 输出的数据训练 R1?

1 月份的媒体报道称,OpenAI 公司(ChatGPT 和“o”系列推理模型的创建者)的研究人员认为 DeepSeek 使用了 OpenAI 模型的输出来训练 R1,这种方法可以在使用更少资源的情况下加速模型的能力。

DeepSeek 尚未将其训练数据作为论文的一部分发布。但在与审稿人的交流中,该公司的研究人员表示,R1 并非通过复制 OpenAI 模型生成的推理示例来学习。然而,他们也承认,与大多数其他大语言模型 (LLM) 一样,R1 的基础模型是在网络上训练的,因此它会吸收互联网上已有的任何 AI 生成的内容。

Huan Sun 表示,这一反驳“与我们在任何出版物中看到的一样令人信服”。Tunstall 补充道,虽然他不能 100% 确定 R1 没有接受过 OpenAI 样本的训练,但其他实验室的重复尝试表明,DeepSeek 的推理方法可能足够好,无需进行重复训练。“我认为现在的证据相当明确,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

Huan Sun 教授表示,对于研究人员来说,R1 仍然非常具有竞争力。在一项名为 ScienceAgentBench 的科学任务挑战赛中,Huan Sun 教授和同事发现,虽然 R1 在准确性方面并非第一,但在平衡性能和成本方面,它是最好的模型之一。

Tunstall 表示,其他研究人员目前正尝试运用创建 R1 的方法来提升现有大语言模型(LLM)的推理能力,并将其扩展到数学和编码以外的领域。他补充道,R1 以这种方式“引发了一场革命”。

参考链接:

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf

https://arxiv.org/abs/2501.12948

https://hal.cs.princeton.edu/scienceagentbench

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

10 月 23 - 25 日,QCon 上海站即将召开,限时 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 大语言模型 AI推理 强化学习 Nature 开源AI 同行评审 LLM Reasoning Reinforcement Learning Open Source AI Peer Review
相关文章