cnBeta全文版 09月18日
DeepSeek-R1:纯强化学习驱动AI推理能力新突破,成本大幅降低
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国人工智能迎来重要里程碑,DeepSeek-AI团队在《自然》杂志发表开源模型DeepSeek-R1研究成果,并登上当期封面。该研究展示了如何通过纯强化学习显著提升大语言模型的推理能力,减少对人工标注的依赖。与传统方法相比,R1在数学、编程和STEM领域研究生水平问题上表现更优。DeepSeek-R1的推理成本仅为29.4万美元,远低于国际巨头,并采用组相对策略优化(GRPO)算法,仅基于答案正确性给予奖励,而非模仿人类推理路径。这种方法促使模型涌现出自我反思、自我验证等高级行为,在数学测试中准确率大幅提升,甚至超越人类平均水平。

💡 **纯强化学习驱动推理能力跃升**:DeepSeek-R1的研究表明,通过纯强化学习(RL)框架,特别是组相对策略优化(GRPO)算法,模型能够仅凭最终答案的正确性获得奖励,从而显著提升其推理能力。这种方法促使模型自主发展出自我反思、自我验证以及生成更长推理链条等高级智能行为,尤其在数学解题、编程竞赛等STEM领域展现出优越性能。

💰 **颠覆性成本效益**:该模型在AI大模型领域打破了“资金即壁垒”的潜规则。DeepSeek-R1的推理成本仅为29.4万美元,即便算上基础模型训练开销,整体成本也远低于OpenAI、Google等国际巨头,展现了极高的成本效益,为AI发展开辟了新的可能性。

🌱 **自主学习与创新方法论**:DeepSeek-R1的成功不仅在于性能,更在于其方法论的创新。它并不直接模仿人类的推理过程,而是通过RL让模型“学会自己思考”,在实践中涌现出复杂的思维模式。这种不依赖大量人工标注数据的AI进化之路,为AI研究提供了一条更具可持续性的方向,将AI发展的主动权交还给科学创新本身。

🚀 **中国AI的里程碑与未来展望**:DeepSeek-R1登上《自然》封面,标志着中国在通用人工智能领域取得的重大突破,是中国AI高光时刻的又一例证。这一研究成果预示着未来AI竞争将从“数据与算力的军备竞赛”转向“算法与智慧的创新竞赛”,DeepSeek-R1已为此吹响了号角。

2025年9月17日,属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其同事在《自然》杂志发表了关于开源模型 DeepSeek-R1 的研究成果,并登上当期封面。


图|来源于网络

论文指出,大语言模型(LLM)的推理能力可以通过纯强化学习显著提升,从而减少对人工标注的依赖。与传统训练方式相比,这一方法培养出的模型在数学解题、编程竞赛以及涉及STEM领域研究生水平的问题上,均展现出更优的表现。

在此,DeepSeek也首次回应“蒸馏”争议,在与审稿人的交流中,DeepSeek明确表示,R1并非通过复制OpenAI模型生成的推理示例来学习。只是和大多数其他大语言模型一样,R1的基础模型是在网络上训练的,因此它会吸收互联网上已有的AI生成的内容。

“低成本奇迹”:从29万美元到世界舞台

在AI世界,有一个残酷的共识:顶尖大模型的门槛,从来不是算法,而是成本。OpenAI训练GPT-4,外界估算其花费在1亿美元以上;Google、Anthropic、Meta也在数千万美元级别的预算上展开竞赛。资金与算力,成了决定话语权的核心。

然而,DeepSeek打破了这一“潜规则”。根据研究团队在论文补充材料披露的细节,DeepSeek-R1的推理成本仅为29.4万美元,低到惊人。即便加上约600万美元的基础模型训练开销,整体成本依然远低于国外巨头。

DeepSeek-R1的真正突破,不仅体现在成本,更在于方法论上的创新。

研究团队在《Nature》发表的论文中指出,他们采用了纯强化学习(RL)框架,并引入组相对策略优化(GRPO)算法,仅依据最终答案的正确与否给予奖励,而非让模型模仿人类推理路径。


令人意外的是,这种看似“粗放”的训练方式,却让模型在实践中自然涌现出自我反思(reflection)、自我验证(self-verification)以及生成更长推理链条(long chains of thought)等高级行为,有时甚至会生成成百上千个token来反复推敲一个问题。

这一点在数学测试中尤为明显。论文数据显示,在美国数学邀请赛(AIME 2024)中,DeepSeek-R1-Zero的准确率从15.6%跃升至77.9%,在使用自洽解码(self-consistency decoding)后更达到86.7%,超过了人类平均水平。

《Nature》评论称,这表明模型能够在没有人类推理示范的情况下,通过强化学习自主形成复杂的思维模式。

在后续的多阶段优化中(包括RL、拒绝采样、监督微调及二次RL),最终版本的DeepSeek-R1不仅在数学和编程等硬核任务上表现突出,还在写作、问答等通用任务上展现了流畅性和一致性。这意味着,DeepSeek并不是在“教AI思考”,而是在“让AI学会自己思考”。

梁文锋的十年长跑

除了技术层面的突破,DeepSeek-R1的成功背后,更有一段鲜为人知的奋斗故事。梁文锋,1985年出生于广东湛江一个普通家庭,父亲是小学老师。他的成长轨迹虽不为大众熟知,却在细节中显露出早期的求知与坚韧。


2002年,17岁的梁文锋考入浙江大学电子信息工程专业;五年后,他继续攻读信息与通信工程硕士,师从项志宇,专注机器视觉研究。正是在硕士阶段,他与同学尝试将机器学习应用于金融市场,探索全自动量化交易——那一年,全球金融危机正在席卷世界。尽管机会很多,像大疆创始人汪滔曾邀请他共同创业,梁文锋却选择了一条少有人走的路:坚信人工智能将改变世界,他决定独立创业。

硕士毕业后,梁文锋先是将人工智能技术与量化交易结合,创办雅克比投资及幻方科技,并在十余年间稳步发展。直到2023年,他将目光转向通用人工智能,创办DeepSeek,开启了AI大模型研发之路。凭借对算法和成本效率的双重关注,DeepSeek在短短两年内连续发布V2、V3模型,不仅拉低了国产大模型的推理成本,更以惊人的性价比震撼了全球市场。

梁文锋对团队建设的理念同样非同寻常。他坚持“能力为先”,核心岗位多由应届毕业生和经验仅一两年的年轻人组成,“我们或许不是在中国找到前50名顶尖人才,但我们可以自己培养。”这种信念,也正是DeepSeek能够在低成本下实现高推理能力的关键。

现在来看,DeepSeek的这项研究,其价值远不止于一个性能强大的模型。它更像是一份“方法论宣言”,向世界展示了一条不依赖天量标注数据、更具可持续性的AI进化之路。它打破了“资金即壁垒”的魔咒,将AI发展的主动权交还给了科学创新本身。

这不仅仅是中国AI的高光时刻,更是全球AI迈向“推理革命”的一个重要里程碑。Nature审稿人、Hugging Face机器学习工程师Lewis Tunstall认为,“R1开启了一场革命”。越来越多正在应用R1的方法论改善现有的大语言模型。

未来的AI竞争,很可能将从“数据与算力的军备竞赛”,转向“算法与智慧的创新竞赛”。而DeepSeek-R1,已经为这场新竞赛吹响了号角。

查看评论

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 人工智能 大语言模型 强化学习 Nature 中国AI AI推理 低成本AI DeepSeek-AI LLM Reinforcement Learning AI Reasoning Low-cost AI
相关文章