DeepSeek V3 模型迎来小版本升级,新版本号为 DeepSeek-V3-0324。此次升级借鉴了 DeepSeek-R1 模型训练中的强化学习技术,显著提升了模型在推理任务上的表现,数学、代码等评测集得分超越 GPT-4.5。前端开发能力增强,HTML 代码生成更具可用性和设计感。中文写作能力优化,尤其在中长篇文本创作方面内容质量得到提升。联网搜索报告生成指令输出更为详实、排版美观。此外,工具调用、角色扮演、问答闲聊等能力也有所增强。新模型权重保持开源,采用 MIT License,支持私有化部署。
🚀 **推理能力显著提升**:新版 V3 模型通过引入 DeepSeek-R1 的强化学习技术,在数学、代码等推理类任务上的表现大幅提高,多个评测集得分超越 GPT-4.5,为用户带来更精准、高效的解决方案。
🎨 **前端开发与中文写作优化**:模型在 HTML 等前端代码生成方面可用性和设计感增强,同时中文写作能力,特别是中长篇文本创作的内容质量得到进一步优化,满足更多样化的内容创作需求。
🌐 **联网搜索与多场景应用增强**:在联网搜索场景下,模型能生成更详实、排版更美观的报告内容。此外,在工具调用、角色扮演、问答闲聊等方面也获得了全面的能力提升,应用场景更加广泛。
📦 **模型开源与灵活部署**:DeepSeek-V3-0324 模型保持开源,采用 MIT License,允许用户进行私有化部署,并可用于训练其他模型。模型参数约 660B,上下文长度达 128K,为用户提供强大的处理能力。
原创 深度求索 2025-03-25 21:24 北京
关闭深度思考即可体验新版 V3,模型权重同步开源

DeepSeek V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,用户登录官方网页、APP、小程序进入对话界面后,
关闭深度思考即可体验。API 接口和使用方式保持不变。如非复杂推理任务,建议使用新版本 V3 模型,即刻享受速度更加流畅、效果全面提升的对话体验。
模型能力提升一览推理任务表现提高新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。新版 V3 模型的百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)表现均有提升
前端开发能力增强在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。

动图展示了一个由模型生成的演示多个小球在指定空间范围内运动的 p5.js 程序,包含若干可以调整重力、摩擦力等参数的滑动按钮,并以赛博朋克风格的 HTML 呈现
中文写作升级在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。
新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。
此外,新版 V3 模型在
工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。
模型开源DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相关变动)。模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。V3-0324 模型权重下载请参考:
Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3-0324Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
与 DeepSeek-R1 保持一致,此次我们的开源仓库(包括模型权重)
统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。








阅读原文
跳转微信打开