DeepSeek 发布新模型V3.2-Exp，引入稀疏注意力机制

机器之心 09月30日 00:37

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

DeepSeek 在假期前夕发布了其实验性模型 DeepSeek-V3.2-Exp。该模型拥有 685B 参数量，并首次引入了 DeepSeek 稀疏注意力机制（DSA）。DSA 旨在优化长上下文场景下的训练和推理效率，通过细粒度稀疏注意力在保持模型输出质量的同时，显著提升了效率。官方发布的论文详细介绍了 DSA 的工作原理。在公开基准测试中，V3.2-Exp 的表现与上一版本 V3.1-Terminus 相当。此次发布也引发了关于假期工作安排的讨论。

🚀 **DeepSeek-V3.2-Exp 模型发布**：DeepSeek 在假期前一天发布了其最新的实验性模型 DeepSeek-V3.2-Exp，参数量达到 685B。该模型在 HuggingFace 上公开，并附带了详细的论文介绍其核心技术。

💡 **引入稀疏注意力机制（DSA）**：V3.2-Exp 的主要架构改进在于引入了 DeepSeek Sparse Attention（DSA）。DSA 是一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制，通过细粒度稀疏注意力显著提高了处理长文本序列的计算效率，同时保持了与先前模型相当的输出质量。

📊 **性能验证与对比**：为严格评估 DSA 的影响，DeepSeek 将 V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对比。在多个领域的公开基准测试中，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当，证明了新机制在效率提升的同时未牺牲模型性能。

🤔 **行业动态与讨论**：此次发布也伴随着行业内的其他动态，例如智谱 GLM-4.6 即将发布。同时，该模型在假期前发布也引发了社区对于工作与休息的讨论，有网友呼吁在假期期间给予开发者休息时间。

机器之心报道

机器之心编辑部

还是熟悉的节奏！

在假期前一天，DeepSeek 果然搞事了。

刚刚，DeepSeek-V3.2-Exp 开源了！

该模型参数量为 685B，HuggingFace 链接：

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外，此次发布竟然也同步公开了论文，公开了 DeepSeek 新的稀疏注意力机制，为我们提供了更多结束细节：

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek Sparse Attention（DSA）稀疏注意力机制

在官方介绍中，DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制（DeepSeek Sparse Attention，DSA）—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。

DSA 也是 3.2 版本的唯一架构改进。