DeepSeek发布685B参数模型V3.2-Exp，引入稀疏注意力机制

cnBeta全文版 09月29日 21:32

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

DeepSeek发布了其最新的实验性模型DeepSeek-V3.2-Exp，该模型拥有6850亿参数。此次发布的最大亮点是引入了DeepSeek Sparse Attention（DSA）稀疏注意力机制，旨在优化长上下文场景下的训练和推理效率。DSA是一种新的稀疏注意力机制，旨在探索和验证提高Transformer架构在处理长文本序列时的计算效率。实验数据显示，DeepSeek-V3.2-Exp在保持与V3.1-Terminus几乎相当的模型输出质量的同时，显著提升了效率。该模型和相关论文已同步公开，为研究者提供了深入了解其技术细节的机会。

🚀 **DeepSeek-V3.2-Exp模型发布**：DeepSeek在假期前发布了其最新的实验性模型DeepSeek-V3.2-Exp，参数量高达6850亿。该模型被定位为迈向下一代架构的过渡，并在HuggingFace上提供了公开链接，方便用户访问和使用。

💡 **引入DSA稀疏注意力机制**：该模型的核心创新是DeepSeek Sparse Attention（DSA）稀疏注意力机制。DSA旨在探索并验证在长上下文场景下，如何通过稀疏化注意力计算来提高Transformer模型的训练和推理效率，这是V3.2版本唯一的架构改进。

📊 **效率与性能的平衡**：DeepSeek表示，DSA稀疏注意力机制在保持模型输出质量几乎不变的前提下，显著提高了处理长文本序列的训练和推理效率。通过与V3.1-Terminus的对比测试，DeepSeek-V3.2-Exp在公开基准测试中表现相当，证明了其效率优化的有效性。

📄 **技术细节公开**：此次发布同步公开了相关论文，详细阐述了DSA稀疏注意力机制的设计原理和在DeepSeek-V3.2-Exp模型中的具体实现。这为研究社区提供了深入了解该技术细节和潜在应用的机会。

还是熟悉的节奏！在假期前一天，DeepSeek 果然搞事了。刚刚，DeepSeek-V3.2-Exp 开源了！该模型参数量为 685B。

HuggingFace 链接：

https：//huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外，此次发布竟然也同步公开了论文，公开了 DeepSeek 新的稀疏注意力机制，为我们提供了更多结束细节：

https：//github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek Sparse Attention（DSA）稀疏注意力机制

在官方介绍中，DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制（DeepSeek Sparse Attention，DSA）—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。

DSA 也是 3.2 版本的唯一架构改进。

DeepSeek-V3.2-Exp 的架构，其中 DSA 在 MLA 下实例化。

重点要说的是，DeepSeek 称该实验版本代表了他们对更高效的 Transformer 架构的持续研究，特别注重提高处理扩展文本序列时的计算效率。

在 v3.2 版本中，DeepSeek 稀疏注意力（DSA）首次实现了细粒度稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提高了长上下文训练和推理效率。

为了严格评估引入稀疏注意力机制的影响，DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 9 月 22 日刚刚推出的 V3.1-Terminus 进行了对比。在各个领域的公开基准测试中，DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。

更多信息，读者们可以查阅 DeepSeek-V3.2-Exp 的 huggingface 介绍。

值得一提的是，智谱的 GLM-4.6 也即将发布，在 Z.ai 官网可以看到，GLM-4.5 标识为上一代旗舰模型。

最后，有一波小节奏。在模型发布前，已经有网友在 Community 里发帖称：国庆是休息日，请给我们关注的同学一点休息时间。

查看评论

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签