Cnbeta 09月29日 20:08
DeepSeek发布685B参数模型V3.2-Exp,引入稀疏注意力机制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek在假期前夕发布了其最新的实验版本模型DeepSeek-V3.2-Exp,该模型拥有6850亿参数。此次发布的一大亮点是同步公开了其新的稀疏注意力机制——DeepSeek Sparse Attention(DSA)。DSA旨在优化长上下文场景下的训练和推理效率,是V3.2版本唯一的架构改进。DeepSeek表示,DSA通过细粒度稀疏注意力,在保持模型输出质量与V3.1-Terminus相当的同时,显著提升了处理长文本序列的计算效率。该模型及其论文已在HuggingFace和GitHub上公开,为后续更高效Transformer架构的研究奠定了基础。

🌟 **DeepSeek-V3.2-Exp模型发布**:DeepSeek在假期前发布了其参数量达6850亿的实验版本模型DeepSeek-V3.2-Exp。此次发布标志着DeepSeek在探索更高效模型架构方面的持续努力,并为用户提供了最新的技术进展。

💡 **引入DeepSeek稀疏注意力机制(DSA)**:V3.2-Exp模型的核心创新在于引入了DeepSeek Sparse Attention(DSA)机制。该机制专注于优化在处理长上下文(即长文本序列)时的训练和推理效率,是本次版本更新的唯一架构改进。

🚀 **显著提升长上下文处理效率**:DSA通过实现细粒度稀疏注意力,能够在保持模型输出质量几乎不变的情况下,显著提高处理长文本序列时的计算效率。这意味着模型能够更有效地理解和生成长篇内容,为大规模文本处理应用带来福音。

📊 **性能与V3.1-Terminus相当**:为了验证DSA的效果,DeepSeek将V3.2-Exp的训练配置与此前的V3.1-Terminus进行了严格对比。在多项公开基准测试中,DeepSeek-V3.2-Exp均展现出与V3.1-Terminus相当的性能,证明了其在提升效率的同时并未牺牲模型能力。

🔗 **全面开放与研究价值**:DeepSeek-V3.2-Exp模型及其相关论文已在HuggingFace和GitHub上同步公开。这不仅为社区提供了最新的模型资源,也为研究人员深入了解和进一步探索高效Transformer架构提供了宝贵的研究材料。

还是熟悉的节奏!在假期前一天,DeepSeek 果然搞事了。刚刚,DeepSeek-V3.2-Exp 开源了!该模型参数量为 685B。



HuggingFace 链接:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外,此次发布竟然也同步公开了论文,公开了 DeepSeek 新的稀疏注意力机制,为我们提供了更多结束细节:


https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek Sparse Attention(DSA)稀疏注意力机制

在官方介绍中,DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention,DSA)—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。

DSA 也是 3.2 版本的唯一架构改进。


DeepSeek-V3.2-Exp 的架构,其中 DSA 在 MLA 下实例化。

重点要说的是,DeepSeek 称该实验版本代表了他们对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。


在 v3.2 版本中,DeepSeek 稀疏注意力 (DSA) 首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。

为了严格评估引入稀疏注意力机制的影响,DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 9 月 22 日刚刚推出的 V3.1-Terminus 进行了对比。在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。


更多信息,读者们可以查阅 DeepSeek-V3.2-Exp 的 huggingface 介绍。

值得一提的是,智谱的 GLM-4.6 也即将发布,在 Z.ai 官网可以看到,GLM-4.5 标识为上一代旗舰模型。


最后,有一波小节奏。在模型发布前,已经有网友在 Community 里发帖称:国庆是休息日,请给我们关注的同学一点休息时间。


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek V3.2-Exp AI模型 稀疏注意力 Transformer 长上下文 效率优化 开源 DeepSeek Sparse Attention DSA
相关文章