Datawhale 09月30日 11:45
DeepSeek发布新实验模型V3.2-Exp,引入稀疏注意力机制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek近日发布了其最新的实验性模型DeepSeek-V3.2-Exp,旨在探索下一代大模型架构。该模型参数量为685B,核心亮点在于引入了名为DeepSeek Sparse Attention(DSA)的全新稀疏注意力机制。DSA通过闪电索引器和细粒度token选择,使模型在处理长文本时能更高效地筛选关键信息,显著降低计算量和推理成本,同时在编程、数学等核心能力上保持了与上一代模型V3.1-Terminus相当的性能。此外,新模型在API调用价格上大幅下降,性价比显著提升,现已全面更新至官方App、网页端、小程序及API。

🚀 **引入DeepSeek Sparse Attention(DSA)机制**:DeepSeek-V3.2-Exp的核心升级在于集成了全新的DSA稀疏注意力机制。该机制旨在优化长文本处理效率,通过闪电索引器和细粒度token选择,使模型能够跳过不必要的逐字逐句计算,快速识别并聚焦于关键信息,从而大幅降低了计算量和推理成本。

💡 **长文本处理效率大幅提升**:DSA机制将Transformer原有的注意力计算复杂度从O(L)降低至O(Lk),其中k远小于L。这意味着模型在处理超长序列时,推理成本显著下降,例如在训练中仅需关注2048个关键token,这对于需要处理大量上下文信息的应用场景尤为重要。

⚙️ **性能稳定,核心能力损耗极小**:尽管采用了稀疏注意力机制,DeepSeek-V3.2-Exp在多项能力评估中,包括编程、数学和逻辑推理等,表现与上一代模型V3.1-Terminus基本持平,未出现显著的性能下降。在软件工程等任务上的强化学习训练曲线也高度一致,证明了DSA并未影响模型的学习稳定性和核心能力。

💰 **性价比革命,价格大幅降低**:相较于上一代模型,DeepSeek-V3.2-Exp在API调用价格上进行了大幅度的调整,整体价格下降超过50%。这种“价格屠夫”式的定价策略,使得百万级别的输出成本仅需3元,极大地降低了使用门槛,提升了模型的可用性和普及度。

原创 Datawhale 2025-09-29 21:08 安徽

就在刚刚,发布新模型 DeepSeek-V3.2-Exp。

 Datawhale干货 

最新发布:DeepSeek-V3.2-Exp

就在刚刚,DeepSeek 发布了新版本模型 DeepSeek-V3.2-Exp

顾名思义,这是一个实验性(Experimental)版本,主要用于探索下一代大模型架构的可能性。

模型参数量为 685B,Hugging Face开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外,这次发布还同步公开了论文,里面详细介绍了全新的稀疏注意力机制:DeepSeek Sparse Attention(DSA) 的设计思路和实现方法。

论文地址:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

核心升级:引入新的稀疏注意力机制

这次的升级,最大的亮点是引入了 DeepSeek Sparse Attention(DSA)。它是一种稀疏注意力机制,目标是在处理长文本时能够减少计算量、提升效率。

简单来说:

01 模型不再逐字逐句死磕,而是能更快抓住重点

DSA 机制通过 闪电索引器(lightning indexer) 和 细粒度 token 选择机制,使模型能够高效地筛选关键信息,而不是对所有 token 进行全局注意力计算。

02 在处理超长文本时,推理成本显著下降

DSA 将原本 Transformer 的 注意力计算复杂度降低至 ,其中例如,在训练中仅选择 2048 个关键 token)。尽管索引器本身仍为,但由于其计算量远小于 MLA(Multi-Latent Attention),整体推理成本大幅降低。

论文中的实验数据显示,在 H800 GPU 集群上,DeepSeek-V3.2-Exp 的推理成本明显低于 V3.1-Terminus,尤其是在长序列(128K token)场景下:

03 性能基本保持稳定,在编程、数学、推理等方面损耗很小

尽管采用了稀疏注意力机制,DeepSeek-V3.2-Exp 在多项能力评估(包括编程、数学、逻辑推理等)中与 V3.1-Terminus 相比未出现显著性能下降

通过这样一个 DSA 机制,能让模型学会“抓大放小”的思维模式,用极高的效率在长文本中锁定关键信息。这也使得模型在推理速度上获得巨大提升,同时核心能力基本保持无损(性能稳定)。

价格离谱:表现与上代接近,价格竟下降一半

讲完了核心升级的机制,来看模型的表现。

在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 与之前的 V3.1-Terminus 总体表现差不多,个别测试有小幅差异。

但在保证效果的同时,API 调用价格有了明显下降,整体便宜了超过 50%。基本都等于白送了,百万输出仅3元,堪称“价格屠夫”!

写在最后

总结一下,DeepSeek-V3.2-Exp 并不是一个「分数更高」的版本,算是一种面向未来的探索。

现在,DeepSeek-V3.2-Exp 已经在官方App / 网页端 / 小程序 / API 全面同步更新,大家可以体验起来!

此外,我们还发现智谱的GLM-4.6也即将发布,在Z.ai官网可以看到,GLM-4.5也已经标识为上一代旗舰模型。

祝各位“源神”国庆快乐。

一起“三连

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek AI模型 稀疏注意力 大模型 DeepSeek-V3.2-Exp DSA 语言模型
相关文章