原创 Datawhale 2025-09-29 21:08 安徽
就在刚刚,发布新模型 DeepSeek-V3.2-Exp。
Datawhale干货
最新发布:DeepSeek-V3.2-Exp
Datawhale干货
最新发布:DeepSeek-V3.2-Exp

🚀 **引入DeepSeek Sparse Attention(DSA)机制**:DeepSeek-V3.2-Exp的核心升级在于集成了全新的DSA稀疏注意力机制。该机制旨在优化长文本处理效率,通过闪电索引器和细粒度token选择,使模型能够跳过不必要的逐字逐句计算,快速识别并聚焦于关键信息,从而大幅降低了计算量和推理成本。
💡 **长文本处理效率大幅提升**:DSA机制将Transformer原有的注意力计算复杂度从O(L)降低至O(Lk),其中k远小于L。这意味着模型在处理超长序列时,推理成本显著下降,例如在训练中仅需关注2048个关键token,这对于需要处理大量上下文信息的应用场景尤为重要。
⚙️ **性能稳定,核心能力损耗极小**:尽管采用了稀疏注意力机制,DeepSeek-V3.2-Exp在多项能力评估中,包括编程、数学和逻辑推理等,表现与上一代模型V3.1-Terminus基本持平,未出现显著的性能下降。在软件工程等任务上的强化学习训练曲线也高度一致,证明了DSA并未影响模型的学习稳定性和核心能力。
💰 **性价比革命,价格大幅降低**:相较于上一代模型,DeepSeek-V3.2-Exp在API调用价格上进行了大幅度的调整,整体价格下降超过50%。这种“价格屠夫”式的定价策略,使得百万级别的输出成本仅需3元,极大地降低了使用门槛,提升了模型的可用性和普及度。
原创 Datawhale 2025-09-29 21:08 安徽
就在刚刚,发布新模型 DeepSeek-V3.2-Exp。
Datawhale干货
最新发布:DeepSeek-V3.2-Exp
就在刚刚,DeepSeek 发布了新版本模型 DeepSeek-V3.2-Exp。
顾名思义,这是一个实验性(Experimental)版本,主要用于探索下一代大模型架构的可能性。
模型参数量为 685B,Hugging Face开源地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
此外,这次发布还同步公开了论文,里面详细介绍了全新的稀疏注意力机制:DeepSeek Sparse Attention(DSA) 的设计思路和实现方法。
论文地址:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
核心升级:引入新的稀疏注意力机制
这次的升级,最大的亮点是引入了 DeepSeek Sparse Attention(DSA)。它是一种稀疏注意力机制,目标是在处理长文本时能够减少计算量、提升效率。
简单来说:
模型不再逐字逐句死磕,而是能更快抓住重点;
在处理超长文本时,推理成本显著下降;
性能基本保持稳定,在编程、数学、推理等方面损耗很小。
01 模型不再逐字逐句死磕,而是能更快抓住重点
DSA 机制通过 闪电索引器(lightning indexer) 和 细粒度 token 选择机制,使模型能够高效地筛选关键信息,而不是对所有 token 进行全局注意力计算。
02 在处理超长文本时,推理成本显著下降
DSA 将原本 Transformer 的 注意力计算复杂度降低至 ,其中《(例如,在训练中仅选择 2048 个关键 token)。尽管索引器本身仍为,但由于其计算量远小于 MLA(Multi-Latent Attention),整体推理成本大幅降低。
论文中的实验数据显示,在 H800 GPU 集群上,DeepSeek-V3.2-Exp 的推理成本明显低于 V3.1-Terminus,尤其是在长序列(128K token)场景下:
03 性能基本保持稳定,在编程、数学、推理等方面损耗很小
尽管采用了稀疏注意力机制,DeepSeek-V3.2-Exp 在多项能力评估(包括编程、数学、逻辑推理等)中与 V3.1-Terminus 相比未出现显著性能下降。
在 BrowseComp(编程评估)和 SWE Verified(软件工程验证)等任务上,两者的强化学习训练曲线高度一致,表明 DSA 并未影响模型的学习稳定性。
虽然在 GPQA、HLE、HMMT 2025 等任务上有轻微性能差距,但论文指出这主要是由于 V3.2-Exp 生成推理 token 更少,若使用中间检查点使 token 数量相当,该差距会消失。
通过这样一个 DSA 机制,能让模型学会“抓大放小”的思维模式,用极高的效率在长文本中锁定关键信息。这也使得模型在推理速度上获得巨大提升,同时核心能力基本保持无损(性能稳定)。
价格离谱:表现与上代接近,价格竟下降一半
讲完了核心升级的机制,来看模型的表现。
在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 与之前的 V3.1-Terminus 总体表现差不多,个别测试有小幅差异。
但在保证效果的同时,API 调用价格有了明显下降,整体便宜了超过 50%。基本都等于白送了,百万输出仅3元,堪称“价格屠夫”!
写在最后
总结一下,DeepSeek-V3.2-Exp 并不是一个「分数更高」的版本,算是一种面向未来的探索。
现在,DeepSeek-V3.2-Exp 已经在官方App / 网页端 / 小程序 / API 全面同步更新,大家可以体验起来!
祝各位“源神”们国庆快乐。
一起“点赞”三连↓
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑