Datawhale 09月29日
DeepSeek发布新实验模型V3.2-Exp,引入稀疏注意力机制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek近日发布了实验性模型V3.2-Exp,旨在探索下一代大模型架构。该模型拥有685B参数量,并引入了创新的稀疏注意力机制DeepSeek Sparse Attention(DSA)。DSA通过闪电索引器和细粒度token选择,使模型能更高效地筛选长文本中的关键信息,显著降低了推理成本,尤其在处理长序列时优势明显。尽管采用了稀疏注意力,V3.2-Exp在编程、数学和推理等核心能力上与前代V3.1-Terminus表现持平,性能损耗极小。此外,该模型API价格大幅下降超过50%,成为“价格屠夫”。

💡 **全新稀疏注意力机制DSA:** DeepSeek-V3.2-Exp最大的亮点是引入了DeepSeek Sparse Attention(DSA)机制。该机制通过闪电索引器和细粒度token选择,使模型在处理长文本时能更高效地识别和关注关键信息,而非进行全局注意力计算,从而显著降低了计算量和推理成本。

🚀 **长文本处理效率大幅提升:** DSA机制将Transformer原本的O(L)注意力计算复杂度降低至O(Lk),其中k远小于L。这意味着模型在处理超长文本时,推理成本显著下降,尤其在128K token等长序列场景下表现突出,能够更快地抓住文本重点。

⚖️ **性能稳定,核心能力无损:** 尽管引入了稀疏注意力机制,DeepSeek-V3.2-Exp在编程、数学、逻辑推理等多项能力评估中,与上一代V3.1-Terminus相比未出现显著性能下降。在关键任务上的强化学习训练曲线高度一致,表明DSA机制并未影响模型的学习稳定性和核心能力。

💰 **API价格大幅降低:** 在保证模型效果与上一代接近的前提下,DeepSeek-V3.2-Exp的API调用价格相比V3.1-Terminus下降了超过50%,成为一款极具性价比的选择,百万输出仅需3元,堪称“价格屠夫”。

原创 Datawhale 2025-09-29 21:08 安徽

就在刚刚,发布新模型 DeepSeek-V3.2-Exp。

 Datawhale干货 

最新发布:DeepSeek-V3.2-Exp

就在刚刚,DeepSeek 发布了新版本模型 DeepSeek-V3.2-Exp

顾名思义,这是一个实验性(Experimental)版本,主要用于探索下一代大模型架构的可能性。

模型参数量为 685B,Hugging Face开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外,这次发布还同步公开了论文,里面详细介绍了全新的稀疏注意力机制:DeepSeek Sparse Attention(DSA) 的设计思路和实现方法。

论文地址:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

核心升级:引入新的稀疏注意力机制

这次的升级,最大的亮点是引入了 DeepSeek Sparse Attention(DSA)。它是一种稀疏注意力机制,目标是在处理长文本时能够减少计算量、提升效率。

简单来说:

模型不再逐字逐句死磕,而是能更快抓住重点;

在处理超长文本时,推理成本显著下降;

性能基本保持稳定,在编程、数学、推理等方面损耗很小。

01 模型不再逐字逐句死磕,而是能更快抓住重点

DSA 机制通过 闪电索引器(lightning indexer) 和 细粒度 token 选择机制,使模型能够高效地筛选关键信息,而不是对所有 token 进行全局注意力计算。

02 在处理超长文本时,推理成本显著下降

DSA 将原本 Transformer 的 O(L)注意力计算复杂度降低至 O(Lk),其中kL例如,在训练中仅选择 2048 个关键 token)。尽管索引器本身仍为O(L),但由于其计算量远小于 MLA(Multi-Latent Attention),整体推理成本大幅降低。

论文中的实验数据显示,在 H800 GPU 集群上,DeepSeek-V3.2-Exp 的推理成本明显低于 V3.1-Terminus,尤其是在长序列(128K token)场景下:

03 性能基本保持稳定,在编程、数学、推理等方面损耗很小

尽管采用了稀疏注意力机制,DeepSeek-V3.2-Exp 在多项能力评估(包括编程、数学、逻辑推理等)中与 V3.1-Terminus 相比未出现显著性能下降

在 BrowseComp(编程评估)和 SWE Verified(软件工程验证)等任务上,两者的强化学习训练曲线高度一致,表明 DSA 并未影响模型的学习稳定性。

虽然在 GPQA、HLE、HMMT 2025 等任务上有轻微性能差距,但论文指出这主要是由于 V3.2-Exp 生成推理 token 更少,若使用中间检查点使 token 数量相当,该差距会消失。

通过这样一个 DSA 机制,能让模型学会“抓大放小”的思维模式,用极高的效率在长文本中锁定关键信息。这也使得模型在推理速度上获得巨大提升,同时核心能力基本保持无损(性能稳定)。

价格离谱:表现与上代接近,价格竟下降一半

讲完了核心升级的机制,来看模型的表现。

在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 与之前的 V3.1-Terminus 总体表现差不多,个别测试有小幅差异。

但在保证效果的同时,API 调用价格有了明显下降,整体便宜了超过 50%。基本都等于白送了,百万输出仅3元,堪称“价格屠夫”!

写在最后

总结一下,DeepSeek-V3.2-Exp 并不是一个「分数更高」的版本,算是一种面向未来的探索。

现在,DeepSeek-V3.2-Exp 已经在官方App / 网页端 / 小程序 / API 全面同步更新,大家可以体验起来!

此外,我们还发现智谱的GLM-4.6也即将发布,在Z.ai官网可以看到,GLM-4.5也已经标识为上一代旗舰模型。

祝各位“源神”国庆快乐。

图片一起“三连

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek V3.2-Exp 大模型 稀疏注意力 AI DeepSeek-V3.2-Exp Sparse Attention Large Language Model
相关文章