DeepSeek在国庆前夕发布了最新的实验性模型DeepSeek-V3.2-Exp,核心是引入了名为DeepSeek Sparse Attention(DSA)的新架构。DSA通过细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。同时,DeepSeek大幅下调了其API服务的价格,开发者调用成本将降低50%以上。这项发布被视为DeepSeek迈向下一代架构的中间步骤,也是对其DSA机制的一次大规模公开验证。
🔍 DSA稀疏注意力机制:DeepSeek V3.2-Exp引入了DeepSeek Sparse Attention(DSA)机制,通过只关注与当前处理字最相关的少数关键信息,实现了高效的稀疏注意力方案,大幅提升长文本处理效率。这种方案使用更精简的128维FP8精度Lightning Indexer替代传统注意力机制,将注意力成本降低近9倍。
💰 API服务价格下调:DeepSeek同步对其API服务进行了一次大幅降价,涵盖了从V2到V3.1等多个主力模型。新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上,这是一种“以价换量”的策略,鼓励海量开发者在真实场景中调用其服务,为V3.2-Exp提供压力测试数据。
🌐 国产AI生态联动:DeepSeek开源了DSA中部分关键组件的CUDA算子,并提及了一种由北大团队研发的新型编程语言TileLang,专为简化高难度的GPU算子开发而设计。TileLang不仅支持英伟达的CUDA,也已支持华为昇腾等国产芯片,推动和验证了国产AI软硬件生态的协同发展。
🚀 架构创新驱动AI“摩尔定律”:DeepSeek通过DSA这项技术实验,传递出其仍在智能前沿进行持续探索的信号,也为V4架构的雏形提供了线索。这种由算法和架构创新驱动的AI“摩尔定律”继续,让更多开发者和中小企业能够以更低成本使用到顶尖水平的大模型。
🔬 DSA机制的性能验证:DeepSeek公布了详尽的基准测试数据,显示V3.2-Exp在代码生成、数学推理和通用知识等多个公开评测集上,与前代模型V3.1-Terminus的得分非常接近,差距基本在1%以内,证明了DSA的应用在很大程度上实现了“效率换挡,性能不减”的优化。
原创 周一笑 2025-09-30 10:40 北京
不止是更便宜了。

作者|周一笑邮箱|zhouyixiao@pingwest.com
AI圈,不同的公司似乎都有着自己独特的发布节奏,比如OpenAI和Google喜欢相互“狙击”,在国内被津津乐道的,可能要属DeepSeek的“节前上新”。
一张流传颇广的Hugging Face留言截图,就精准吐槽了DeepSeek这种总是在法定节假日前几天发布新产品的习惯。这次,DeepSeek同样遵循这个规律,在国庆前夕带来了最新的模型DeepSeek-V3.2-Exp。
新模型的后缀“Exp”代表实验性(Experimental)的定位,核心是引入了一项名为DeepSeek Sparse Attention(DSA)的新架构。DSA首次实现了细粒度稀疏注意力机制,几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。DeepSeek也同步大幅下调了其API服务的价格,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。
DSA:通向下一代模型的阶梯? 根据DeepSeek的官方描述,V3.2-Exp并非一个全新的模型系列,而是其迈向下一代架构的一个“中间步骤”。它以前代模型V3.1-Terminus为基础,通过“持续训练”(continued training)的方式,核心目的在于引入并验证其最新的DeepSeek稀疏注意力(DSA)机制。官方将其定位为一次针对长文本训练与推理效率的“探索性优化和验证”。
为了更好的理解这次更新,需要从DSA入手。在Transformer架构中,传统的注意力机制是“稠密的”,处理长文本时成本会呈指数级增长。DSA则提供了一种更高效的“稀疏”方案,让模型学会在处理每个字时,只关注那些与它最相关的少数关键信息,从而在理论上大幅提升效率。
要实现这种高效的“稀疏”,DeepSeek做了一些工程选择,例如新架构用一个更精简的128维FP8精度Lightning Indexer(闪电索引器),替代了过去相对臃肿的注意力机制。这个索引器本身不携带复杂信息,只作为快速查找工具。查找过程用的是低成本的FP8精度,而进行核心计算的重要信息,则依然保持完整的FP16全精度处理。这种在不影响最终质量的地方“极致压缩成本”的思路,是能够将注意力成本降低近9倍的关键。
DeepSeek投入资源研发DSA,最直接的原因可能是提升效率、降低成本。此外,根据一位行业从业者在与硅星人交流中的观点,这背后有更深层的技术考量。随着上下文窗口越来越长,传统注意力机制可能会遭遇性能上的“注意力悬崖”(attention cliff),即在某个长度节点之后,模型处理信息的能力会突然大幅下降。因此,DSA的真正目标,是为未来更长的上下文场景,探索一种能从根本上避免这个问题的架构解决方案。这次发布,也是对这个解决方案的一次大规模公开验证。
一项提升效率的技术,必须考虑是否以牺牲性能为代价。DeepSeek公布了详尽的基准测试数据。数据显示,在与前代模型V3.1-Terminus的严格对齐比较中,V3.2-Exp在各项核心能力上都保持了基本持平的水准。例如,在代码生成(HumanEval)、数学推理(GSM8K)和通用知识(MMLU)等多个公开评测集上,二者的得分都非常接近,差距基本在1%以内。至少在基准测试上,DSA的应用在很大程度上实现了一次“效率换挡,性能不减”的优化。
对新架构的信心,也体现在其市场策略上。在发布V3.2-Exp的同时,DeepSeek对其API服务进行了一次大幅降价,涵盖了从V2到V3.1等多个主力模型。该大模型行业人士对此评论,DeepSeek更像是一种“以价换量”的策略,不只是用户量,更是对新架构的海量“验证量”。通过一个极具吸引力的价格体系,鼓励海量开发者在真实场景中调用其服务,这也为正在进行公开测试的V3.2-Exp提供了压力测试数据和环境。
DeepSeek的这次发布,也在Reddit、Hacker News等技术社区引发了讨论。
最普遍的感受是惊喜。一些用户在测试中取得了不错的效果,一位Reddit网友的评论“创新速度如光速,佩服得五体投地”。更多讨论则聚焦于其极致的性价比,有用户证实V3.2的推理成本显著降低,但“性能各方面却非常相似”。这种“性能不降,费用降低”的组合拳,被普遍认为是模型服务走向普惠的一步。
当然,讨论也并非全是赞誉。有用户反馈,在自己的某些特定测试上,新版本的表现反而不如旧版。同时,关于DSA稀疏注意力机制是否会牺牲部分上下文性能的技术辩论,也在社区持续进行。此外,也有评论对DeepSeek的低价策略能否持续表示观望。
国产AI生态联动