Deepseek官方发布DeepSeek-V3.2-Exp模型,引入稀疏注意力机制优化长文本处理,API价格下调50%以上。
事件催化,9月29日Deepseek官方正式发布DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤,V3.2-Exp在上一代的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。得益于新模型服务成本的大幅降低,DS官方API价格也相应下调,开发者调用DeepSeek API的成本将降低50%以上。 #寒武纪与昇腾均快速实现Day0适配。寒武纪实现对DS新模型的适配,并开源大模型推理引擎vLL