PaperAgent 09月30日
DeepSeek发布V3.2-Exp模型,引入稀疏注意力机制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek发布了其最新的实验模型V3.2-Exp,该模型在V3.1-Terminus基础上,首次集成了DeepSeek稀疏注意力机制(DSA),旨在提升长上下文场景下的训练和推理效率。DSA通过“Lightning Indexer”结合top-k注意力实现,显著降低了计算成本,例如在128K token解码时,成本可降低约10倍。该模型预训练基于1T token,并融合了通过强化学习训练的5个专家模型。同时,V3.2-Exp支持FP8精度,并优化了相关计算内核。消息还暗示DeepSeek V4模型预计于10月发布。

💡 **DeepSeek V3.2-Exp模型发布**:这是DeepSeek推出的最新实验模型,在V3.1-Terminus的基础上进行了升级,并同步公开了相关论文。该模型旨在提升在大模型处理长文本时的效率。

🚀 **稀疏注意力机制(DSA)引入**:V3.2-Exp首次集成了DeepSeek稀疏注意力机制(DSA),通过“Lightning Indexer”结合top-k注意力实现。这一机制能够在长上下文场景下提供更快、更高效的训练和推理速度,有效降低计算成本。

💰 **显著的推理成本降低**:DSA机制在长上下文处理中展现出巨大的成本效益。例如,在128K token的解码场景下,V3.2-Exp的成本约为0.25美元,而采用稠密注意力则需要2.20美元,成本降低了约10倍。

🧠 **模型训练与优化**:该模型基于V3.1 Terminus模型,使用1T token进行预训练。通过强化学习(RL)训练了包括编程、数学等在内的5个专家模型,并利用知识蒸馏技术融合到最终的检查点。此外,模型支持FP8精度,并针对性地优化了稀疏注意力内核,以进一步提升性能。

2025-09-29 19:52 湖北

放假别走,回来看V3.2的paper,干活满满!

每次放假之前DeepSeek都要搞事情,这不,DeepSeek-V3.2-Exp开源,论文也同步公开,干货满满(后面有分析)!有一种放假别走,回来继续看Paper感觉

同时,也有消息称DeepSeek V4也要在10月发布,拭目以待:

    🔥 百万级 Token 上下文窗口

    🧠 GRPO 强化推理

    ⚡ NSA/SPCT 黑科技

回到DeepSeek-V3.2-Exp,它的表现与 DeepSeek-V3.1-Terminus 基本持平

DeepSeek-V3.2-Exp是最新的实验模型!它基于 V3.1-Terminus 构建,并首次引入了DeepSeek 稀疏注意力机制 (DSA),可在长上下文上进行更快、更高效的训练和推理。

论文下载:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

    稀疏注意力机制:通过“Lightning Indexer”结合 top-k 注意力实现稀疏注意力。

    训练基础:基于 V3.1 Terminus 模型,并继续使用 1T token 进行预训练。

    专家模型融合:通过强化学习(RL)训练了5个专门模型(如编程、数学等),然后通过知识蒸馏融合到最终 checkpoint。

    GRPO 算法:使用多种奖励函数,包括长度惩罚、语言一致性、基于评分标准的奖励等。

    性能优化:支持 FP8 精度和稀疏注意力内核,相关代码见以下 PR:

    https://github.com/deepseek-ai/DeepGEMM/pull/200

    https://github.com/deepseek-ai/FlashMLA/pull/98

    https://github.com/tile-ai/tilelang/pull/894

    推理成本分析:虽然 Lightning Indexer 的推理复杂度为 O(L²),但由于 L << N(L 远小于 N),因此在长上下文场景下成本大幅下降。例如,128K token 的解码成本约为 $0.25,而稠密注意力为 $2.20,成本降低约 10 倍。

https://x.com/danielhanchen/status/1972613546119991791
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

推荐阅读


    每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    DeepSeek V3.2-Exp 稀疏注意力 长上下文 AI模型 Sparse Attention Long Context AI Model
    相关文章