2025-09-29 19:52 湖北
放假别走,回来看V3.2的paper,干活满满!
🔥 百万级 Token 上下文窗口
🧠 GRPO 强化推理
⚡ NSA/SPCT 黑科技
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
稀疏注意力机制:通过“Lightning Indexer”结合 top-k 注意力实现稀疏注意力。
训练基础:基于 V3.1 Terminus 模型,并继续使用 1T token 进行预训练。
专家模型融合:通过强化学习(RL)训练了5个专门模型(如编程、数学等),然后通过知识蒸馏融合到最终 checkpoint。
GRPO 算法:使用多种奖励函数,包括长度惩罚、语言一致性、基于评分标准的奖励等。
性能优化:支持 FP8 精度和稀疏注意力内核,相关代码见以下 PR:
https://github.com/deepseek-ai/DeepGEMM/pull/200
https://github.com/deepseek-ai/FlashMLA/pull/98
https://github.com/tile-ai/tilelang/pull/894
推理成本分析:虽然 Lightning Indexer 的推理复杂度为 O(L²),但由于 L << N(L 远小于 N),因此在长上下文场景下成本大幅下降。例如,128K token 的解码成本约为 $0.25,而稠密注意力为 $2.20,成本降低约 10 倍。
https://x.com/danielhanchen/status/1972613546119991791https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
推荐阅读
每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~
