IT之家 09月29日 19:25
昇腾携手 DeepSeek V3.2 Exp 开源,加速大模型推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为昇腾宣布已快速适配并开源 DeepSeek-V3.2-Exp 模型,引入稀疏 Attention 架构,并实现 0day 支持。通过在 CANN 平台上进行优化,结合长序列亲和的 CP 并行策略,昇腾在 128K 长序列下实现了 TTFT 低于 2 秒、TPOT 低于 30 毫秒的推理生成速度。此次适配重点优化了 Lightning Indexer (LI) 和 Sparse Flash Attention (SFA) 两个新算子,并推出了大融合算子的编程体系 PyPTO,简化算子开发。同时,昇腾也支持 vLLM 和 SGLang 等主流推理框架,并与 Tile-AI 社区合作开源了 NPU 编程项目 TileLang-Ascend。

🚀 **昇腾对 DeepSeek-V3.2-Exp 的快速适配与开源**:华为昇腾宣布已迅速完成对新发布的 DeepSeek-V3.2-Exp 模型的适配与开源工作,实现了该模型在昇腾 NPU 上的 0day 支持。此次适配基于 vLLM/SGLang 等推理框架,并针对 CANN 平台进行了深度优化,确保了模型能够高效运行。

⚡ **长序列推理性能突破**:通过采用 DeepSeek 的大 EP 并行方案,并叠加长序列亲和的 CP 并行策略,昇腾在处理 128K 的超长序列时,实现了 TTFT(Time To First Token)低于 2 秒和 TPOT(Time Per Output Token)低于 30 毫秒的优异推理生成速度,显著提升了大模型处理长文本的能力。

💡 **算子优化与创新编程体系**:针对 DeepSeek-V3.2-Exp 架构中的 Lightning Indexer (LI) 和 Sparse Flash Attention (SFA) 两个关键新算子,昇腾进行了深入的 Tiling 设计、流水优化和计算流程实现优化。此外,昇腾推出了 PyPTO 编程体系,以 Tensor 为核心,简化了算子开发流程,并在此基础上实现了 LI 和 DeepSeek Indexer Attention 算子的开发。

🤝 **拥抱开源生态与跨框架支持**:昇腾不仅深度开放了自研的 AscendC 及 PyTorch 算子源码,还积极拥抱开源社区,快速支持了 vLLM 和 SGLang 等业界主流大模型推理框架。同时,与 Tile-AI 社区合作开源了 NPU 编程项目 TileLang-Ascend,进一步促进了大模型推理技术的开放和发展。

IT之家 9 月 29 日消息,今晚,DeepSeek-V3.2-Exp 发布并开源,引入稀疏 Attention 架构。华为宣布昇腾已快速基于 vLLM/SGLang 等推理框架完成适配部署,实现 DeepSeek-V3.2-Exp 0day 支持,并面向开发者开源所有推理代码和算子实现。

IT之家从官方介绍获悉,昇腾在 DeepSeek-V3.2-Exp 一发布开源即实现了 DeepSeek-V3.2-Exp BF16 模型部署,并在 CANN 平台上完成对应的优化适配,整体部署策略沿用 DeepSeek 的大 EP 并行方案,针对稀疏 DSA 结构,叠加实现长序列亲和的 CP 并行策略,兼顾时延和吞吐,在 128K 长序列下能够保持 TTFT 低于 2 秒、TPOT 低于 30 毫秒的推理生成速度。

NPU DeepSeek-V3.2-Exp 推理优化实践:

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md

昇腾针对 DeepSeek-V3.2-Exp 架构中两个全新的算子:Lightning Indexer (LI) 以及 Sparse Flash Attention (SFA),针对性地进行算子 Tiling 设计、Cube 核与 Vector 核间的流水优化、计算流程的实现优化等,模型和融合 Kernel 均已开源。

NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化:

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md

为进一步提高昇腾融合算子的编程易用性,昇腾 CANN 首次推出大融合算子的编程体系 PyPTO,旨在简化算子开发流程,同时保持高性能计算能力。该框架创新性地采用 PTO (Parallel Tensor / Tile Operation) 编程范式,以 Tensor 为基本数据表达方式,构建计算图,实现高效计算与优化。目前在昇腾上已经基于 PyPTO 完成 DeepSeek-V3.2-Exp 模型中 DeepSeek Indexer Attention 和 Lightning indexer 算子的开发实践,仅需几百行代码即可完成动态 Shape 算子编程和算子整网运行。

基于 PyPTO 的 Lightning Indexer 和 DeepSeek Indexer Attention 算子开发实践:

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md

昇腾不仅提供了 DeepSeek-V3.2-Exp 的官方参考实践,也同步支持 vLLM 和 SGLang 等业界主流大模型推理框架部署,提供完整功能,能够让广泛的开发者在社区直接下载相关代码体验 DeepSeek-V3.2-Exp 模型,可以在昇腾实现融合算子、稀疏访存、多核并行计算等深度优化能力,并持续优化 DeepSeek-V3.2-Exp 在主流社区的推理性能。

大模型推理框架 vLLM 及昇腾实现:

https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md

大模型推理框架 SGLang 及昇腾实现:

https://github.com/sgl-project/sglang/issues/11060

TileLang 是由 Tile-AI 社区发起的 Tile-level 的类 Python 的 AI 编程语言(DSL)项目,在 Tile 粒度上进行编程和编译,实现模型算子和硬件的高效协同。昇腾已经实现 TileLang 的 Sparse Flash Attention 和 Lightning Indexer 算子开发,后续将支持更完备的 NPU 算子并提升性能和泛化性。

NPU DeepSeek-V3.2-Exp TileLang 算子开发实践:

https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md

TileLang-Ascend 开源社区:

https://github.com/tile-ai/tilelang-ascend

昇腾凭借敏捷协同优化能力,0Day 高效完成 DeepSeek-V3.2-Exp 适配,不仅深度开放自研编程语言 AscendC 及 PyTorch 算子源码,也积极拥抱开源生态,同步实现 vLLM、SGLang 等主流框架的快速支持,并携手开源社区 Tile-AI 共同开源 NPU 编程项目 TileLang-Ascend。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

昇腾 DeepSeek-V3.2-Exp 大模型推理 开源 稀疏Attention AscendC vLLM SGLang TileLang
相关文章