DeepSeek拥抱TileLang，国产GPU语言引关注

华尔街见闻 - 最热文章 09月30日

DeepSeek拥抱TileLang，国产GPU语言引关注

DeepSeek v3.2模型在官方公告中披露了其采用TileLang语言开发GPU内核的改动，此举引发了广泛关注，甚至超过了其新稀疏注意力机制DSA。TileLang作为一种专门用于开发GPU内核的领域专用语言，性能上可与NVIDIA CUDA媲美，且与国产算力生态适配良好，华为昇腾已宣布支持。开发者称TileLang语法优雅，实现高性能算子仅需少量代码。该语言由北京大学团队主导开发，旨在简化高性能内核开发，通过解耦调度空间与数据流，并引入“Tile”作为核心编程模型，提供多层次编程接口，满足不同开发者需求。DeepSeek团队早期使用TileLang快速原型开发，后进行深度优化，验证了其在模型训练中的潜力。

🔹 **TileLang的崛起与优势**：TileLang是一种专门为GPU内核开发设计的领域专用语言，以其优雅的语法和高效的性能受到关注。开发者发现，使用TileLang仅需不到100行代码即可实现比Flash Attention 2原版快30%的注意力机制，其性能可与英伟达CUDA媲美，并被认为是OpenAI的Triton语言的有力替代者。这使得它在简化高性能计算开发方面展现出巨大潜力。

🔹 **国产算力生态的适配与支持**：TileLang的一大亮点在于其与国产算力生态的良好适配。华为昇腾已第一时间宣布对TileLang提供支持，显示了其在推动国内GPU技术发展中的重要作用。在华为全联接大会2025上，TileLang团队成员展示了其在FlashAttention算子开发上的效率提升，将代码量大幅缩减，同时保持了与官方版本相当的性能，凸显了其在本土化算力平台上的集成优势。

🔹 **DeepSeek v3.2模型的技术选型**：DeepSeek v3.2模型在论文中未提及，但在官方公告中披露了其采用TileLang开发GPU内核的改动，这一决策引起了广泛关注。DeepSeek团队早期利用TileLang快速开发原型，随后进行更底层的优化，成功地在v3.2模型中实现了基于TileLang的内核，并在计算效率上取得了显著提升。这一实践不仅验证了TileLang作为一种新语言在实际模型训练中的可行性，也表明其能够满足对性能有极致追求的专家用户的需求。

🔹 **TileLang的核心设计理念与编程模型**：TileLang由北京大学团队主导开发，其核心设计理念是将调度空间（如线程绑定、内存布局等）与数据流解耦，并通过可自定义的注解和原语进行封装，让开发者能专注于数据流本身，将优化工作交给编译器。其核心编程模型是“Tile”，通过显式的Tile抽象，开发者可以直观地控制数据在不同内存层级间的流动，提供了从高层硬件无关接口到线程原语级别的多层次编程接口，满足了不同水平开发者的需求。

DeepSeek v3.2有一个新改动，在论文里完全没提，只在官方公告中出现一次，却引起墙裂关注。

开源TileLang版本算子，其受关注程度甚至超过新稀疏注意力机制DSA，从画线转发的数量就可以看出来。

海外社区也注意到DeepSeek使用了它而不是OpenAI开发的Triton语言。

有接触过的开发者感叹TileLang是一种非常优雅的语言，只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现。

那么什么是TileLang，又为何引人瞩目？

首先，TileLang是一种专门用来开发GPU内核的领域专用语言，性能上可以对标英伟达CUDA，DeepSeek官方推荐使用此版本做实验，在方便调试和快速迭代上有优势。

更重要的是，TileLang与国产算力生态适配，连华为昇腾都要在第一时间公告对TileLang的支持。

在几周前的华为全联接大会2025的开发者日上，TileLang团队成员董宇骐就介绍了TileLang实现FlashAttention算子开发，代码量从500+行减少至80行，并保持了与官方版本持平的性能。

此外TileLang团队成员王磊和沐曦集成电路的高级总监董兆华也在同一个圆桌沙龙上出现过，讨论了沐曦GPU与TileLang的适配。

DeepSeek为什么选择TileLang

DeepSeek与TileLang第一次同框亮相，其实是在6月的北京智元大会。

在DeepSeek实习过的北大博士袁境阳，在报告中就提到“TileLang的算子实现会更快一点”。

TileLang的发起人之一，北大博士研究生王磊当时还专门发帖感谢DeepSeek尝试他们的语言。

TileLang由北大团队主导开发，核心人物除了王磊、董宇骐，还有北大计算机学院的副研究员、博士生导师杨智。

2025年1月，TileLang在GitHub上正式开源，至今已获得1.9k标星。

简单来说，Tile语言 ( tile-lang ) 是一种简洁的领域专用语言，旨在简化高性能 GPU/CPU 内核的开发。tile-lang采用Python式语法，并在TVM之上构建底层编译器基础架构，使开发者能够专注于提高生产力，而无需牺牲实现最佳性能所需的底层优化。

王磊曾在7月HyperAI超神经主办的Meet AI Compiler技术沙龙分享TileLang的核心设计理念：

将调度空间（包括线程绑定、内存布局、张量化和流水线等）与数据流解耦，并将其封装为一组可自定义的注解和原语。这种方法允许用户专注于内核的数据流本身，而将大部分优化工作交给编译器完成。

TileLang将“Tile”作为编程模型的核心概念，通过显式的Tile抽象，让开发者能够直观地控制数据在全局内存、共享内存和寄存器之间的流动。

TileLang提供了三个不同层次的编程接口，满足不同水平开发者的需求。

初学者可以使用硬件无关的高层接口，专注于算法逻辑而不必关心底层细节。

有经验的开发者可以使用ile Library，这里包含了各种针对不同硬件架构优化过的预定义操作。

对于追求极致性能的专家用户，TileLang还提供了线程原语级别的控制，允许他们直接操作线程同步、内存合并等底层特性。

DeepSeek显然就属于追求极致性能的专家用户了，根据v3.2公告的说法，在早期DeepSeek团队使用TileLang快速开发原型，之后用更底层的方法进一步优化性能。

v3.2论文中提到在内核层面共享k-v提升计算效率，让DSA的闪电索引器机制（lightning indexer）运行速度远超传统实现。

在TileLang的文档中也有相关的技术介绍，在计算过程中缓存中间数据，比全局内存快得多。

TileLang与DeepSeek双向奔赴

更早之前，在DeepSeek连续一周发布开源代码库的第一天，王磊就曾向DeepSeek团队推荐TileLang语言。

后来TileLang也以DeepSeek在这天发布的FlashMLA内核作为评测基准，在H100上的MLA解码速度，TileLang编写的内核做到与FlashMLA相当。

在最新的DeepSeek v3.2发布之后，王磊也发帖致敬DeepSeek敢于使用一门新的编程语言来开发核心产品。

并且DeepSeek v3.2也验证了TileLang确实可以用来训练模型。

DeepSeek V3.2技术报告：
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang：
https://github.com/tile-ai/tilelang

本文来源：量子位，原文标题：《DeepSeek突然拥抱国产GPU语言！TileLang对标CUDA替代Triton，华为昇腾Day0官宣支持适配》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek TileLang GPU内核国产算力 AI 深度学习 CUDA Triton 华为昇腾

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

How popular is ChatGPT? Part 1: more popular than Taylor Swift

Import AI 363: ByteDance’s 10k GPU training run; PPO vs REINFORCE; and generative everything

Weka Makes Life Simpler for Developers, Engineers, and Architects

xLSTM: Enhancing Long Short-Term Memory LSTM Capabilities for Advanced Language Modeling and Beyond

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

Intersect360 Research Takes a Deep Dive into the HPC-AI Market in New Report

Optimizing Graph Neural Network Training with DiskGNN: A Leap Toward Efficient Large-Scale Learning