在通用智能时代,创新的挑战从“从0到1”变为“从-1到0”和“从0到1”,即如何将前沿科研转化为有价值的技术。本文介绍了年轻研究者如何在资源受限的情况下,通过提出有价值的研究问题,并进行实验与探索,推动技术变革和产业演进。以ACL 2025最佳论文《Native Sparse Attention》第一作者袁境阳为例,他如何在算力有限的条件下,提出并实现了NSA算法,为高效模型和智能的发展做出了贡献。
💡 研究问题的提出:袁境阳在资源受限的条件下,关注长文本处理的高效模型,并选择稀疏注意力机制作为研究方向,以突破O(n²)的计算瓶颈,为通用智能铺路。
🧠 NSA算法的原理与价值:NSA通过压缩、选择和滑动三种注意力机制,实现原生可训练的稀疏注意力,大幅削减计算量,同时保持或提升性能,为算法适应硬件提供了优美解法。
🔍 NSA的重要性:袁境阳认为,随着GPU特性的发展,Attention机制终将变得稀疏,NSA的“存得多、用得少”机制能够有效利用显存,提高TPS,并降低训练和scaling成本。
🎯 原生可训练的必要性:原生可训练的模型能够自然适应稀疏模式,并在训练过程中加速训练,减少后训练环节的计算量,降低scaling难度。
🧠 对通用智能的理解:袁境阳认为,真正的智能最终形态一定是多模态的,但语言模型因其信息密度和现有基建的优势,更易于预训练,是通往通用智能的起点。
🔄 遗忘是学习的本质:袁境阳认为,模型在处理长文本时,遗忘部分上下文可能是学习的本质,重要的是忘掉了什么,而非记住了什么。
🧪 科研探索的“无序” × 实验的“秩序”:袁境阳认为,科研探索需要包容“不可解释”的现象,发挥创造力,并进行高密度、自由开放的研讨,才能取得突破。
🔍 寻找有价值的研究问题:袁境阳认为,寻找有价值的研究问题,核心是对“什么是通往智能的方向”有自己的理解和判断,并需要清晰的脉络和实验验证。
原创 奇绩创坛 2025-08-27 21:35 新加坡
年轻研究者如何在资源受限中塑造可能。

在通用智能开启的新时代,创新的源头不再是“从 0 到 1”,而是更具挑战性的“从 -1 到 0”与“从 0 到 1”——将前沿科研理论或技术概念,从科研走向工程,从工程走向价值。在这个从“不可能”到“可能”,再到“有价值”的过程中,一批既有研究能力又能动手实践的年轻研究者和创业者正在崛起。他们的灵感不再停留于论文和实验,而是在真实需求的碰撞中被验证、被重塑,成为推动技术变革和产业演进的关键力量。本期访谈,我们对话了 ACL 2025 最佳论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》第一作者袁境阳。2025 年初,袁境阳经导师张铭教授引荐,申请并获得了奇绩算力项目支持。作为北大 Dlib 实验室的博士研究生,他的科研轨迹颇具代表性:从算力受限的实验室起步,到与前沿团队 DeepSeek 的合作,在不断的实验与探索中收获真实反馈,并逐步沉淀出对高效模型与智能的独到认知。在对话中,他谈及了如何在资源有限的条件下提出有价值的研究问题,NSA 背后的算法与硬件逻辑,以及他对通用智能演进路径的理解。本文提纲:
从高效模型到 NSA:研究问题的提出与技术路径选择的思考与实践
关于智能的思考:新智能的出现不依赖人类定义
前沿突破的生成公式:探索的“无序” × 实验的“秩序”
大模型科研的方向感:真实的反馈信号和对什么是智能的理解与判断
「奇绩算力」是奇绩创坛面向科研人员和早期技术创业者等前沿科技探索者推出的免费高性能算力支持项目。重点支持方向包括:前沿科研(Scaling law、AI Agent、模型强化学习、具身)、高质量开源项目和 AI-native 创业项目。
袁境阳的名字第一次进入大众视野,是在 DeepSeek 发表 NSA(Native Sparse Attention)论文时。那一刻,他从实验室的隐秘角落走到聚光灯下。与近两年涌现的一批年轻研究者一样,他的经历是这个时代的缩影:在科研、工程与商业紧密交织的探索空间里,用确定性的努力回应充满不确定性的未来。这种确定性,来自于对终局的笃定和对具体问题的专注。

袁境阳(左三)在奇绩与袁境阳初识时,他所在的课题组(北大 Dlib 实验室)正因算力不足而困扰,因此申请了奇绩算力基金项目。算力的稀缺,也迫使他在寻找研究选题时思考一个根本的问题:如何绕过资源限制,为抵达通用智能铺路?这一思考带他敲开了高效模型的大门。后来,这个研究方向也被业界逐步重视。在 DeepSeek R1 和 OpenAI O1 相继推出后,长文本被普遍认为是解锁更高智能的关键。而注意力机制 O(n²)的计算瓶颈,是长文本面前一个绕不开的障碍,直接影响模型的训练成本与推理效率。针对这个问题,尽管当时业界有线性注意力(Linear Attention)、混合架构(Hybrid)等不同路径,但他观察到,稀疏注意力(Sparse Attention)在选择时能感知当前查询(Query-aware),性能有更好的保障,于是与同样关注该路径的 DeepSeek 一拍即合,开启了 NSA 的探索。这一次选择,既是出于理性的判断,也是一种直觉上的笃定。袁境阳认为,Transformer 架构的基础设施已然成熟,沿着这条路走,探索效率最高:“这有点像进化中的‘路径依赖’。我们一般会把路径依赖作为一个贬义词,但它确实是事物发展中一件很难被绕开的事情,或者说它是一个最节省能源的方式。”当然,更激进的路径,比如 Linear Attention 也需要有人尝试。在这次对话中,我们与袁境阳探讨了大量他对技术细节的理解:从稀疏注意力的数学可导性,到算法与硬件的耦合关系,再到 NSA 的原生可训练性。每一个不假思索的回答背后,都蕴含着长时间试错、失败与成功的实验,以及由此沉淀下来的,不断迭代的认知。在他看来,NSA 的价值在于,为算法如何适应硬件这一根本问题,提供了一个优美的解法。关于如何提出好的研究问题,袁境阳给出的答案很直接:在硬件、算法、数据这三条路径中,不断寻找新的突破口。他把科研视为一个持续与环境互动、在真实反馈中迭代前行的过程。每一次实验,无论成功还是失败,都是逼近终极问题答案的路标。正是这种面向真实反馈的坚持,塑造了这一代年轻研究者的底色。他们还很年轻,却正在用一次次实验与突破,让世界看到了他们塑造未来的愿力与实力。
从高效模型到 NSA:研究问题的提出,与技术路径选择的思考与实践为什么选择 NSA:长文本是通用智能的前置条件,稀疏注意力是突破 O(n²)的关键。
奇绩:你当初是如何选定研究高效模型这个方向的?它为什么值得研究?袁境阳:我大概是从 2023 年 GPT-4 发布后,才开始积极投身于大模型领域的。那时整个国内的氛围都在寻找正确的方向,我自己的思路也在快速成长和变化。大模型领域的发展脉络是先做好短文本,再攻克长文本。在 2023 年之前,行业的主要精力是如何搭建起大模型管线,然后训练出不错的基础模型,在 4K 长度内的短文本上取得较好性能
。真正的转折点出现在 DeepSeek R1 和 OpenAI O1 之后,大家逐渐意识到,长文本是解锁智能的关键,而实现通用智能的前置任务,就是要有一个高效的长文本模型。在这样的大前提下,长文本成为一个关键任务,而注意力机制的 O(n²)是长文本面前的一个绕不开的障碍,需要被解决。因此,后续出现了各种高效的方法,包括稀疏注意力和线性注意力,还有混合架构等都是在这个背景之下被提出的。
奇绩:你也提到有很多高效的方法,为什么选择了 NSA,而不其他的路径?袁境阳:做 NSA 是去 DeepSeek 之后才进入的领域。当时我在做长文本和高效模型研究,学校课题组没有足够的算力做模型的大规模预训练,也是机缘巧合和 DeepSeek 有过交流,发现他们也对这个方向很感兴趣,就去了。至于为什么选 NSA,以最精简的方式来描述,当前解决长文本的问题,主流方法分为两——基于 Query 的稀疏化和基于 KV Cache 的压缩。基于 KV Cache 的压缩方法,因为一定程度上是先验的,缺乏对当前 Query 信息的感知,因此从性能和成本节约的角度看,表现比较差。业界尚未找到很好的解决方案,特别是怎样有效扩展
Linear Attention 也包括 Mamba 这类状态空间模型(SSM)的状态(State)仍是难题。当然,通过混合架构(Hybrid)可以在一定程度上缓解此问题,这也是当前的研究热点之一。相比之下,
稀疏注意力的方法比较直观,因为它在做选择时是 Query-aware 的,即感知当前查询的,性能自然不会太差。可以认为,稀疏注意力是 Softmax Attention 的一种衍生,所以天然地继承了 Softmax 的一些优势。奇绩:NSA 本质上解决的是什么问题?袁境阳:我们所做的一切都是为了降低大模型的成本。NSA 本质是大幅削减 Attention 的计算量。从效率角度看,无论是在训练还是推理阶段,我们都能取得 6 到 12 倍的速度增益。从性能角度看,我们可以做到优于全注意力(Full Attention)。一句话总结,就是 Higher speed and higher performance(更高的效率和更好的性能)。它能做到这一点,根本原因在于原先的 Attention 本来就是稀疏的。激活函数 Softmax 的输出非常尖锐,所以有很多地方其实不贡献计算分量。要实现高效,有一个直接有效的方式是把这些不贡献计算的部分砍掉。这些部分本身自带噪声(noise),noise 少了 performance 就会提升。
奇绩:
NSA 架构采用了压缩(Compressed)、选择(Selected)和滑动(Sliding)这三种注意力机制,这种设计的初衷是什么?是为了模仿人类的认知和记忆系统吗?袁境阳:可以这样从认知角度去理解,但我们设计的出发点更多是出于对算法和硬件的考量。首先,为了让稀疏注意力可训练,我们需要一个能够自学习的索引(Index)。但通过 Index 选取 Token 的过程是不可导的,因此 Index 需要有监督信号来指导其学习。为此,我们设计了压缩注意力(Compressed Attention)分支,它的输出会与其他两个分支结合,从而天然地获得了梯度回传机制,我们不需要做任何额外操作,它就可以自我学习。有了这个保证,Index 才能在训练中不断变好。至于滑动(Sliding)分支,则是出于算法上的另一个考虑。在大模型训练中,由于数据分布的原因,短文本信号远比长文本信号多得多。如果不加入滑动窗口分支,稀疏模型会受到过强的短文本信号影响,可能导致模型退化,无法有效学习长文本内容。加入这个分支后,能够很好地提升压缩分支和稀疏分支对长程信号的学习能力,避免它们过早地收敛到只处理短文本的模式。
奇绩:
NSA 作为一个可学习的门控单元,会产生三种不同的动作。其中像“选择”这样的动作在反向传播时似乎是不可导的,你们是如何解决这个问题的?袁境阳:门控本身的梯度回传是没问题的,不过选择这块确实是不可导的,这是一个很敏锐的观察。这也是为什么稀疏注意力的可训练性(Trainable)很难做,而 NSA 正是希望解决这个问题。
我们的解决方法是利用了压缩注意力(Compressed Attention)分支。这个分支本身是可学习的,它不通过“选择”这个动作来获取梯度,而是通过向最终的输出(Output)贡献信息来获得梯度。我们利用这样一个并行的、可学习的模块,来帮助稀疏注意力分支完成它的选择任务。
NSA 的重要性与原生可训练的必要性:GPU 决定 Attention 终将稀疏,原生可训练确保模型自然适应趋势,减少训练和 scaling 成本。
奇绩:能否用更宏观的视角,向不太熟悉该领域的人解释“Natively Trainable Sparse Attention”是什么,以及为何重要?袁境阳:
我们有一个观点——以现有 GPU 进行推理的 Attention,终将变得稀疏。这个洞察来源于我们对显卡特性的分析,即“容量高,但带宽低”。在生成时,若想完全利用显存,就必须扫描一遍。这个过程大约需要 1/30 秒,这意味着 TPS(Tokens Per Second)的理论上限就在 30 左右,这是一个非常低的速率。可以想象,如果我们使用一个 Agent 或应用,它每秒生成的 Token 不到 30 个,是无法满足我们对大模型很多要求的。
具体来说,所有稠密(Dense)模型,包括传统的 Softmax Attention 和最新的 Linear Attention,都面临一个困境——如果不想浪费 HBM 显存,就需要在每次生成时将整个显存读一遍,此时它会处于带宽瓶颈,TPS 很低;如果需要更高的 TPS,它就不得不只读取少量内存,这意味着大量显存被闲置浪费。而稀疏架构能解决这个问题。它天生具有“存得多、用得少”的机制,可以在计算前,通过一个高效的索引(index)机制来预测哪些显存或 Memory 是需要被用到的。因此,它可以在不浪费全部 HBM 的情况下,每次生成时只使用较少的显存,从而实现高 TPS。换个角度理解,即便我们做出了一个 TPS 很高的非稀疏高效模型,我们总能在此基础上构建一个更好的稀疏模型,让它使用更多的总显存,但每次计算时实际调用的显存量不变,从而达到更好的性能。这个动态选取机制,就像高考备考,学了海量的知识(存得多),但考场上只用到了其中一部分(用得少)。你的知识储备越广,联想能力越强,就越能灵活地索引到需要的知识点,命中考题的概率就越大。
更关键的是,“大容量、低带宽”这一硬件特性,在未来很长一段时间内都将保持不变。尽管有 3D RAM 或 3D HBM 这类增加高级缓存的设计,但本质上没有改变“内存容量易于扩大,而显存带宽成本高昂”的现状。正是这个硬件背景,促使我们在算法层面上设计出更好的稀疏架构来替代稠密架构。这是我们决定做稀疏注意力的底层逻辑。
奇绩:
如果模型不是“原生可训练”的,会带来哪些具体问题?袁境阳:Natively Trainable 的一个好处就是使模型天然能够从它训练的第一刻开始就适应稀疏模式。如果不是 Natively Trainable,就需要一个外置的模块去控制稀疏。这样一来可能会因为缺乏训练而致使模型适应不了。第二个关键的因素是,现在训练模型也非常的消耗算力。如果我们有一个高效方法,不只是在模型训完之后能让它变得更好,而是在训练的时候就能加速训练,其实也非常厉害。这也牵扯到后训练(Post-training),比如 Test-time Scaling(测试时扩展)。这个技术本身也带有后训练过程,如果在这个环节我们不减少它的计算量,其实对做 scaling 而言是有一定难度的。
关于智能的思考:新智能的出现不依赖人类定义奇绩:似乎大家目前采取的做法大多数还是在改进 Transformer 架构,然后对 GPU 进行更强的适配,让显存和内存之间的通信变得更少,来增强显存利用率和信息的传递效率。你怎么看?这究竟是一种寻找更优解过程中的妥协和中间状态,还是大语言模型最终会收敛于此?袁境阳:可能存在一个与 Transformer 完全不同且更优的算法,但现实是我们已经为 Transformer 做出了大量的基建。所以沿着这个方向走可能比较快,或者说搜索出一个不错解的效率比较高。这有点像进化中的“路径依赖”。
我们一般会把路径依赖作为一个贬义词,但它确实是事物发展中一件很难被绕开的事情,或者说它是一个最节省能源的方式。想设计一个和它完全不同的架构,尽管收益可能巨大,但风险非常高。因为搜索域太宽广有时候不见得是一件好事,而且很难去证明新的架构上限会比 Transformer 高特别多。但我认为需要有人做这样的尝试。其实我们可以从当前大模型的各类研究方法中看到这种分野,有些方向比较偏激进,有些则比较偏保守。从高效注意力的角度来看,Linear Attention 相比于 Sparse Attention 就是一个更激进的改动。因为 Sparse Attention 没有偏离 Softmax Attention 的背景,而 Linear Attention 则对其做了更多改动,尽管现在也有一些理论去证明它们之间存在某种相似性。但无论是从形式、性能,还是最终的分布来看,它的改动都更大。这也导致一个现状——如果我们不考虑混合架构,单看 Linear Attention 在很多方面的性能是不及 Softmax Attention 的,它上面还有很多工作没有做完。当然不能说哪个方向是对的,最终还是要看结果。
奇绩:
从你的角度,transformer 这类架构的天花板在哪?袁境阳:很难说,取决于对智能水平的定义。在给定一个足够好的训练数据的前提下,它的智力水平至少能超越人脑。对通用智能的理解:多模态是终局,语言是起点,遗忘是学习的本质。
奇绩:
你怎么理解通用智能?袁境阳:这个词现在有点被滥用,每个人对它的理解都不一样。我自己其实也并没有一个明确定义,不过有没有也不太所谓。我曾经听说过一个观点,
就是当一个人类之外的智能出现的时候,所有人都会意识到它出现。理性看待,我认为
真正的智能最终形态一定是多模态的。
但语言模型无论是从实验角度还是信息密度角度看,都比图像、视频等其他模态更容易预训练。从经验角度看,当前大模型的大量基建,无论是代码还是推理框架,都是为“下一个词预测”(Next Token Prediction)这一任务服务的。将其他模态往现有的一套训练方式上靠,有天然的收益。
奇绩:在讨论长文本时,我们一方面希望通过增长上下文,把对话中沉淀下来的经验或能力固定下来。但在模型训练或推理时,无论 KV Cache 还是注意力机制,本质上都是一种滑动形式,一方面它能在很大程度上延长上下文,另一方面又会遗忘掉一部分上下文。这样一来,有些能力就可能无法像我们希望的那样被真正沉淀下来。袁境阳:首先,所谓的 KV Cache 也好,Linear Attention 的 State 也好,它本身可以通过一些数学等价,把它理解成模型的一部分。它在对话的过程中改变了,其实就是在学习。
其次,遗忘可能是学习的本质,重要的不是你记住了什么,是忘掉了什么。前沿突破的生成公式:探索的“无序” × 实验的“秩序”对“不可解释”的包容、创造力的发挥,以及高密度、自由开放的研讨环境。
奇绩:现在一些研究,比如 MoE 的文章中提到一些步骤本身是不可导的。有些方法似乎通过把选择过程牵强地转化成矩阵操作,然后在反向传播时把这个矩阵当作常数处理,从而实现可微化。这似乎更像是一种对反向传播机制,甚至对 GPU 计算特性的妥协?袁境阳:我倒觉得没有那么悲观。这有点像是早期有很多做机器学习的人会认为,大模型缺乏一个背后的数学解释,所以说它最后一定做不出什么东西来。有时候人类的带宽或者脑容量比较小的,我们能理解的事比较有限,很多时候我们不得不去通过实验拿到一些真正的结果,作为我们观点的支撑。
奇绩:在整个科研探索的过程中,最难的一点是什么?袁境阳:过程其实很有意思,无论成功的实验还是失败的实验,都能获得更多洞察,加深我们作为研究员对 attention 内部机制的理解,尤其是看到了 attention 的一些更好的性质,包括我们最终做出了从实验效果来说非常亮眼的方法。整个过程蛮在心流状态的。
奇绩:在 DeepSeek 和在学校做研究,有什么不一样的体验?袁境阳:一个很好的点是大家都在思考同一个宏大的问题,并且有非常多的讨论空间。大模型是一个复杂且问题盘根错节的庞大领域,无论是对于把握行业发展,还是做出真正有意义的研究,每天获得高质量的信息输入和激烈深入的交流都非常有帮助。这一点,无论是在学校还是在企业做研究,都是相通的。但的确,DeepSeek 给了我们充分自由的发挥空间。这某种意义上也是在大模型时代催生出来的一种状态。研究者对大模型领域的重要程度一定是有目共睹的。我想这也是奇绩会有算力项目资助的原因。
奇绩:如果公司资金储备不充足,也很难支持这样的开放式探索?袁境阳:我自己觉得大模型创业不太一样的点就在于,
它更像一个研究,和互联网时代很不一样。 传统互联网公司比较强调高效迭代,比如 AB test,从用户那里获得经验,组建一个具有韧性的产品和工程师团队,可能一周一个版本疯狂地发版。只要赛道没有选错,就可以高效迭代出一个高质量的产品。
但大模型预训练本身是一个探索性的事情,从立项开始就有非常多的选择,特别需要去发挥创造力和智力。可能最好学术成果和前沿科技突破对于所在赛道是最关键的要素,才能这样去大规模的开放性探索。
硬件、算法、数据按图索骥;实验是起点,结果解释才是积累的开始。
奇绩:从你的角度,要取得 DeepSeek 这样的 NSA、MLA 前沿突破,关键是什么?袁境阳:我在做学术研究工作,大致有三种思路。
第一种是贴着硬件去做,设计对硬件有利的算法。这在 NSA 中有很明显的体现,比如我们在 Index 分支的选取和 Block 的法则上,都遵循了硬件的原则。这背后也是出于我们认为 Attention 终究要走向稀疏,或者说同样的方法,稀疏的方法要比稠密方法具备更强的判断。
第二类是出于算法的考量。例如,做一个神经网络需要用梯度传播来去训练,那么我们的所有方法都要可导。稀疏它在选取 Index 的时候是不可导的,这个模块该怎么去学习?我们就需要给出一个恰当的方法。这个地方其实跟 MoE 有一些相同之处,因为 MoE 的 Routing 也是一个选择,也是不可导的,那我们就需要用一种可靠的方式来把梯度传递给 Gate。
最后一个角度,就是从数据的角度去进行设计。我们都知道语料的重要性,它基本上能决定一个模型最后的性能。总之,在设计之前必须有一个清晰的脉络。当然,最终你做出来一个结果,无论成功还是失败,都要为这个结果找一个解释,这样才能在某种意义上增进对这件事的理解。
大模型科研的方向感:真实的反馈信号和对什么是智能的理解与判断“大模型研究其实是一个反馈比较明确的领域,专注就会有答案。”
奇绩:
回顾从构思 NSA 到最终获奖的整个过程,你有迷茫的时候吗?比如遇到一个卡点难以突破。袁境阳: 在整个研究过程中,确实有迷茫的时候。前期我们尝试了很多 not work(不奏效)的方法,那段时间一直处于接收负反馈的状态。但我认为,本质上,如果最开始选择的大方向没有问题,只要锲而不舍,最终都会拿到一个不错的结果。这个说法可能听起来比较老套,但事实如此。
奇绩:
遇到很多负反馈时,你会选择什么办法缓和自己的心态?袁境阳:这是一个很有意思的话题。
我最近有听到一位前辈评价,他说大模型是一个“反馈比较明确”的领域。它有很多明确的指标,科研问题的定义也相对良性。也就是说,你拿到的反馈,无论是正向还是负向,都是非常具体和真实的。比如模型在某个 Benchmark 上答得好或者答得差,这就是一个很真实的反馈。所以相对来说,在做研究的过程中是有脉络可循的,不至于像在某些随机性比较大的领域里,会觉得有点无所适从。而大模型研究相对来说还是一个比较能够让你获得脚踏实地的感觉的地方。在这种有实际反馈的领域,你只需要专注在研究上,它会给你回答。
如何寻找有价值的研究问题:核心是对“什么是通往智能的方向”有自己的理解和判断。
奇绩:
你是如何发现有价值的研究问题的?最底层的出发点是什么?袁境阳:我认为有几点很重要。
首先是第一性原理。我做长文本时,大家都在讨论如何才能达到更高的智能。我们认为,一个智能体的学习不应该停止,而应是一个能与环境持续交互、不断吸收新知识的实体。传统上,一个大模型在发布后,它的权重就不再更新,唯一能学习新知识的方式就是通过用户的输入,比如对话历史。但这其实只是它的背景知识。
我最早的一个出发点是,只有做长文本才能做出一个能不断获得新认知的、真正意义上的智能。当然,这个想法后来也迭代了。我们发现,仅仅在一次对话中扩充上下文,为模型带来的新知识是相当有限的。这时就需要通过其他方式,比如强化学习(RL)来进一步提升智能。
回到如何寻找有价值的方向,我认为最核心的是,要对“什么是通往智能的方向”有自己的理解和判断。另外,我觉得氛围也很重要。大模型是一个知识密集型的领域,一个开放、自由的学术氛围对研究者至关重要。访谈|杨天佑、高天鸿、陈嘉鹏、沈筱文|杨天佑编辑|沈筱排版|袁一宁
(全文完)