PaperWeekly 09月20日 11:50
DPad:一种高效的扩散语言模型推理优化方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了一种名为DPad的新型免训练方法,旨在解决扩散大语言模型(dLLMs)在推理效率和全局规划能力上的挑战。dLLMs的全局规划能力源于其“草稿纸机制”,即利用后缀token记录和传递信息,但这带来了计算冗余。DPad通过先验地丢弃大量无效的后缀token,大幅降低了计算量,同时保留了核心的规划能力。实验表明,DPad与现有优化技术结合后,能在几乎不损失模型精度的前提下,实现高达61.4倍的推理加速,并意外提升了模型的语境学习能力。

💡 **“草稿纸机制”与计算冗余:** 扩散大语言模型(dLLMs)通过双向注意力机制,利用后缀token作为“草稿纸”来辅助当前块的解码和全局规划。然而,这种机制存在严重的计算冗余,因为模型会过度关注远距离的、信息量有限的后缀token,导致潜力未被充分释放。

🚀 **DPad的“先验丢弃”策略:** DPad方法的核心思想是在解码开始前,通过“滑动窗口”和“近多远少”采样策略,先验地丢弃大量冗余的后缀token。这使得模型能将计算资源集中在更相关的“草稿纸”上,从而在保留全局规划能力的同时,大幅提升推理效率。

📈 **显著的推理加速与能力提升:** 实验结果显示,DPad与现有优化技术结合后,能在几乎不损失模型精度的前提下,实现高达61.4倍的推理加速。此外,DPad还意外地提升了模型的语境学习能力,使得模型能更准确地理解和遵循输入示例的格式要求。

让你更懂AI的 2025-09-19 22:35 北京

Block还是全局?

扩散大语言模型(dLLMs)凭借并行解码与独特的全局规划能力,有望解决自回归(AR)大模型的效率瓶瓶颈和规划能力缺陷。但其「全局规划」能力依赖于其双向注意力对所有后文的关注,这带来了严重的计算冗余,从而导致现有开源模型的潜力远远未被释放。

当前的 dLLM 存在「路线之争」:一是保留全局规划能力但推理效率极低的「全局双向注意」(如 LLaDA),二是追求速度却牺牲规划能力的「块内双向注意」(如 Block Diffusion)。

如何在这两条路线之间调和折中,让模型既能「着眼全局」,又能加速推理,已成为学界日益关注的问题。

针对以上问题,杜克大学陈怡然团队另辟蹊径,揭示了 dLLM 中实现全局规划的「草稿纸机制」,并发现其存在高度冗余。

据此,他们提出免训练方法 DPad(Diffusion Scratchpad),通过先验地丢弃大量无效后缀 token,既极大地降低了计算量,又保留了核心规划能力,尝试在两条路线中走出一条「中间路线」。

该方法与现有优化技术结合后,在几乎无损的模型精度下,可实现高达 61.4 倍的推理加速。

论文题目:

DPad: Efcient Difusion Language Models with Sufx Dropout

论文地址:

https://arxiv.org/abs/2508.14148

代码地址:

https://github.com/Crys-Chen/DPad

dLLM独特的「草稿纸」机制:实时记录语义信息

不同于自回归模型,dLLM 采用双向注意力机制,在解码时既能回顾前文,也能「展望」后文。基于这一点,文本序列可被清晰地划分为三部分:

研究团队通过分析双向注意力机制后发现:dLLM 中的后缀 token 是一种独特的「草稿纸」。模型在解码「当前块」时,会巧妙将这些后缀 token 作为临时存储空间,用于在每一层 Transformer block 中记录自己对后文的构思。

这种方法能够实现对整个文本的规划,使输出的前后文更一致,提高语言模型的整体性能。

▲ 草稿纸机制示意图。左图显示在浅层(Layer 0),信息从 Prefix 和 Current「写入」(DPad Writing)到 Suffix 区域。右图显示在深层(Layer 1),信息被 Current Block 从 Suffix 区域「读取」(DPad Reading)回来,辅助解码。

如上图所示,前缀、当前和后缀三种类型将注意力分数分为了 9 个区域,使得模型的前向过程存在一个「写—读」的工作流:

研究团队认为,这种「写—读」的行为就像一本「草稿纸」,将模型在浅层对后文的构思传递到深层——这正是 dLLM 具备强大全局规划能力的关键。它让模型在生成当前内容的同时,能初步构思和约束未来的生成方向,实现了前后文的协同共进。

符合直觉的发现:「草稿纸」也要详略得当

DPad 的核心思想,源于一个非常符合直觉的类比。想象一下您在创作一部鸿篇巨制:

DPad 正是基于这一思想,避免让作者(dLLM)在创作每个章节(当前块 Token)时,对所有未来的「草稿纸」(后缀 Token)进行强行填充,从而,才能集中注意力并节省资源(降低算力和存储)。

其核心思想便是聚焦当下,展望未来,留白长远,让模型的每一次「下笔」都更加高效。

通过对 dLLM 注意力机制的分析,研究团队发现了支撑这种核心思想的关键性数据:

▲ 预先解码出来的后缀 token 存在大量重复

▲ 当前块对后缀 token 的注意力分数图。可以看到,注意力(绿线)在进入 Suffix 区域后迅速衰减,表明远处 token 的影响力逐渐减小。

那么,是否可以更大胆一些呢?如下图所示,研究人员进行了一个反直觉的实验:强行删除那些注意力分数最高的远端 token。

出人意料的是,准确率几乎没有任何损失!dLLM 似乎有「自愈能力」,会将注意力自动转移到邻近 token 上,补偿丢失的信息。

这个「注意力迁移」现象有力地证明:比起某一张特定位置的「草稿纸」,dLLM 其实仅要求在未来某个位置区间内存在可用的「草稿纸」即可。因此,与其空耗算力确定重要 token 的位置,不如直接先验丢弃。

▲ 左图展示了 dLLM 中当前块 token 对后缀 token 的注意力分布:整体随距离衰减,远端 token 偶尔出现「尖峰」(如 d = 362)。当删除这些尖峰 token 后(右图),模型的注意力并没有消失,而是自然地转移到了邻近的 token 上(如,362 号 token 的注意力被转移到 359 号)。

DPad:简单高效的「先验丢弃」

基于以上洞见,DPad 方法应运而生。它的核心思想是:与其等模型算完再「剪枝」,不如在解码开始前,就先验地丢掉一批冗余的「草稿纸」。DPad 的实现非常简洁,主要包含两大策略:

 (a) 自回归模型;(b) 传统 dLLM,需要关注所有后缀 token;(c) DPad,仅关注附近少数经过筛选的后缀 token。

实验结果:更快更准

DPad 在 LLaDA 和 Dream 系列等多个主流 dLLM 上进行了全面测试,结果喜人。

大幅提升推理效率

在现实的长输出场景(少示例、长回答)中,DPad 可谓大放异彩:

 图 6 在 GSM8K(1024 tokens, 1-shot)任务上,DPad 结合其他优化技术,让 LLaDA-1.5 实现了 61.39 倍的加速。

 在 HumanEval(2048 tokens, 0-shot)任务上,DPad 结合其他优化技术,让 Dream-Base 实现了 97.32 倍的加速。

意外之喜:显著提升语境学习能力 (In-Context Learning)

通常,推理加速会以牺牲部分模型精度为代价。但 DPad 却带来了意外的惊喜:在多个任务上,尤其是在 LLaDA 系列模型上,它不仅没有降低精度,反而显著提升了模型的准确率,尤其是「严格匹配」(Strict Match)得分。

「严格匹配」不仅要求答案正确,还要求模型严格遵循输入示例给出的格式,是衡量模型语境学习能力的关键指标。

 在 GSM8K 任务中,原始模型(左)虽然算对了答案(通过 Flexible-Match),但未能按要求格式输出答案,未能通过 Strict-Match。而应用了 DPad 的模型(右),则精准复刻了示例格式,同时给出了正确答案。

 DPad 在 LLaDA-Instruct 上与原始模型 (Vanilla) 和 Fast-dLLM 的对比

 DPad 在 LLaDA-1.5 上与原始模型 (Vanilla) 和 Fast-dLLM 的对比

 DPad 在 Dream-Base 上与原始模型 (Vanilla) 和 Fast-dLLM 的对比

DPad 团队认为,这是因为丢弃了大量冗余的后缀 token 后,模型能将更多注意力集中在信息量丰富的前缀 token(prompt)上,从而更好地理解和学习示例中蕴含的格式与规范。

总结与展望

面对当前 dLLM 的两条路线之争,DPad 巧妙地介于两者之间,尝试着开辟一条「中间路线」。它既通过「草稿纸机制」,揭示了后缀 token 对于 dLLM 全局规划能力的重要性;又向 Block Diffusion 靠拢,通过稀疏化后缀 token 大幅提升了推理效率。

DPad 的提出预示着我们似乎并不需要在速度和规划能力之间做出非此即彼的选择。未来,若将 DPad 的思想引入到模型的微调甚至预训练阶段,或许能博采众长,训练出更高效、更强大的下一代扩散大语言模型。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

扩散大语言模型 dLLM 推理优化 DPad 草稿纸机制 全局规划 自然语言处理 AI Diffusion Language Models Inference Optimization Scratchpad Mechanism Global Planning Natural Language Processing
相关文章