扩散语言模型：从自回归到并行合奏

原创让你更懂AI的 2025-08-25 18:12 北京

从“自回归独角戏”到“并行合奏”

虽然以 GPT 为代表的自回归 AR 模型在文本生成领域已经占据主导地位，但 AR 模型天然存在并行度低，推理速度慢的瓶颈。近来，受到扩散模型在图像和其他连续数据上的应用的启发，扩散语言模型正在迅速发展，得到了广泛关注。

不同于 AR 模型一次只生成一个 token，扩散语言模型可以一次性并行生成多个 token，大大提高了推理速度。早期 DLM 借鉴图像扩散的连续空间方法，后续发展出离散空间方法，并逐渐扩展到多模态。近期，工业界模型如 Mercury Coder和 Gemini Diffusion 展现了极高的推理速度。

为了系统性地梳理这一前沿领域，近日，来自穆罕默德·本·扎耶德人工智能大学（MBZUAI）VILA Lab 的研究团队在 arXiv 上发布了一篇扩散语言模型的综述文章《A Survey on Diffusion Language Models》，为我们全面深入的解析了这一技术。

团队还贴心地开源了项目 GitHub 仓库，全面收录整理了该领域的论文，已经获得上百 star。

论文标题：

A Survey on Diffusion Language Models

论文链接：

https://arxiv.org/abs/2508.10875v1

论文仓库：

https://github.com/VILA-Lab/Awesome-DLMs

为何DLM值得期待？五大独特优势

DLM 不仅是为速度而生，其独特的生成机制还带来了一系列 AR 模型难以比拟的优势：

并行生成与高吞吐量：这是 DLM 最核心的优势。一次生成多个 token，DLM 能够显著提升推理速度。

双向上下文：在每次迭代中，模型都能看到完整的上下文。相比 AR，更能理解前后语境。

迭代精修：DLM 的生成过程是一个不断打磨的过程。比如在 Masked DLM 中，模型可以先确定高置信度的词，低置信 token 可在后续步骤逐步优化。有些工作甚至允许模型动态修改之前的 step 已经生成的 token。

灵活的细粒度控制：由于其非自回归的特性，DLM 非常适合执行文本补全、结构化生成等任务，可以轻松地对文本的特定部分进行约束和修改。

统一多模态建模的潜力：扩散去噪是一个通用的建模框架。无论是文本、图像还是其他模态，都可以被统一在同一个扩散框架下，这为构建强大的多模态统一模型提供了天然的支持。

扩散语言模型的范式

根据扩散空间的类型，本文将 DLM 分为两大类：连续空间模型和离散空间模型，此外还有结合二者优点的混合模型，下表列出了一些代表性的方法。

连续空间扩散语言模型（Continuous DLMs）：这类模型首先将离散的文本 token 映射到连续的嵌入向量空间中，然后在这个连续空间上执行标准的扩散过程（加噪与去噪）。

去噪完成后，再将生成的嵌入向量“舍入”回最接近的离散文本标记。早期的代表工作如 Diffusion-LM，通过这种方式实现了可控的文本生成。

离散空间扩散语言模型（Discrete DLMs）：这类模型直接在离散的词汇表空间上定义扩散过程，避免了连续与离散空间之间的转换。其核心思想通常是引入一个特殊的掩码 [MASK] 标记。

前向过程是逐步将文本中的部分 token 替换为 [MASK]，反向过程则是训练一个模型（通常是 Transformer 架构）来预测被掩盖的 token。通过多轮迭代去掩码，最终生成完整文本。

这一范式已成为当前大规模 DLM（如 LLaDA）的主流，它巧妙地结合了掩码语言模型（如 BERT）的双向上下文优势和可控的并行生成能力。

混合自回归-扩散模型（Hybrid AR-Diffusion Models）：这类模型试图在自回归模型的强依赖建模能力与扩散模型的并行性之间取得平衡。一种典型策略是“分块半自回归”生成：模型在块（block）的层面上是自回归的（即逐块生成），但在每个块内部，则使用扩散模型并行生成所有 token。

DLM的预训练与后训练

预训练和监督微调：

为节省训练成本，许多大规模 DLM 采用“预训练模型改造”的策略。例如，DiffuLLaMA 和 Dream-7B 等模型通过在开源的自回归模型（如 LLaMA, Qwen）权重基础上进行持续预训练，高效地将其转化为性能强大的 DLM。其监督微调过程也与自回归模型类似。

针对推理能力的后训练：

为了提升 DLM 的复杂推理能力（如数学、代码等任务），研究者们尝试将强化学习（RL）等算法应用于 DLM。这面临着独特的挑战，因为 DLM 的迭代生成过程使得计算序列的对数似然（log-probability）非常困难，而这是传统 RL 算法的关键。目前的探索主要分为三条路径：

并行化推理链：将自回归模型中的“思维链”（Chain-of-Thought）改造为可在扩散过程中并行优化的“思维扩散”（Diffusion-of-Thought）。

PPO/GRPO 类算法：发展适用于 DLM 的策略梯度算法，如 diffu-GRPO 和 UniGRPO，通过创新的方法估算对数似然。

DPO 类算法：将 DPO（直接偏好优化）等方法结合方差缩减等技术（如VRPO）应用于 DLM，使其能更好地与人类偏好对齐。

DLM的推理策略与优化

为了提升 DLM 的生成质量和效率，研究者开发了多种推理策略：

并行解码（Parallel Decoding）：利用 DLM 的并行特性，根据模型预测的置信度，在每一步同时预测并接受多个高置信度的 token，从而大幅减少生成所需的迭代步数。

去掩码/重掩码（Unmasking/Remasking）：这是离散 DLM 的核心推理机制。在每一步迭代中，模型根据一定的策略（如置信度排序）确定哪些 [MASK] 标记的预测可以被接受，替换为输出的真实 token，而哪些低置信度的位置需要保留为 [MASK]（重掩码）以待后续步骤进一步优化。

引导（Guidance）：借鉴图像扩散模型的成功经验，通过“无分类器引导”（Classifier-free Guidance）等技术，在推理时将有条件生成和无条件生成的预测结果进行融合，从而更精准地控制生成内容，使其更符合用户提示。

在效率方面，DLM 也有独特的推理优化技术：

KV 缓存（Key-Value Cache）：改造传统用于自回归模型的 KV 缓存机制，使其适应 DLM 的半自回归或分块生成模式，避免对已确定部分的重复计算。

特征缓存（Feature Cache）：利用扩散模型在相邻迭代步骤中的中间层激活值高度相似的特性，缓存并重用这些特征，显著减少计算量。

步骤蒸馏（Step Distillation）：用于连续扩散语言模型，训练一个轻量的“学生”模型，使其能用极少的步数（甚至一步）模仿“教师”模型多步迭代的生成效果，极大地缩短推理时间。

多模态和统一模型

得益于扩散框架的灵活性，扩散语言模型在处理文本、图像等多模态数据方面展现出巨大潜力。目前让 DLM 获得多模态能力的主流方法分为两种：

扩展现有 DLM：在强大的文本 DLM（如 LLaDA）基础上，增加一个视觉编码器（Vision Encoder），将图像特征投影到文本的嵌入空间中，从而实现对图像的理解和描述，代表模型有 LLaDA-V 和 LaViDa。

构建统一模型：将图像也通过 VQ-VAE 转换成离散的视觉 token，然后将文本 token 和视觉 token 在一个统一的序列中，使用同一个扩散模型进行联合建模。这种端到端的统一架构不仅能理解多模态输入，还能同时生成文本和图像，代表模型有 MMaDA，UniDisc，Fudoki 等。

下游任务和应用

扩散语言模型的应用已十分广泛，除了通用的语言生成，还在许多特定领域展示了优势：

传统 NLP 任务：如文本摘要、命名实体识别、情感分析、风格迁移等。

代码生成：其迭代求精的特性非常适合代码这种结构化文本的生成，代表模型如 DiffuCoder。

生物与科学计算：在分子优化、蛋白质设计与结构预测等领域展现出独特的应用价值，例如通过 DLM 生成满足特定功能需求的蛋白质序列。

挑战与未来方向

尽管前景广阔，DLM 的发展仍面临着一些核心挑战：

并行性与性能的权衡（并行解码诅咒）：过高的并行度（即每步解码太多 token）会导致 token 与 token 之间的依赖关系被忽略，从而降低生成质量。如何在速度和质量之间找到最佳平衡点，是 DLM 面临的首要难题。

Infrastructure 的缺失：相比于 AR 模型拥有 vLLM 等成熟的生态系统，DLM 目前仍缺乏标准化的、高度优化的训练和部署工具链。

长序列与可扩展性：由于 KV-Cache 支持等问题，DLM 在长序列生成上的效果和效率还有待验证；此外当前大型开源 DLM 模型规模仍然在 8B 左右，远小于顶级的 AR 模型。

动态长度生成：DLM 通常需要预先指定生成长度，这对于无法预知输出长度的任务不够友好。

但挑战也意味着机遇。作者指出了一些未来潜在的研究方向：提升训练效率、探索低比特量化、模型剪枝和蒸馏、实现真正的多模态统一推理，以及开发基于 DLM 的 Agent 等等。

结语

本篇综述系统地梳理了扩散语言模型的整个生态系统，从基本范式、训练与推理策略，到多模态扩展和应用。

论文强调了 DLM 作为自回归模型之外的一条重要技术路线，其在并行推理、可控生成等方面的独特优势使其具备巨大的发展潜力。尽管挑战依然存在，但随着研究的不断深入，DLM 有望在未来的AI领域扮演越来越重要的角色。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签