PaperWeekly 08月25日
扩散语言模型:从自回归到并行合奏
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文综述了扩散语言模型(DLM)这一前沿技术。DLM 借鉴扩散模型,实现了并行生成多个token,显著提升了推理速度,克服了传统自回归(AR)模型的瓶颈。DLM 具有并行生成、双向上下文、迭代精修、灵活控制和统一多模态的优势。文章详细介绍了连续空间、离散空间及混合模型,并探讨了 DLM 的预训练、后训练、推理策略与优化,以及在多模态和下游任务中的应用。尽管面临并行性与性能权衡、基础设施缺失等挑战,DLM 仍展现出巨大的发展潜力。

✨ **并行生成与高吞吐量**:扩散语言模型(DLM)的核心优势在于其并行生成能力,一次可输出多个token,相比之下,传统的自回归(AR)模型每次只能生成一个token。这种并行性极大地提升了模型的推理速度和整体吞吐量,使其在处理大规模文本生成任务时更具效率。例如,工业界模型如 Mercury Coder 和 Gemini Diffusion 已展现出极高的推理速度。

💡 **多重优势超越自回归模型**:DLM不仅在速度上领先,还具备AR模型难以比拟的优势。其双向上下文理解能力使得模型能更好地把握前后语境;迭代精修机制允许模型逐步优化生成结果,甚至动态修改已生成token;非自回归特性使其非常适合文本补全、结构化生成等任务,便于进行细粒度控制;同时,扩散框架的灵活性也为统一多模态建模提供了天然支持,能够将文本、图像等多种模态整合到同一个框架下。

⚙️ **模型范式与训练策略**:DLM根据扩散空间类型可分为连续空间模型、离散空间模型以及混合模型。离散空间模型,特别是基于掩码([MASK])的范式,已成为当前主流,巧妙结合了BERT的双向上下文优势和并行生成能力。在训练上,许多DLM通过在现有AR模型(如LLaMA)基础上进行持续预训练来改造,以节省成本并高效地转化为DLM。

🚀 **推理优化与多模态潜力**:为了提升DLM的生成质量和效率,研究者开发了并行解码、去掩码/重掩码、引导(如Classifier-free Guidance)等推理策略。同时,KV缓存、特征缓存和步骤蒸馏等技术也用于优化推理速度。DLM在多模态处理方面潜力巨大,可通过扩展现有DLM或构建统一模型,实现文本与图像等多种模态的联合建模,如LLaDA-V、MMaDA等模型。

🚧 **挑战与未来展望**:尽管DLM前景广阔,但仍面临“并行解码诅咒”(过高并行度可能牺牲生成质量)、基础设施缺失(缺乏标准化工具链)以及长序列生成和动态长度生成等挑战。未来的研究方向包括提升训练效率、探索低比特量化、模型剪枝蒸馏、实现真正的多模态统一推理以及开发基于DLM的Agent等,预示着DLM将在AI领域扮演日益重要的角色。

原创 让你更懂AI的 2025-08-25 18:12 北京

从“自回归独角戏”到“并行合奏”

虽然以 GPT 为代表的自回归 AR 模型在文本生成领域已经占据主导地位,但 AR 模型天然存在并行度低,推理速度慢的瓶颈。近来,受到扩散模型在图像和其他连续数据上的应用的启发,扩散语言模型正在迅速发展,得到了广泛关注。

不同于 AR 模型一次只生成一个 token,扩散语言模型可以一次性并行生成多个 token,大大提高了推理速度。早期 DLM 借鉴图像扩散的连续空间方法,后续发展出离散空间方法,并逐渐扩展到多模态。近期,工业界模型如 Mercury Coder和 Gemini Diffusion 展现了极高的推理速度。

为了系统性地梳理这一前沿领域,近日,来自穆罕默德·本·扎耶德人工智能大学(MBZUAI)VILA Lab 的研究团队在 arXiv 上发布了一篇扩散语言模型的综述文章《A Survey on Diffusion Language Models》,为我们全面深入的解析了这一技术。

团队还贴心地开源了项目 GitHub 仓库,全面收录整理了该领域的论文,已经获得上百 star。

论文标题:

A Survey on Diffusion Language Models

论文链接:

https://arxiv.org/abs/2508.10875v1

论文仓库:

https://github.com/VILA-Lab/Awesome-DLMs

为何DLM值得期待?五大独特优势

DLM 不仅是为速度而生,其独特的生成机制还带来了一系列 AR 模型难以比拟的优势:

扩散语言模型的范式

根据扩散空间的类型,本文将 DLM 分为两大类:连续空间模型和离散空间模型,此外还有结合二者优点的混合模型,下表列出了一些代表性的方法。

连续空间扩散语言模型(Continuous DLMs):这类模型首先将离散的文本 token 映射到连续的嵌入向量空间中,然后在这个连续空间上执行标准的扩散过程(加噪与去噪)。

去噪完成后,再将生成的嵌入向量“舍入”回最接近的离散文本标记。早期的代表工作如 Diffusion-LM,通过这种方式实现了可控的文本生成。

离散空间扩散语言模型(Discrete DLMs):这类模型直接在离散的词汇表空间上定义扩散过程,避免了连续与离散空间之间的转换。其核心思想通常是引入一个特殊的掩码 [MASK] 标记。

前向过程是逐步将文本中的部分 token 替换为 [MASK],反向过程则是训练一个模型(通常是 Transformer 架构)来预测被掩盖的 token。通过多轮迭代去掩码,最终生成完整文本。

这一范式已成为当前大规模 DLM(如 LLaDA)的主流,它巧妙地结合了掩码语言模型(如 BERT)的双向上下文优势和可控的并行生成能力。

混合自回归-扩散模型(Hybrid AR-Diffusion Models):这类模型试图在自回归模型的强依赖建模能力与扩散模型的并行性之间取得平衡。一种典型策略是“分块半自回归”生成:模型在块(block)的层面上是自回归的(即逐块生成),但在每个块内部,则使用扩散模型并行生成所有 token。

DLM的预训练与后训练

预训练和监督微调:

为节省训练成本,许多大规模 DLM 采用“预训练模型改造”的策略。例如,DiffuLLaMA 和 Dream-7B 等模型通过在开源的自回归模型(如 LLaMA, Qwen)权重基础上进行持续预训练,高效地将其转化为性能强大的 DLM。其监督微调过程也与自回归模型类似。

针对推理能力的后训练:

为了提升 DLM 的复杂推理能力(如数学、代码等任务),研究者们尝试将强化学习(RL)等算法应用于 DLM。这面临着独特的挑战,因为 DLM 的迭代生成过程使得计算序列的对数似然(log-probability)非常困难,而这是传统 RL 算法的关键。目前的探索主要分为三条路径:

DLM的推理策略与优化

为了提升 DLM 的生成质量和效率,研究者开发了多种推理策略:

在效率方面,DLM 也有独特的推理优化技术:

多模态和统一模型

得益于扩散框架的灵活性,扩散语言模型在处理文本、图像等多模态数据方面展现出巨大潜力。目前让 DLM 获得多模态能力的主流方法分为两种:

下游任务和应用

扩散语言模型的应用已十分广泛,除了通用的语言生成,还在许多特定领域展示了优势:

挑战与未来方向

尽管前景广阔,DLM 的发展仍面临着一些核心挑战:

但挑战也意味着机遇。作者指出了一些未来潜在的研究方向:提升训练效率、探索低比特量化、模型剪枝和蒸馏、实现真正的多模态统一推理,以及开发基于 DLM 的 Agent 等等。

结语

本篇综述系统地梳理了扩散语言模型的整个生态系统,从基本范式、训练与推理策略,到多模态扩展和应用。

论文强调了 DLM 作为自回归模型之外的一条重要技术路线,其在并行推理、可控生成等方面的独特优势使其具备巨大的发展潜力。尽管挑战依然存在,但随着研究的不断深入,DLM 有望在未来的AI领域扮演越来越重要的角色。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

扩散语言模型 DLM 自然语言处理 AI 深度学习 Diffusion Language Models NLP Artificial Intelligence Deep Learning
相关文章