机器之心 10月27日 17:42
Fast-dLLM v2:用少量数据将AR模型适配为高效Block Diffusion LLM
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Fast-dLLM v2 提出了一种务实的方法,仅用约10亿 tokens 的数据,便能将现有的自回归(AR)大语言模型适配为并行解码的 Block Diffusion LLM。该技术解决了扩散 LLM(dLLM)在 KV Cache 复用和可变长度支持上的挑战,同时保留了 AR 模型的语义组织能力。通过在 A100/H100 硬件上进行测试,Fast-dLLM v2 在保持精度的前提下,实现了高达 2.5 倍的端到端吞吐量提升。该方法在训练成本上远低于从头训练,为大模型的高效推理提供了新的解决方案。

💡 **高效适配 AR 模型**:Fast-dLLM v2 采用了一种创新的“AR 友好”架构,通过块内双向注意力和块间因果关系,并结合互补掩码和 token-shift,使得预训练的 AR 模型能够以极少量的微调数据(约10亿 tokens)适配为 Block Diffusion LLM,无需像 Dream 模型那样需要数百亿 tokens 的训练,大大降低了迁移成本和时间。

🚀 **显著提升推理吞吐量**:通过引入层级缓存(块级 KV Cache 和子块 DualCache)以及置信度感知的并行解码机制,Fast-dLLM v2 能够并行生成 token,从而在 A100/H100 等硬件上实现高达 2.5 倍的端到端吞吐量提升,同时保持与 AR 模型相当的生成质量,有效解决了 AR 模型逐 token 解码的效率瓶颈。

📊 **性能卓越且可扩展**:在 7B 模型规模上,Fast-dLLM v2 实现了比 Qwen2.5-7B-Instruct 高 2.54 倍的吞吐量,并在 GSM8K 等基准测试中展现出更高的准确率。该方法还具备良好的 Batch 和硬件可扩展性,在 H100 上最高可达 1.8 倍吞吐加速,为不同规模和硬件环境下的模型部署提供了灵活高效的解决方案。

2025-10-26 12:03 北京

用很少的数据(~1B tokens)把 AR 模型适配为 Block Diffusion LLM,相较等规模 AR 的端到端吞吐量约提升 2.5×

自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。

Fast-dLLM v2 给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需~1B tokens 量级的微调即可达到 “无损” 迁移,不必训练数百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高,最高可达 2.5×

核心看点

原理与做法:从 AR 到 Block Diffusion 

 1)块式扩散与 AR - 友好注意力

Fast-dLLM v2 按固定块大小把序列切成若干块:块内双向注意力以并行去噪,块间保持左到右的因果关系,从而既能并行、又能沿用 AR 的语义组织、可变长度和 KV Cache;配合互补掩码(complementary masking)与 token-shift,保证每个 token 都在 “可见 / 被遮” 两种视角下学习,稳定恢复 AR 语义表征。

2)层级缓存(Hierarchical Cache)

3)置信度感知的并行解码

延续 v1 的思路:当某位置的预测置信度超过阈值(如 0.9),即可并行确定多个 token,其余不确定位置保留待后续细化。在 GSM8K 上,阈值 0.9 时吞吐从 39.1→101.7 tokens/s,提速约 2.6×,精度影响可忽略。

性能结果

训练成本

数据 / 算力成本:以~1B tokens 量级微调把 AR 模型适配为 Block Diffusion LLM(对比 Dream 的~500B tokens),门槛显著降低;论文给出了 Qwen2.5-Instruct 1.5B/7B 在 64×A100 上的具体训练步数与配置,只需要几个小时即可完成训练,可复现性强。 

总结

Fast-dLLM v2 提供了一条务实路线:用很少的数据(~1B tokens)把 AR 模型适配为 Block Diffusion LLM,相较等规模 AR 的端到端吞吐量约提升 2.5×,精度保持可比,并且关键开关(块大小、阈值、缓存)都能工程化地按目标调优,这是一个成本与收益比较均衡的解法。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Fast-dLLM v2 Block Diffusion LLM AR模型 模型适配 推理效率 LLM AI 技术创新 并行解码 KV Cache
相关文章