PaperWeekly 前天 23:48
扩散语言模型新解码范式提升推理效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

复旦大学等联合研究团队提出了一种针对掩码扩散大语言模型(MDLM)的解码策略与强化学习训练新组合,有效解决了全扩散式解码易陷入EOS陷阱、解码步长不最优以及训练轨迹不一致等问题。通过引入EOSER(EOS早期拒绝机制)和ASS(递增步长调度器),显著提升了模型在早期生成有意义token的能力,并优化了推理速度,将解码时间复杂度从O(L)降至O(log2L)。结合CJ-GRPO(一致性轨迹优化)算法,进一步稳定了训练过程并减少了计算开销。实验表明,该方法在数学推理和规划任务中表现出色,尤其在少步数解码下,性能可与更多步数的基线方法相媲美,为扩散大语言模型的发展开辟了新路径。

💡 **优化解码策略以克服EOS陷阱**:研究团队提出EOSER(EOS早期拒绝机制),在解码早期主动抑制(End-of-Sentence)token的置信度,鼓励模型生成更多有实际语义的token,从而避免过早中断生成或产生无意义内容,解决了全扩散式解码易陷入“EOS陷阱”的痛点。

🚀 **递增步长调度器提升效率与速度**:通过引入ASS(递增步长调度器),模型在解码初期谨慎(生成少量token),在后期大胆(生成大量token)。这使得每步的解码token数可以变为2s,将推理时间复杂度从O(L)大幅降低至O(log2L),训练时间/空间复杂度也相应降低,显著提升了模型训练和推理的速度。

⚖️ **一致性轨迹优化保证训练稳定**:CJ-GRPO(一致性轨迹优化)算法被用来弥补掩码扩散大语言模型在推理和训练轨迹上的不一致性问题,缓解了优化误差,使得训练过程更加稳定,效果更出色。尤其是在结合递增步长调度器后,该算法在保证轨迹一致性的同时,能大大缩减计算开销。

🧠 **任务类型与推理模式的匹配**:研究发现,并行解码的MDLM在规划类任务(如Countdown、Sudoku)中表现更优,而数学类任务(如GSM8K、MATH500)则更适合半自回归/分块解码,这符合人类的直观理解。未来可探索混合推理模式,结合扩散和自回归的优势以适应更多样化的任务需求。

原创 让你更懂AI的 2025-10-18 18:39 北京

扩散语言模型的新解码范式

由复旦大学、上海人工智能实验室、上海交通大学联合研究团队发布最新论文,提出了一套针对掩码扩散大语言模型(Masked Diffusion Large Language Model,MDLM)的解码策略+强化学习训练组合,显著提升了掩码扩散语言模型的推理性能与效率,为扩散大语言模型的发展开辟了新路径。

论文标题:

Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step

论文关键词:

#掩码扩散语言模型#扩散大语言模型#大语言模型#强化学习#高效解码

代码链接:

https://github.com/yjyddq/EOSER-ASS-RL

论文链接:

https://arxiv.org/pdf/2509.23924

解决了什么问题?

掩码扩散语言模型(MDLM)如 LLaDA 展现出与自回归模型相媲美的能力,并具备并行解码、灵活生成顺序、潜在少步推理等优势。

然而,完全扩散式的解码策略并未被广泛使用,取而代之的是分块解码(Block-wise or Semi-AR)。因为目前的完全扩散式解码存在两大痛点——性能逊色于分块解码和容易陷入 EOS 陷阱!

该团队基于这点发现刨根问底,最终定位到 MDLM 的全扩散式解码的三个特点:

1)解码过程中的 token 置信度变化趋势:由平缓到陡升

2)解码过程中 <EOS> token 的置信度一直显著大于其他非 <EOS> token

3)在每一步解码的时候都很大概率会有 <EOS> token 被解码出来,像是陷入了 <EOS> 的陷阱无法自拔。而分块解码由于块的限制存在,则不会深陷其中

此外,现有用于 MDLM 的强化学习算法忽略了优化轨迹和实际 rollout 轨迹的一致性问题,通常采用跳步优化

该团队将以上问题汇总为一下三个关键问题:

解码陷阱:全扩散解码容易在早期步骤中过早生成 <EOS>,导致前期生成大量无实际语义的 token 或生成过早中断,性能下降;

等间隔解码步长:根据 token 置信度的变化曲线,等间隔的解码步长可能不是最优的,因为解码前期对解码结果的置信度较低,而后期置信度较高;

rollout 轨迹和优化轨迹不一致:MDLM 的强化学习可能会面临轨迹不一致问题,影响优化效果。

提出了什么?

<EOS> 早期拒绝机制(EOSER)

在解码早期主动抑制 <EOS> 置信度,希望早期解码更多有实际语义的 token,让模型不再陷入 <EOS> 陷阱

后期逐步恢复 <EOS> 置信度,确保句子正常结束

递增步长调度器(Ascending Step-Size Scheduler)

前期谨慎解码(解码少量 token),后期大胆解码(解码大量 token)

每步的解码 token 数为 2s,推理时的解码时间复杂度直接从 O(L)降至 O(log2L)

训练时的解码时间/空间复杂度直接从 O(L)降至 O(log2L)

训练、推理速度大幅提升

一致性轨迹优化(CJ-GRPO)

弥补掩码扩散语言模型的推理和训练轨迹优化的一致性

缓解优化轨迹的不一致性导致的优化误差

训练更稳定,效果更出色

由于过长的步数会引入较大的存储开销,而结合递增步长调度器后,既能保证轨迹的一致性,同时能大大缩减计算开销 

EOSER解码策略、ASS调度器和CJ-GRPO的强强强联合

装配 EOSER 解码策略和 ASS 步长调度器之后,再使用轨迹一致性分组策略优化(CJ-GRPO)算法进行在线强化学习训练,既减少了推理时间,同时削减了 CJ-GRPO 算法的解码中间状态存储开销,使得训练后的模型在少解码步数下甚至能达到 Baseline 方法 L/2 解码步数时的性能——“一石三鸟”

模型在少步数(log2L)下仍能保持可观性能(与 L/2 解码步数相当),真正激发扩散语言模型的推理速度优势的潜能。

实验结果

数学推理(GSM8K、MATH500)和规划任务(Countdown、Sudoku)上,使用 LLaDA-8B-Instruct 模型进行了广泛的实验,结果显示:

一致性轨迹优化在数学和规划任务上实现了对 baseline 的全面超越,CJ-GRPO+Semi-AR 在数学任务上表现突出,CJ-GRPO+EOSER 在规划任务上表现突出,规划任务上性能相比 baseline 提升 2-4 倍;

在都仅用 log2L 步数的情况下,EOSER+ASS 性能优于分块解码和全扩散式解码策略,甚至能达到与 L/2 步数相当的效果;

发现规划任务适合并行推理,数学问题适合顺序推理;

一致性轨迹优化结合递增步长调度器和 EOSER 解码策略,在少步数推理场景下保持良好的竞争力,真正实现“又快又好”。

研究意义和未来展望

本工作探究了扩散语言模型的全扩散式解码策略,并对其使用更一致的轨迹、更少的解码步数进行优化,用更少的步数,越快越好地完成更复杂的推理任务,推动扩散语言模型的全扩散式解码、快速解码、强化学习的发展!

并行推理 v.s. 顺序推理:装配了并行解码的 MDLM 在规划类任务中表现更加,而数学类任务则更适合半自回归/分块解码,这比较符合人类的直观感受。

未来可探索混合推理模式:结合扩散和自回归各自的优势,适应多样化任务需求。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

扩散语言模型 掩码扩散语言模型 MDLM 解码策略 强化学习 高效解码 EOS陷阱 递增步长 一致性轨迹优化 AI推理 Diffusion Language Models Masked Diffusion Language Models MDLM Decoding Strategy Reinforcement Learning Efficient Decoding EOS Trap Ascending Step-Size Consistency Trajectory Optimization AI Inference
相关文章