Meta提出SPG：让扩散语言模型RL训练更稳定高效

原创让你更懂AI的 2025-10-20 13:51 北京

让扩散语言模型真正闭合强化学习回路

把“好答案拉上去、坏答案压下去”：SPG 用上下证据界把扩散语言模型的策略梯度夹得又准又稳，一口气把四个经典推理基准的榜首收进囊中。

一谈到 dLLM（离散扩散语言模型），大家首先想到的是并行或半自回归的解码优势——快，而且吞吐高。

但过去，一到基于奖励的对齐/RL 就“卡壳”：在扩散范式里不可解，策略梯度很难按教科书路线走。行业里的临时补丁，是拿 ELBO（下界）当“似然代理”；它能把“好样本”推高，却很难把“坏样本”真正压下去。

这篇工作来自 Meta 田渊栋团队：他们提出“三明治梯度”（Sandwiched Policy Gradient，SPG），把不可解的真似然夹在可计算的上下证据界之间——正优势最大化下界（ELBO），负优势最小化上界（EUBO），并用块式掩码做蒙特卡洛估计来对齐训练与推理分布。

结果不是“勉强可用”，而是“直接有效”：同一解码设定下，SPG 在四个推理基准全面胜出，曲线收敛更快、峰值更高、波动更小。

论文标题：

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

论文链接：

https://arxiv.org/pdf/2510.09541

代码链接：

https://github.com/facebookresearch/SPG

背景：并行优势与似然困境

dLLM 通过逐步加噪—去噪在离散 token 空间建模，推理时可并行或半自回归解码，这让它在延迟和吞吐上对自回归模型有天然优势。可 RL 需要来估计策略梯度，而 dLLM 的这项量不可解。

社区广泛用 ELBO 去取代它，但 ELBO 只是下界：当样本是负优势或采用相对奖励时，最小化下界不保证真似然真的降低，于是“该罚的罚不到位”。SPG 的核心切口，就是为负样本引入可计算的上界，在真似然语义下“真惩罚”。

方法：上下界夹击策略梯度

2.1 预备：ELBO与策略梯度

标准 dLLM 训练最大化 ELBO，它把“在被掩码位置正确复原”转化为可计算的目标：

在 RL 中，我们最大化期望回报，其经典策略梯度为：

问题恰在这里：dLLM 的不可解；若一概用替代，就会在负优势上产生系统性偏差。

2.2 正式目标与“夹心替代”

作者先把“策略优化”改写成组相对的优势加权对数似然：

其中，且表示采样时对策略断开梯度。

由于 dLLM 的不可解，SPG 引入“三明治”替代：正优势最大化下界，负优势最小化上界，得到对原目标的可优化下界：

且因，从而；最大化是对真实目标的有效代理。

▲ 图1. SPG 训练流程与块式掩码示意

对同一提示产生；正优势最大化似然下界，负优势最小化似然上界。右侧用块式掩码做 MC 估计：选一段连续块做随机掩码，之前块保持干净，之后块全掩码。

2.3 关键上界：EUBO的可计算形式

基于 Rényi 变分界，作者给出证据上界的离散式与连续极限形式。为便于实践，这里给出论文中用于实现/估计的两种写法：

其中控制上界松紧；实践中用 MC 估计并在式（5）中替代。作者也讨论了 Jensen 带来的轻微偏差与“更松但无偏”的替代式（效果更差），因此保留“更紧但略偏”的实现。

2.4 块式掩码：对齐真实推理

若 MC 估计仍用全随机掩码，而推理采用块式半自回归，训练—推理分布就会错配。

SPG 改用块式掩码：把序列分成等长块，选一块随机掩码，之前块保持干净、之后块全掩码；并对提示与干净块加轻微随机掩码扰动（）。这既稳定估计，又贴近推理分布。

2.5 混合近似：稳住负优势

单用负样本“压得动”，但方差较大、收敛慢。作者提出混合近似：

经验上固定即可兼顾学习速度与最终上限；即可覆盖主流设定。更进一步，作者证明了最佳混合在坐标层面严格降方差。

▲ 图2.Policy Optimization with SPG（伪代码）

给定提示与回报，计算优势；用块式掩码产生，估计与（式（2）（7）），构造并上升（式（5））。

实验：四项全面提升

设置与基线——作者在 LLaDA-8B-Instruct 上做 RL 微调，对比 D1、WD1、UniGRPO 等 dLLM-RL 方法；统一采用块式半自回归的信心驱动解码（块大小 32；每步在当前块解出 2 个最高置信 token；训练温度 0.9，Sudoku 0.3；评测温度 0.0），并去除 D1 的额外 SFT 以确保公平。

▲ 图3.SPG 在 GSM8K、MATH500、Countdown、Sudoku 的准确率全面领先，曲线一眼能看出“抬升幅度大、稳定台阶高”。

主结果——在四个推理基准、三种生成长度（128/256/512）上，SPG（尤其“混合”版本）总体最优；从训练曲线看，SPG 的奖励上升更快、平台更高、波动更小，呈现“持续抬升”的形态。

作者特别强调：这并非绑定某个解码细节的“投机性领先”，在不同块大小（16/32/64）、不同推理策略（信心驱动/随机）下，SPG 都能维持明显优势。

▲ 表1.与 LLaDA-1.5、D1、WD1、UniGRPO 同设定对比，SPG w/ Mixture 在绝大多数格子里拔尖。表中还标注了相对前 SOTA 的绝对涨幅（绿色数字）

组件消融——当移除负优势项时，四项指标明显回退；仅用 ELBO 虽能涨，但到不了 SPG 的高度；仅用 EUBO 更强，却略不稳；上/下界混合兼得“真惩罚”与“好收敛”，在多任务上“顺到底”。这与方法中对偏差—方差的取舍完全吻合。

▲ 图4. 训练奖励动态：SPG 的奖励曲线“起得快、抬得稳”；滚动窗口显示方差更小。

▲ 表2.负优势估计消融：去掉负优势最差；仅 ELBO 次之；仅 EUBO 强但不稳；Mixture 综合最佳。数值差距在 Countdown 与 Sudoku 上尤为显著。

分布对齐——把 MC 估计从随机掩码换成块式掩码后，无论是 EUBO 还是 Mixture，在 Countdown、MATH500 上都有稳定提升；这直接佐证：训练要“看见”模型推理时的局部形状，估计分布与 rollout 分布要对齐。

▲ 表3.掩码策略消融：块式掩码显著优于随机掩码，尤其对 Countdown 的收益巨大，说明“估计看世界的方式”会被模型真实推理所放大。

总结：让dLLM的RL真正闭环

SPG 把 dLLM 做 RL 的两处“老大难”——不可解似然与训练-推理分布错配——一次性收拾干净：

一方面，用上下证据界把真似然夹在中间，正样拉下界、负样压上界，让梯度方向在“真似然意义”上对齐；

另一方面，用块式掩码去做 MC 估计，把训练看到的局部形态与推理时的局部状态对齐，既稳方差，也稳优化。两条线叠加，就形成了“稳、快、高”的系统性红利：训练更稳、收敛更快、平台更高，也由此解释了它在四个推理基准上一举登顶的现实表现。

对一线团队而言，给出两条可执行的“操作语句”即可落地：遇到负优势或相对奖励，把“上界”请进来；模型按块解码，估计也按块看世界。

更多阅读

把“好答案拉上去、坏答案压下去”：SPG 用上下证据界把扩散语言模型的策略梯度夹得又准又稳，一口气把四个经典推理基准的榜首收进囊中。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签