近期,英伟达研究院的研究提出了一种名为 DLER 的新方法,旨在解决当前大模型推理中“长链思维”带来的冗长问题。DLER 认为,提升推理效率的关键不在于惩罚设计的复杂度,而在于优化算法的选择。通过分析长度惩罚引入的强化学习训练问题,DLER 提出了一套结合 Advantage normalization、Higher clip 和 Dynamic sampling 的训练配方,并辅以简单的 Truncation penalty。实验结果显示,DLER 模型可将推理长度减少 70% 以上,同时保持甚至提升准确率,并在数学基准测试中展现出显著优势,表明高效推理是 Test-time Scaling 的关键。
💡 DLER 核心观点:大模型推理效率的提升,关键在于优化算法的选择,而非惩罚设计的复杂度。研究指出,过去 RL 长度惩罚“必然掉准确率”的认知,是由于优化方法不当所致,简单的截断惩罚配合正确的优化器即可实现“短而精”的思考。
🏋️ DLER 的训练配方:为了解决长度惩罚带来的强化学习训练问题(如 Reward 信号方差增大、熵塌缩等),DLER 提出了一套包含 Advantage normalization with local mean and batch std、Higher clip、Dynamic sampling 和 Truncation penalty 的训练策略,以稳定训练信号、促进高熵探索并聚焦有价值的推理路径。
🚀 DLER 的显著成效:采用 DLER 方法训练的模型,推理长度可减少 70% 以上,同时准确率得到保持甚至提升。例如,在 AIME-24 数学基准上,DLER-Qwen-R1-7B 在更短的 Token 消耗下达到了与 DeepSeek-R1-7B 相当甚至更高的准确率,且在同等推理时间内能并行生成更多简明推理。
🔑 DLER 的普适性与未来:DLER 不仅适用于小模型,在大模型上同样奏效。结合权重选择性合并技术,DLER 还能在大模型微调时实现性能恢复和长度压缩。这项研究为推理模型的未来发展指明了方向,即追求更聪明、更高效的思考方式,使其在实际部署中更为实用。
2025-11-04 11:43 北京

推理效率的提升,不取决于惩罚设计的复杂度,而取决于优化算法的选择。
大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。如果 scale-up 长链思维是通往 AGI 的路径,那么现有思维链的冗长问题是我们亟待解决的。那么,能不能让模型「少说废话」,既快又准?过去的尝试大多失败:各种复杂的长度惩罚(Length Penalty)要么让模型乱答,要么训练不稳定,结果就是效率提升了,准确率却掉了。现在,英伟达研究院的最新研究给出了答案:关键不在于设计多复杂的惩罚,而在于用对强化学习优化方法。DLER 来了!推理模型的「减长秘籍」DLER 首先是细致及全面了分析了引入长度惩罚之后出现的新的强化学习训练问题,包括:Reward 信号方差增大「Aha Moment」词不当处理带来的熵塌缩训练信号过度稀疏 (刚开始训练的时候大部分生成都超过了预设长度)
对于这些问题,DLER 提出了一套简单却强大的强化学习训练配方:Advantage normalization with local mean and batch std:替代 GRPO,稳定训练信号,避免因截断惩罚带来的高方差。Higher clip:提升高熵探索,防止模型「思想僵化」。Dynamic sampling:丢掉无效样本,聚焦真正有价值的推理路径。Truncation penalty:最简单的「截断惩罚」,不给超长输出任何奖励。
基于 DLER 这套训练方法,得到的模型结果令人震惊。新模型产生的推理长度竟然可以减少 70% 以上,但准确率完全保持。在 AIME-24 数学基准上,DLER-Qwen-R1-7B 平均仅用 3230 Tokens 就达到 55.6% 准确率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。DLER 不仅实现了回复问题更短的输出,更是从另外角度增加了每 token 的智能含量。 在同样的推理时间内,相比于传统的推理模型只能生成一条冗长推理,DLER 模型能并行生成几十条简明推理,最终准确率比 DeepSeek-R1 高出近 50%。这一实验也意味着高效推理才是 Test-time Scaling 的关键。关键发现DLER 的研究揭示了几个颠覆性结论:推理效率的提升,不取决于惩罚设计的复杂度,而取决于优化算法的选择。过去大家以为 RL 长度惩罚「必然掉准确率」,其实只是因为优化方法没选对。简单的截断惩罚 + 正确的优化器,就能让模型学会「短而精」的思考方式。
更令人惊喜的是,DLER 不仅适用于小模型,在大模型上同样奏效。研究团队还提出了权重选择性合并(magnitude-selective weight merging),解决了大模型用公开数据微调时的性能下降问题:既能恢复全部准确率,又能保持近一半的长度压缩。总结这项来自 NVIDIA 的最新工作,让我们重新认识了推理模型的未来方向。首先,推理模型不能只是一味拉长推理链条,而是需要更聪明、更高效地思考。其次,通过 DLER,模型能以更少的 Tokens、更短的时间,做到更高的准确率。 如果说之前的研究 ProRL 让模型「开窍」,那么 DLER 就是帮模型「瘦身健身」,让它们更快、更强、更实用。未来在实际部署中,DLER 无疑会成为让推理模型真正落地的关键技术之一。© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
阅读原文
跳转微信打开