机器之心 12小时前
DLER:精简推理模型,优化算法胜于惩罚设计
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,英伟达研究院的研究提出了DLER(Doing Length pEnalty Right),一种通过强化学习优化算法解决大模型推理效率问题的创新方法。研究发现,提升推理效率的关键不在于复杂的长度惩罚设计,而在于正确的优化算法选择。DLER通过Advantage normalization with local mean and batch std、Higher clip和Dynamic sampling等技术,稳定了训练信号,提高了探索效率,并聚焦于有价值的推理路径。实验结果显示,DLER可以将模型推理长度减少70%以上,同时保持甚至提升准确率,并在数学基准测试中展现出显著优势,为大模型的高效落地提供了新思路。

✨ **优化算法是关键,而非惩罚复杂度**:DLER的研究颠覆了以往对推理模型效率提升的认知,指出成功的关键在于采用合适的强化学习优化方法,而非设计复杂的长度惩罚机制。通过正确的优化策略,模型能够实现“短而精”的思考方式,同时保持高准确率。

🚀 **DLER的强化学习训练配方**:DLER提出了一套创新的强化学习训练方法,包括使用Advantage normalization with local mean and batch std来稳定训练信号,Higher clip来促进高熵探索,以及Dynamic sampling来过滤无效样本,从而聚焦于有价值的推理路径。此外,它还采用最简单的Truncation penalty,不奖励超长输出。

📈 **显著的效率与准确率提升**:应用DLER训练的模型在推理长度上可减少70%以上,同时准确率得到保持甚至提升。例如,在AIME-24数学基准上,DLER-Qwen-R1-7B以更少的Tokens实现了与DeepSeek-R1-7B相当的准确率,且在同等推理时间内能生成更多并行简明推理,准确率提升近50%,证明了高效推理是Test-time Scaling的关键。

💡 **大模型适用性与性能优化**:DLER不仅适用于小模型,在大模型上同样表现出色。研究团队还提出了权重选择性合并(magnitude-selective weight merging)技术,解决了大模型微调时性能下降的问题,能在保持准确率的同时实现近一半的长度压缩。

2025-11-04 11:43 北京

推理效率的提升,不取决于惩罚设计的复杂度,而取决于优化算法的选择。

大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。

如果 scale-up 长链思维是通往 AGI 的路径,那么现有思维链的冗长问题是我们亟待解决的。

那么,能不能让模型「少说废话」,既快又准?

过去的尝试大多失败:各种复杂的长度惩罚(Length Penalty)要么让模型乱答,要么训练不稳定,结果就是效率提升了,准确率却掉了。

现在,英伟达研究院的最新研究给出了答案:关键不在于设计多复杂的惩罚,而在于用对强化学习优化方法。

DLER 来了!推理模型的「减长秘籍」

DLER 首先是细致及全面了分析了引入长度惩罚之后出现的新的强化学习训练问题,包括:

对于这些问题,DLER 提出了一套简单却强大的强化学习训练配方:

基于 DLER 这套训练方法,得到的模型结果令人震惊。新模型产生的推理长度竟然可以减少 70% 以上,但准确率完全保持。在 AIME-24 数学基准上,DLER-Qwen-R1-7B 平均仅用 3230 Tokens 就达到 55.6% 准确率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。

DLER 不仅实现了回复问题更短的输出,更是从另外角度增加了每 token 的智能含量。 在同样的推理时间内,相比于传统的推理模型只能生成一条冗长推理,DLER 模型能并行生成几十条简明推理,最终准确率比 DeepSeek-R1 高出近 50%。这一实验也意味着高效推理才是 Test-time Scaling 的关键。

关键发现

DLER 的研究揭示了几个颠覆性结论:

更令人惊喜的是,DLER 不仅适用于小模型,在大模型上同样奏效。研究团队还提出了权重选择性合并(magnitude-selective weight merging),解决了大模型用公开数据微调时的性能下降问题:既能恢复全部准确率,又能保持近一半的长度压缩。

总结

这项来自 NVIDIA 的最新工作,让我们重新认识了推理模型的未来方向。首先,推理模型不能只是一味拉长推理链条,而是需要更聪明、更高效地思考。其次,通过 DLER,模型能以更少的 Tokens、更短的时间,做到更高的准确率。 如果说之前的研究 ProRL 让模型「开窍」,那么 DLER 就是帮模型「瘦身健身」,让它们更快、更强、更实用。未来在实际部署中,DLER 无疑会成为让推理模型真正落地的关键技术之一。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DLER 推理效率 强化学习 大模型 NVIDIA Reasoning Efficiency Reinforcement Learning Large Language Models AI Optimization
相关文章