字节跳动发布的研究成果《Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents》为大型语言模型(LLM)在执行长周期任务时遇到的核心困境提供了解决方案。文章指出,传统强化学习中,模型在最终结果“非成即败”的稀疏奖励下,难以准确判断每一步决策的有效性。尤其当模型“自信地犯错”或“迷茫地探索”时,学习信号的强度与决策的不确定性(熵)之间存在有害耦合,导致训练不稳定。为解决此问题,该研究提出了熵调制策略梯度(EMPG),通过“自校准梯度缩放”和“未来清晰度奖励”两大机制,强行解耦熵与梯度,使模型能够更稳定、更有效地学习,突破性能瓶颈,提升泛化能力,并有效避免策略崩溃。
💡 **核心困境:稀疏奖励下的决策评估难题**
文章指出,在长周期任务中,由于奖励信号稀疏(仅在最终成功或失败时给予),LLM Agent难以准确判断中间决策的有效性。传统的“一荣俱荣,一损俱损”的反馈机制效率低下,容易导致模型过度强化正确但并非关键的步骤,或无法有效纠正错误但自信的决策。
⚖️ **熵与梯度的有害耦合**
研究发现,标准策略梯度算法中,模型决策的“不确定性”(高熵)与“学习信号强度”(梯度大小)之间存在一种天然的、有害的耦合关系。具体表现为:模型越自信(低熵),梯度更新幅度越小,反思不够;模型越迷茫(高熵),梯度更新幅度越大,容易因探索的噪声导致训练不稳定。这种耦合阻碍了模型对关键步骤的有效强化或惩罚。
🚀 **熵调制策略梯度(EMPG)解决方案**
为解决上述问题,字节跳动提出了EMPG。它包含两个核心组件:1. **自校准梯度缩放**:通过放大自信但正确的步骤的梯度,并衰减不确定步骤的梯度,来修正梯度大小,解决熵-梯度耦合。这使得模型在自信犯错时受到严厉惩罚,在迷茫探索时避免噪声干扰,从而稳定训练。
2. **未来清晰度奖励**:在常规奖励外,额外提供内在激励。若一个动作能引导模型进入更确定的未来状态(降低下一步的熵),则获得额外奖励,激励模型主动寻找可预测的解决方案路径。
📈 **EMPG的显著优势**
EMPG能够帮助LLM Agent突破性能瓶颈,达到更高的性能水平,并从根本上找到更优的策略。实验数据显示,EMPG能显著提高训练稳定性,避免基线方法在训练后期出现的性能雪崩(策略崩溃)现象,KL损失全程保持平稳。EMPG的梯度缩放组件起到正则化作用,提升了模型在域外任务上的泛化能力;未来清晰度奖励则作为探索信号,引导模型掌握域内任务分布规律,两者结合使模型兼具稳健性和鲁棒性。
🎯 **步骤级别分析的重要性**
与以往多在token级别分析熵不同,该研究强调在步骤(step)级别进行分析。即使是初始熵很低的自信步骤,在训练后其熵也可能发生巨大变化。因此,必须在步骤层面进行调整,以确保模型能够有效地处理长周期任务中的复杂决策序列。
原创 理想TOP2 2025-09-15 23:30 四川

25年9月11日字节跳动发布Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
对理想的帮助之处在于,理想要做agent,大概率会参考的,一样会遇到类似学习信号的强度(梯度大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系的问题
实际和人类学习挺像的,只要结果正确,就容易过渡强化其步骤正确性(类比销量高了,做啥都是对的),遇到一个错误的路径,如果非常自信,容易不反思,无法矫正错误。迷茫探索时遇到错误,容易畏手畏脚,不敢继续探索。本应该被大力强化的自信且正确的步骤,只得到了微调 。本应该被严厉惩罚的自信且错误的步骤,也只得到了微调 。而那些本应被谨慎对待的不确定的探索步骤,却承受了最剧烈的奖惩,导致训练非常不稳定 。字节这篇论文给出了解决这类问题的思路。以下为更细化论述:本质是在讲解决一个当前LLM Agent训练中的核心困境:如何在最终结果“非成即败”(即稀疏奖励)的漫长任务中,知道该奖励或惩罚哪一步决策 。在传统的强化学习中,智能体(Agent)完成一个长任务后,如果成功了,所有步骤都会获得奖励;如果失败了,所有步骤都会受到惩罚 。这就像一个项目最终成功了,老板给团队所有成员发了等额奖金,但实际上有人在摸鱼,有人则做出了关键决策。这种一荣俱荣,一损俱损的反馈机制效率极低 。现有方案要么代价高昂(如需要大量人工标注来创造中间奖励),要么存在理论缺陷 。其中一种探索方向是利用模型自身的“不确定性”(即策略熵)作为信号,但这很容易让模型陷入“自信地犯错”的恶性循环中 。字节发现了一个更根本的问题:在标准的策略梯度算法中学习信号的强度(梯度大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系 。上面这句话是关键,在这里低熵可以简单理解成高确定性,高熵理解成低确定性。梯度大可以理解成反思深刻(要多调整决策逻辑),梯队小是反思不大(稍微调整一下就好)。耦合关系指 非常自信时(低熵),调整力度(梯度)就天然很小,非常迷茫时(高熵),调整力度(梯度)就天然大。为啥有害?三种例子辅助理解 只要结果正确,就容易过渡强化其步骤正确性(类比销量高了,做啥都是对的),遇到一个错误的路径,如果非常自信,容易不反思,无法矫正错误。迷茫探索时遇到错误,容易畏手畏脚,不敢继续探索。本应该被大力强化的自信且正确的步骤,只得到了微调 。本应该被严厉惩罚的“自信且错误”的步骤,也只得到了微调 。而那些本应被谨慎对待的不确定的探索步骤,却承受了最剧烈的奖惩,导致训练非常不稳定 。为了解决这个问题,字节提出了熵调制策略梯度(EMPG),设计了一套机制,强行解耦这种关系,使得梯度的大小不再由当时的自信程度决定,而是由自信程度和最终结果共同来智能地决定。
并非简单地奖励低熵,而是设计了一套的重校准机制。由自校准梯度缩放 (Self-Calibrating Gradient Scaling)和未来清晰度奖励 (Future Clarity Bonus)这两个组件构成校准梯度缩放 (Self-Calibrating Gradient Scaling)是为了修正梯度的大小,解决熵-梯度耦合问题。工作原理是:放大信号:自信(低熵)的步骤,放大梯度更新的幅度 。如果最终被证明是正确的(任务成功),会得到强烈的正向激励;如果它是错误的(任务失败),会受到严厉的惩罚,这有助于抑制模型的幻觉式自信 。衰减信号:对于一个不确定(高熵)步骤,衰减其梯度更新的幅度 。防止探索性行为带来的噪声干扰策略学习,从而稳定训练过程 。这个缩放是自校准的,意味着在一个批次内动态调整,确保只是重新分配学习信号的权重,而不是单纯地放大或缩小整体信号,从而提高了稳定性 。 未来清晰度奖励 (Future Clarity Bonus)是为了引导探索的方向 。在常规的奖励之外,额外提供一个内在的激励信号 。如果一个动作能够引导智能体进入一个更加确定、更加清晰的未来状态(即下一个步骤的熵更低),那么这个动作就会得到一个额外的奖励 。这会激励智能体主动寻找那些可预测的解决方案路径,避开那些容易让模型感到困惑的、高熵的混乱轨迹 。从信息论的角度看,这相当于鼓励智能体采取能最大化信息增益的行动 。基线方法在训练到一定程度后会陷入性能平台期,学习停滞不前 。而EMPG能够帮助智能体突破这个瓶颈,达到一个原本无法企及的更高性能水平 。EMPG不只是加速学习,而是从根本上引导模型找到了更优的策略 。在线强化学习微调中,一个常见的失败模式是策略崩溃,即模型在训练后期突然性能雪崩 。实验数据显示,基线方法(DAPO)的KL损失在后期剧烈波动,表现出严重的不稳定性 。而加入了EMPG后,KL损失全程保持平稳,证明了其正则化效果和稳定性 。EMPG的两个组件扮演着不同但互补的角色 :梯度缩放:它更像一个正则化器,通过教会模型如何在其不确定时行动(即衰减高熵步骤的更新),使得最终策略更加稳健、不易出错 。提升了模型在域外(OOD)任务上的泛化能力 。未来清晰度奖励:它更像一个探索信号,通过奖励那些导向已知、高质量决策序列的路径,帮助模型更好地掌握域内(ID)任务的分布规律 。两者结合,使得模型既能精通已知模式,又对未知情况具有鲁棒性 。以往的研究多在token级别分析熵,字节这篇论文是则在步骤(step)级别(即一个完整的“思考-行动”循环)进行分析 。字节的意思,词元级别的熵动态并不能直接照搬到步骤级别,即使是初始熵很低的自信步骤,在训练后其熵也可能发生巨大变化 ,必须在步骤层面进行调整。
加微信,进群深度交流理想长期基本面。不是技术群,不是车友群。

阅读原文
跳转微信打开