理想 TOP2 09月25日
字节跳动提出新算法解决LLM Agent训练难题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动发布论文《Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents》,提出熵调制策略梯度(EMPG)算法,解决LLM Agent训练中学习信号强度与决策不确定性耦合的问题。该算法通过自校准梯度缩放和未来清晰度奖励,解耦梯度大小与自信程度的关系,使模型在长任务中更稳定地学习。

📈 自校准梯度缩放:放大自信(低熵)步骤的梯度更新幅度,抑制幻觉式自信;衰减不确定(高熵)步骤的梯度更新幅度,稳定训练过程。

🔮 未来清晰度奖励:奖励引导模型进入更确定状态的行动,激励探索可预测的解决方案路径。

🔄 EMPG解耦梯度大小与自信程度,使模型在长任务中更稳定地学习,提升模型在域外任务上的泛化能力。

📊 实验证明,EMPG能够帮助智能体突破性能平台期,达到更高性能水平,并防止策略崩溃。

🔄️ EMPG在步骤级别分析熵,而非token级别,更符合LLM Agent的训练特点。

原创 理想TOP2 2025-09-15 23:30 四川

25年9月11日字节跳动发布

Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

对理想的帮助之处在于,理想要做agent,大概率会参考的,一样会遇到类似学习信号的强度(梯度大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系的问题

实际和人类学习挺像的,只要结果正确,就容易过渡强化其步骤正确性(类比销量高了,做啥都是对的),遇到一个错误的路径,如果非常自信,容易不反思,无法矫正错误。迷茫探索时遇到错误,容易畏手畏脚,不敢继续探索。

本应该被大力强化的自信且正确的步骤,只得到了微调 。本应该被严厉惩罚的自信且错误的步骤,也只得到了微调 。而那些本应被谨慎对待的不确定的探索步骤,却承受了最剧烈的奖惩,导致训练非常不稳定 。

字节这篇论文给出了解决这类问题的思路。

以下为更细化论述:

本质是在讲解决一个当前LLM Agent训练中的核心困境:如何在最终结果“非成即败”(即稀疏奖励)的漫长任务中,知道该奖励或惩罚哪一步决策 。

在传统的强化学习中,智能体(Agent)完成一个长任务后,如果成功了,所有步骤都会获得奖励;如果失败了,所有步骤都会受到惩罚 。这就像一个项目最终成功了,老板给团队所有成员发了等额奖金,但实际上有人在摸鱼,有人则做出了关键决策。这种一荣俱荣,一损俱损的反馈机制效率极低 。

现有方案要么代价高昂(如需要大量人工标注来创造中间奖励),要么存在理论缺陷 。其中一种探索方向是利用模型自身的“不确定性”(即策略熵)作为信号,但这很容易让模型陷入“自信地犯错”的恶性循环中 。

字节发现了一个更根本的问题:在标准的策略梯度算法中

学习信号的强度(梯度大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系 。

上面这句话是关键,在这里低熵可以简单理解成高确定性,高熵理解成低确定性。梯度大可以理解成反思深刻(要多调整决策逻辑),梯队小是反思不大(稍微调整一下就好)。

耦合关系指 非常自信时(低熵),调整力度(梯度)就天然很小,非常迷茫时(高熵),调整力度(梯度)就天然大。

为啥有害?三种例子辅助理解 只要结果正确,就容易过渡强化其步骤正确性(类比销量高了,做啥都是对的),遇到一个错误的路径,如果非常自信,容易不反思,无法矫正错误。迷茫探索时遇到错误,容易畏手畏脚,不敢继续探索。

本应该被大力强化的自信且正确的步骤,只得到了微调 。本应该被严厉惩罚的“自信且错误”的步骤,也只得到了微调 。而那些本应被谨慎对待的不确定的探索步骤,却承受了最剧烈的奖惩,导致训练非常不稳定 。

为了解决这个问题,字节提出了熵调制策略梯度(EMPG),设计了一套机制,强行解耦这种关系,使得梯度的大小不再由当时的自信程度决定,而是由自信程度和最终结果共同来智能地决定。并非简单地奖励低熵,而是设计了一套的重校准机制。

由自校准梯度缩放 (Self-Calibrating Gradient Scaling)和未来清晰度奖励 (Future Clarity Bonus)这两个组件构成

校准梯度缩放 (Self-Calibrating Gradient Scaling)是为了修正梯度的大小,解决熵-梯度耦合问题。

工作原理是:

放大信号:自信(低熵)的步骤,放大梯度更新的幅度 。如果最终被证明是正确的(任务成功),会得到强烈的正向激励;如果它是错误的(任务失败),会受到严厉的惩罚,这有助于抑制模型的幻觉式自信 。

衰减信号:对于一个不确定(高熵)步骤,衰减其梯度更新的幅度 。防止探索性行为带来的噪声干扰策略学习,从而稳定训练过程 。

这个缩放是自校准的,意味着在一个批次内动态调整,确保只是重新分配学习信号的权重,而不是单纯地放大或缩小整体信号,从而提高了稳定性 。 

未来清晰度奖励 (Future Clarity Bonus)是为了引导探索的方向 。在常规的奖励之外,额外提供一个内在的激励信号 。

如果一个动作能够引导智能体进入一个更加确定、更加清晰的未来状态(即下一个步骤的熵更低),那么这个动作就会得到一个额外的奖励 。

这会激励智能体主动寻找那些可预测的解决方案路径,避开那些容易让模型感到困惑的、高熵的混乱轨迹 。从信息论的角度看,这相当于鼓励智能体采取能最大化信息增益的行动 。

基线方法在训练到一定程度后会陷入性能平台期,学习停滞不前 。而EMPG能够帮助智能体突破这个瓶颈,达到一个原本无法企及的更高性能水平 。EMPG不只是加速学习,而是从根本上引导模型找到了更优的策略 。

在线强化学习微调中,一个常见的失败模式是策略崩溃,即模型在训练后期突然性能雪崩 。实验数据显示,基线方法(DAPO)的KL损失在后期剧烈波动,表现出严重的不稳定性 。而加入了EMPG后,KL损失全程保持平稳,证明了其正则化效果和稳定性 。

EMPG的两个组件扮演着不同但互补的角色 :

梯度缩放:它更像一个正则化器,通过教会模型如何在其不确定时行动(即衰减高熵步骤的更新),使得最终策略更加稳健、不易出错 。提升了模型在域外(OOD)任务上的泛化能力 。

未来清晰度奖励:它更像一个探索信号,通过奖励那些导向已知、高质量决策序列的路径,帮助模型更好地掌握域内(ID)任务的分布规律 。

两者结合,使得模型既能精通已知模式,又对未知情况具有鲁棒性 。

以往的研究多在token级别分析熵,字节这篇论文是则在步骤(step)级别(即一个完整的“思考-行动”循环)进行分析 。字节的意思,词元级别的熵动态并不能直接照搬到步骤级别,即使是初始熵很低的自信步骤,在训练后其熵也可能发生巨大变化 ,必须在步骤层面进行调整。

加微信,进群深度交流理想长期基本面。不是技术群,不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

字节跳动 LLM Agent 熵调制策略梯度 强化学习 深度学习
相关文章