理想与字节在Agent探索中的共识与差异

理想 TOP2 09月17日

近期，理想汽车与字节跳动在探索Agent（智能体）技术过程中，不约而同地发现了相同的问题：模型学习信号的强度（梯度大小）与决策的不确定性（熵）之间存在一种固有的、负面的耦合关系。为解决此问题，理想提出了AWE算法，字节则推出了EMPG框架。 AWE侧重于监督微调（SFT）阶段的Token级别优化，强调先易后难的动态权重调整，以提高训练效率和稳定性。EMPG则更进一步，在强化学习（RL）的Step级别引入自校准梯度缩放和未来清晰度奖励，不仅处理梯度问题，还兼顾了信用分配，尤其适用于长序列任务。两者都采用自适应或动态调制思路，利用模型内在的反馈信号指导训练，但EMPG的数学支撑更全面，且引入了与Agent场景相关的奖励设计。

💡 **核心共识：学习信号与不确定性的有害耦合** 理想与字节在独立研究Agent过程中，均发现模型在学习时，其梯度大小（学习信号强度）与模型决策时熵（不确定性）之间存在一种天生的、负面关联。当模型对决策过于自信（低熵）时，梯度天然较小，导致学习效率低下；而当模型不确定性高（高熵）时，梯度可能过大，引发训练不稳定。这是Agent学习中的一个普遍难题。

🚀 **理想AWE：聚焦Token级优化的工程化解决方案** 理想提出的AWE（自适应权重估计算法）主要应用于模型的中期训练阶段，尤其侧重于监督微调（SFT）中的Token级别。其核心思想是动态调整每个Token对模型参数更新的影响力，让模型“先易后难”，降低难度过高或过低的Token权重，集中火力于最有效率的学习区间，从而提高训练效率和稳定性，是一种务实的工程实践。

🔬 **字节EMPG：面向长序列Agent的全面框架** 字节的EMPG（熵调制策略梯度）框架则更进一步，聚焦于强化学习（RL）中的Step级别，并引入了“自校准梯度缩放”和“未来清晰度奖励”两个组件。前者与AWE思路相似，利用不确定性校准学习信号；后者则是一种内部奖励机制，引导Agent选择能导向更清晰未来状态的路径，解决了长序列任务中的信用分配问题，提供了更形式化、更全面的数学支撑。

🔄 **策略异同：模型内在反馈与场景化设计** 两者都采用了利用模型自身内在反馈信号（如熵或概率）来指导训练的自适应或动态调制思路，而非对所有Token或Step一视同仁。AWE侧重于处理梯度大小，是更偏向算法本身的优化。EMPG则在梯度大小的基础上，增加了信用分配的考量，并通过“未来清晰度奖励”引入了与Agent特定应用场景相关的设计，使其更贴合长序列任务的需求。

原创理想TOP2 2025-09-17 12:48 四川

读者不用被里面的名词吓到，有针对性解释。核心观点与逻辑链仔细多读几遍能懂的。

核心观点：

同一时期（2025年8月9月）理想和字节在探索Agent过程中，发现了相同的问题，基于各自业务特点，给出了类似的解决方案与效果。

其中理想更接近高效和实用的工程解决方案。字节有更形式化更全面的数学定理做支撑，更接近考虑了所有的可能性。

观点补充：

理想和字节都各自独立发现，做agent学习信号的强度（梯度大小）与模型决策时的不确定性（熵）存在一种天生的、有害的耦合关系的问题。

理想提出了AWE算法，字节提出了熵调制策略梯度(EMPG)框架，该框架由自校准梯度缩放 (Self-Calibrating Gradient Scaling)和未来清晰度奖励 (Future Clarity Bonus)两个组件构成。

AWE聚焦于监督微调(SFT)中的token，EMPG聚焦于强化学习(RL)中的step,核心都是如何处理不确定带来的梯度问题，两者都采用了自适应或动态调制的思路，利用模型自身的预测不确定性来反过来校准学习信号。都是利用模型内在的反馈信号（熵或概率）来指导训练，而不是对所有step/token一视同仁。

AWE ≈ Self-Calibrating Gradient Scaling，但不等于Future Clarity Bonus。

AWE主要解决的是梯度大小，EMPG是解决的梯度大小+信用分配。

EMPG的核心论点之一是基于token的熵和基于step的熵是不同的。

理想基座模型负责人陈伟认为AWE更多是聚焦在模型SFT/RL算法本身，重点看token-level，EMPG重点看Agent RL的过程，针对长序列的RL如何确保学习效率和问题，因此会考虑token+step level，不过我觉得token-level是关键问题，解决了token-level自然可以拓展到step level。

Future Clarity Bonus这个策略的引入更多是智能体强化过程中的Reward设计了，和他们的智能体场景相关，所以理想没有涉及。

名词解释：AWE (自适应权重估计算法)

在MindGPT 3.1的中期训练阶段被用于解决训练效率和稳定性问题。其核心思想是在训练过程中，动态调整每个Token对模型参数更新的影响力（即损失权重）。通俗地讲，它让模型先学易、后攻难：对于模型当前难以理解（预测概率极低）的高难度Token，就先降低它的权重，避免产生过大的梯度波动干扰学习；对于模型已经掌握的简单Token，也降低权重；将学习的火力集中在那些“中等难度”、最有效率的学习区间。

Self-Calibrating Gradient Scaling (自校准梯度缩放)

EMPG框架中，用于解决梯度问题的核心组件。通过一个动态缩放因子，直接干预和校准学习信号的强度。1）当模型对一个正确的动作非常自信（低熵）时，放大天然较小的梯度，加速对正确行为的学习；2）当模型对一个动作非常不自信（高熵）时，衰减天然较大的梯度，防止探索过程中的噪声信号对模型造成干扰，从而稳定训练过程。与理想的AWE算法思路高度相似，都是利用不确定性来校准学习信号。

Future Clarity Bonus (未来清晰度奖励)

EMPG框架中，用于解决信用分配问题的核心组件。是一种内部奖励机制，其目的在于引导Agent在探索过程中，主动选择那些能够导向更清晰、更确定的未来状态（即低熵状态）的路径。这个奖励并非来自外部环境的最终成败，而是模型在执行前对下一步状态不确定性的预判。它鼓励Agent做出更有目的性的探索，避免陷入混乱、高不确定性的无效尝试中，从而更高效地学习如何在长链路任务中做出正确决策。

梯度 (Gradient)

梯度，其本质是模型在训练过程中进行参数调整的方向与强度。每一次学习，模型都会计算出一个梯度值，这个值指导着模型内部数以亿计的参数应该如何微调，才能让下一次的输出结果更好。可以理解为模型学习这一行为的具体执行信号。本文所探讨的核心问题之一，就是这个学习信号的强度（梯度大小），会天然地与模型决策的不确定性挂钩：对于非常确定的决策，梯度天然就很小，导致学习效率低；对于不确定的决策，梯度又天然很大，可能导致训练不稳定。

SFT (Supervised Fine-Tuning/监督微调)

是模型在完成大规模、通识性的预训练之后，进行的一个专业精修阶段。如果说预训练是让模型读完了整个互联网，获得了广博的知识基础；那么SFT就像是针对特定任务（例如扮演理想同学、进行多轮对话），为它提供一本高质量的专业教材和标准答案（即人工标注的高质量问答对）。模型通过学习这些精确的范例，来让自己的行为和输出更符合特定场景的需求。其核心在于监督，即每一个学习样本都有一个明确的正确答案作为指引。

强化学习 (Reinforcement Learning, RL)

强化学习(RL)是一种与SFT不同的学习范式。它并非依赖一个固定的“答案库”，而是让模型（即Agent）在一个动态环境中通过试错来学习。其核心循环是：Agent做出一个动作，环境给予一个反馈（Reward/奖励或惩罚），Agent根据这个反馈调整自己的策略，目标是最大化长期累积奖励。RL的挑战在于，当任务链路很长时，最终的成败（稀疏奖励）很难让模型判断出到底是中间哪一步做得好或不好，这就是信用分配难题。

Token (词元)

Token，可理解为语言模型处理信息的最小单元。模型在进行思考和生成文本时，其运算的核心就是预测下一个最有可能的Token。它不是简单地等同于一个汉字或一个单词，而是通过算法对文本进行切分后的基本单位，可能是一个词、一个字，甚至是半个词（如英文中的-ing）。模型输出的流畅语言，就是由一个个Token精准预测、接续而成的结果。

Step (步骤)

相较于Token是模型运算的最小单位，Step则是Agent执行任务的最小行为单元。一个Step通常包含思考和行动两个部分（即ReAct范式），例如生成一句“我应该搜索一下理想L9的AEB测试成绩”，然后执行搜索工具这个动作，这两部分共同构成了一个Step。一个Step由成百上千个Token组成，是承载Agent决策意图的更高层级单位。字节的EMPG论文一个核心洞察就是，在长序列Agent任务中，分析Step层面的不确定性，比分析单个Token层面的不确定性更有意义。

Agent (智能体)

Agent，即智能体，是AI从被动的信息处理器（如传统聊天机器人）向主动的任务执行者演进的产物。它不仅仅能对话，更能基于目标，自主地思考、规划、并调用工具（如搜索引擎、计算器、车辆控制指令）来完成复杂任务。理想同学的卡片大师就是车载Agent的一种形态，它的目标是像一个助手一样，帮你完成订咖啡、设导航等一系列连贯操作，而不仅仅是回答问题。

Reward (奖励)

Reward，即奖励，是强化学习（RL）范式中的核心反馈信号。它将一个抽象的任务目标（如成功完成网页购物）量化为一个具体的数值分数，从而为模型的学习提供明确的优化方向。理想的AWE算法和字节的EMPG框架，本质上都是在稀疏的外部环境奖励之外，尝试利用模型自身的不确定性等内在信号，来创造出更丰富、更有效的虚拟奖励或学习权重，从而指导模型更高效地学习。

时间线：

25年8月21日，理想发布《理想同学MindGPT 3.1发布：极速推理的智能体语言模型》。

25年8月26日TOP2指出《理想MindGPT 3.1被大大低估了》，被低估核心3个锚点：

1.理想卡片大师这种Agent，底层能力来自MindGPT 3.1。卡片大师背后是理想的AI能力，产品化能力。卡片大师有很大用户价值潜力（大多数人不以为然）。

2.MindGPT 3.1的ASPO借鉴了DeepSeek R1 GRPO选择性学习优于全局学习的根本思想，并进行了创新优化。这再次印证着理想有充分能力快速学习AI社会最优秀的核心思想，再内化到自己能力进行原创。

3.在以上两点的前提下，除了个别号转发了理想自己的技术解读通稿，TOP2信息茧房内，没有任何号进行长文解读，看好理想人士圈几乎没有讨论度，仅微博用户肉鸡Frank进行了高度正面评价。

25年9月11日，字节跳动发布Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents。

arXiv链接：

https://arxiv.org/abs/2509.09265

25年9月15日，TOP2指出《字节跳动这篇论文对理想有帮助的》对理想的帮助之处在于，理想要做agent，大概率会参考的，一样会遇到类似学习信号的强度（梯度大小）与模型决策时的不确定性（熵）存在一种天生的、有害的耦合关系的问题。

对话：

理想基座模型负责人陈伟：

《字节跳动这篇论文对理想有帮助的》，Top2老师，我们在MindGPT 3.1提过一个AWE算法，其实就是类似的思路《理想同学MindGPT 3.1发布：极速推理的智能体语言模型》

TOP2:

之前只分析了MindGPT 3.1的ASPO借鉴了DeepSeek R1 GRPO，之前对awe的分析，MindGPT 3.1用于中期训练阶段的AWE算法，也是在降低太难的token的损失权重，减少对梯度更新的干扰。类比老师给学生说这道难题先放一放，不要掌握核心公式，后续再来攻克。传统方法遇到预测概率极低的太难的token时，会产生很大的损失权重和梯度波动，就像让一个初学者强行去接一道很复杂的题，不仅学不会，反而会因为挫败感和错误的解题思路干扰对基础知识的掌握。《理想MindGPT 3.1被大大低估了》

我初步感觉字节这篇论文想的要更深更全面一些？不知道我理解的对不对？

理想基座模型负责人陈伟：

我觉得大家解决的问题，思路还有最终取得的效果是一致的，篇幅有限，我们在技术报告里没有展开讲，分享了结论，而字节把这个问题展开成论文，并且详细解释了原因，做了更完整的实验。

TOP2:

陈伟老师，您看下我的理解对不对。

您提的视角主要两者都发现了一个根本性的训练动态问题——模型的学习信号（梯度）与其自身的不确定性状态（高/低概率或高/低熵）之间存在不理想的耦合关系。

EMPG聚焦于RL中的step，AWE聚焦于SFT中的token,但核心都是如何处理不确定带来的梯度问题，两者都采用了自适应或动态调制的思路，利用模型自身的预测不确定性来反过来校准学习信号。都是利用模型内在的反馈信号（熵或概率）来指导训练，而不是对所有step/token一视同仁。

我的视角是AWE ≈ Self-Calibrating Gradient Scaling，但不等于Future Clarity Bonus。

AWE主要解决的是梯度大小，EMPG是解决的梯度大小+信用分配。

AWE是一个高效和实用的工程解决方案，讨论的是具体工程实践里遇到的具体的问题。Self-Calibrating Gradient Scaling有更形式化更全面的数学定理做支撑，更接近考虑了所有可能的问题。

另外EMPG的核心论点之一是基于token的熵和基于step的熵是不同的。

理想基座模型负责人陈伟：

您这个分析特别好，我们的AWE主要是Self-Calibrating Gradient Scaling，不包含EMPG的Future Clarity Bonus的部分：

1. 大家思考上相同的点都是在探索模型学习特别是RL算法熵坍塌的现象如何解决的问题(策略熵在训练过程中迅速下降，导致过度自信和性能饱和主要是面向的任务存在差异)。

2. 差异点是 MindGPT的AWE更多是聚焦在模型SFT/RL算法本身，我们会重点看token-level，EMPG会重点看Agent RL的过程中，针对长序列的RL如何确保学习效率和问题，因此会考虑token+step level，不过我觉得token-level是关键问题，解决了token-level自然可以拓展到step level

3. Future Clarity Bonus这个策略的引入更多是智能体强化过程中的Reward设计了，和他们的智能体场景相关，所以我们没有涉及。

从RL近期的研发看，其实大家都在关注强化奖励函数如何设计，有依赖于规则的(RLVR)，比如代码、数学，有依赖于量规的(RAR)，比如写作、医疗等没办法做客观评估的，也有依赖于模型自学习的，比如基于熵，因为熵本身就是模型在当前学习样本的置信度，能够基于置信度调整模型的学习策略，提升学习效率和稳定性

基于熵我们其实也设计了一套先易后难的策略。

加微信，进群深度交流理想长期基本面。不是技术群，不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签