index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
近期,理想汽车与字节跳动在探索Agent(智能体)技术过程中,不约而同地发现了相同的问题:模型学习信号的强度(梯度大小)与决策的不确定性(熵)之间存在一种固有的、负面的耦合关系。为解决此问题,理想提出了AWE算法,字节则推出了EMPG框架。 AWE侧重于监督微调(SFT)阶段的Token级别优化,强调先易后难的动态权重调整,以提高训练效率和稳定性。EMPG则更进一步,在强化学习(RL)的Step级别引入自校准梯度缩放和未来清晰度奖励,不仅处理梯度问题,还兼顾了信用分配,尤其适用于长序列任务。两者都采用自适应或动态调制思路,利用模型内在的反馈信号指导训练,但EMPG的数学支撑更全面,且引入了与Agent场景相关的奖励设计。
💡 **核心共识:学习信号与不确定性的有害耦合**
理想与字节在独立研究Agent过程中,均发现模型在学习时,其梯度大小(学习信号强度)与模型决策时熵(不确定性)之间存在一种天生的、负面关联。当模型对决策过于自信(低熵)时,梯度天然较小,导致学习效率低下;而当模型不确定性高(高熵)时,梯度可能过大,引发训练不稳定。这是Agent学习中的一个普遍难题。
🚀 **理想AWE:聚焦Token级优化的工程化解决方案**
理想提出的AWE(自适应权重估计算法)主要应用于模型的中期训练阶段,尤其侧重于监督微调(SFT)中的Token级别。其核心思想是动态调整每个Token对模型参数更新的影响力,让模型“先易后难”,降低难度过高或过低的Token权重,集中火力于最有效率的学习区间,从而提高训练效率和稳定性,是一种务实的工程实践。
🔬 **字节EMPG:面向长序列Agent的全面框架**
字节的EMPG(熵调制策略梯度)框架则更进一步,聚焦于强化学习(RL)中的Step级别,并引入了“自校准梯度缩放”和“未来清晰度奖励”两个组件。前者与AWE思路相似,利用不确定性校准学习信号;后者则是一种内部奖励机制,引导Agent选择能导向更清晰未来状态的路径,解决了长序列任务中的信用分配问题,提供了更形式化、更全面的数学支撑。
🔄 **策略异同:模型内在反馈与场景化设计**
两者都采用了利用模型自身内在反馈信号(如熵或概率)来指导训练的自适应或动态调制思路,而非对所有Token或Step一视同仁。AWE侧重于处理梯度大小,是更偏向算法本身的优化。EMPG则在梯度大小的基础上,增加了信用分配的考量,并通过“未来清晰度奖励”引入了与Agent特定应用场景相关的设计,使其更贴合长序列任务的需求。
原创 理想TOP2 2025-09-17 12:48 四川

读者不用被里面的名词吓到,有针对性解释。核心观点与逻辑链仔细多读几遍能懂的。核心观点:同一时期(2025年8月9月)理想和字节在探索Agent过程中,发现了相同的问题,基于各自业务特点,给出了类似的解决方案与效果。其中理想更接近高效和实用的工程解决方案。字节有更形式化更全面的数学定理做支撑,更接近考虑了所有的可能性。观点补充:理想和字节都各自独立发现,做agent学习信号的强度(梯度大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系的问题。理想提出了AWE算法,字节提出了熵调制策略梯度(EMPG)框架,该框架由自校准梯度缩放 (Self-Calibrating Gradient Scaling)和未来清晰度奖励 (Future Clarity Bonus)两个组件构成。AWE聚焦于监督微调(SFT)中的token,EMPG聚焦于强化学习(RL)中的step,核心都是如何处理不确定带来的梯度问题,两者都采用了自适应或动态调制的思路,利用模型自身的预测不确定性来反过来校准学习信号。都是利用模型内在的反馈信号(熵或概率)来指导训练,而不是对所有step/token一视同仁。AWE ≈ Self-Calibrating Gradient Scaling,但不等于Future Clarity Bonus。AWE主要解决的是梯度大小,EMPG是解决的梯度大小+信用分配。EMPG的核心论点之一是基于token的熵和基于step的熵是不同的。理想基座模型负责人陈伟认为AWE更多是聚焦在模型SFT/RL算法本身,重点看token-level,EMPG重点看Agent RL的过程,针对长序列的RL如何确保学习效率和问题,因此会考虑token+step level,不过我觉得token-level是关键问题,解决了token-level自然可以拓展到step level。Future Clarity Bonus这个策略的引入更多是智能体强化过程中的Reward设计了,和他们的智能体场景相关,所以理想没有涉及。名词解释:AWE (自适应权重估计算法)在MindGPT 3.1的中期训练阶段被用于解决训练效率和稳定性问题 。其核心思想是在训练过程中,动态调整每个Token对模型参数更新的影响力(即损失权重)。通俗地讲,它让模型先学易、后攻难:对于模型当前难以理解(预测概率极低)的高难度Token,就先降低它的权重,避免产生过大的梯度波动干扰学习;对于模型已经掌握的简单Token,也降低权重;将学习的火力集中在那些“中等难度”、最有效率的学习区间 。 Self-Calibrating Gradient Scaling (自校准梯度缩放)EMPG框架中,用于解决梯度问题的核心组件 。通过一个动态缩放因子,直接干预和校准学习信号的强度。1)当模型对一个正确的动作非常自信(低熵)时,放大天然较小的梯度,加速对正确行为的学习;2)当模型对一个动作非常不自信(高熵)时,衰减天然较大的梯度,防止探索过程中的噪声信号对模型造成干扰,从而稳定训练过程 。与理想的AWE算法思路高度相似,都是利用不确定性来校准学习信号 。Future Clarity Bonus (未来清晰度奖励)EMPG框架中,用于解决信用分配问题的核心组件 。是一种内部奖励机制,其目的在于引导Agent在探索过程中,主动选择那些能够导向更清晰、更确定的未来状态(即低熵状态)的路径 。这个奖励并非来自外部环境的最终成败,而是模型在执行前对下一步状态不确定性的预判。它鼓励Agent做出更有目的性的探索,避免陷入混乱、高不确定性的无效尝试中,从而更高效地学习如何在长链路任务中做出正确决策。 梯度 (Gradient)梯度,其本质是模型在训练过程中进行参数调整的方向与强度 。每一次学习,模型都会计算出一个梯度值,这个值指导着模型内部数以亿计的参数应该如何微调,才能让下一次的输出结果更好。可以理解为模型学习这一行为的具体执行信号。本文所探讨的核心问题之一,就是这个学习信号的强度(梯度大小),会天然地与模型决策的不确定性挂钩:对于非常确定的决策,梯度天然就很小,导致学习效率低;对于不确定的决策,梯度又天然很大,可能导致训练不稳定 。SFT (Supervised Fine-Tuning/监督微调)是模型在完成大规模、通识性的预训练之后,进行的一个专业精修阶段 。如果说预训练是让模型读完了整个互联网,获得了广博的知识基础;那么SFT就像是针对特定任务(例如扮演理想同学、进行多轮对话),为它提供一本高质量的专业教材和标准答案(即人工标注的高质量问答对)。模型通过学习这些精确的范例,来让自己的行为和输出更符合特定场景的需求。其核心在于监督,即每一个学习样本都有一个明确的正确答案作为指引。强化学习 (Reinforcement Learning, RL)强化学习(RL)是一种与SFT不同的学习范式。它并非依赖一个固定的“答案库”,而是让模型(即Agent)在一个动态环境中通过试错来学习 。其核心循环是:Agent做出一个动作,环境给予一个反馈(Reward/奖励或惩罚),Agent根据这个反馈调整自己的策略,目标是最大化长期累积奖励。RL的挑战在于,当任务链路很长时,最终的成败(稀疏奖励)很难让模型判断出到底是中间哪一步做得好或不好,这就是信用分配难题 。Token (词元)Token,可理解为语言模型处理信息的最小单元 。模型在进行思考和生成文本时,其运算的核心就是预测下一个最有可能的Token。它不是简单地等同于一个汉字或一个单词,而是通过算法对文本进行切分后的基本单位,可能是一个词、一个字,甚至是半个词(如英文中的-ing)。模型输出的流畅语言,就是由一个个Token精准预测、接续而成的结果。Step (步骤)相较于Token是模型运算的最小单位,Step则是Agent执行任务的最小行为单元 。一个Step通常包含思考和行动两个部分(即ReAct范式),例如生成一句“我应该搜索一下理想L9的AEB测试成绩”,然后执行搜索工具这个动作,这两部分共同构成了一个Step。一个Step由成百上千个Token组成,是承载Agent决策意图的更高层级单位。字节的EMPG论文一个核心洞察就是,在长序列Agent任务中,分析Step层面的不确定性,比分析单个Token层面的不确定性更有意义 。Agent (智能体)Agent,即智能体,是AI从被动的信息处理器(如传统聊天机器人)向主动的任务执行者演进的产物 。它不仅仅能对话,更能基于目标,自主地思考、规划、并调用工具(如搜索引擎、计算器、车辆控制指令)来完成复杂任务 。理想同学的卡片大师就是车载Agent的一种形态,它的目标是像一个助手一样,帮你完成订咖啡、设导航等一系列连贯操作,而不仅仅是回答问题 。Reward (奖励)Reward,即奖励,是强化学习(RL)范式中的核心反馈信号 。它将一个抽象的任务目标(如成功完成网页购物)量化为一个具体的数值分数,从而为模型的学习提供明确的优化方向 。理想的AWE算法和字节的EMPG框架,本质上都是在稀疏的外部环境奖励之外,尝试利用模型自身的不确定性等内在信号,来创造出更丰富、更有效的虚拟奖励或学习权重,从而指导模型更高效地学习。时间线:25年8月21日,理想发布《理想同学MindGPT 3.1发布:极速推理的智能体语言模型》。25年8月26日TOP2指出《理想MindGPT 3.1被大大低估了》,被低估核心3个锚点:1.理想卡片大师这种Agent,底层能力来自MindGPT 3.1。卡片大师背后是理想的AI能力,产品化能力。卡片大师有很大用户价值潜力(大多数人不以为然)。2.MindGPT 3.1的ASPO借鉴了DeepSeek R1 GRPO选择性学习优于全局学习的根本思想,并进行了创新优化。这再次印证着理想有充分能力快速学习AI社会最优秀的核心思想,再内化到自己能力进行原创。3.在以上两点的前提下,除了个别号转发了理想自己的技术解读通稿,TOP2信息茧房内,没有任何号进行长文解读,看好理想人士圈几乎没有讨论度,仅微博用户肉鸡Frank进行了高度正面评价。25年9月11日,字节跳动发布Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents。arXiv链接:https://arxiv.org/abs/2509.0926525年9月15日,TOP2指出《字节跳动这篇论文对理想有帮助的》对理想的帮助之处在于,理想要做agent,大概率会参考的,一样会遇到类似学习信号的强度(梯度大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系的问题。对话:理想基座模型负责人陈伟:《字节跳动这篇论文对理想有帮助的》,Top2老师,我们在MindGPT 3.1提过一个AWE算法,其实就是类似的思路《理想同学MindGPT 3.1发布:极速推理的智能体语言模型》
TOP2:之前只分析了MindGPT 3.1的ASPO借鉴了DeepSeek R1 GRPO,之前对awe的分析,MindGPT 3.1用于中期训练阶段的AWE算法,也是在降低太难的token的损失权重,减少对梯度更新的干扰。类比老师给学生说这道难题先放一放,不要掌握核心公式,后续再来攻克。传统方法遇到预测概率极低的太难的token时,会产生很大的损失权重和梯度波动,就像让一个初学者强行去接一道很复杂的题,不仅学不会,反而会因为挫败感和错误的解题思路干扰对基础知识的掌握。《理想MindGPT 3.1被大大低估了》我初步感觉字节这篇论文想的要更深更全面一些?不知道我理解的对不对?理想基座模型负责人陈伟:我觉得大家解决的问题,思路还有最终取得的效果是一致的,篇幅有限,我们在技术报告里没有展开讲,分享了结论,而字节把这个问题展开成论文,并且详细解释了原因,做了更完整的实验。TOP2:
陈伟老师,您看下我的理解对不对。您提的视角主要两者都发现了一个根本性的训练动态问题——模型的学习信号(梯度)与其自身的不确定性状态(高/低概率或高/低熵)之间存在不理想的耦合关系。EMPG聚焦于RL中的step,AWE聚焦于SFT中的token,但核心都是如何处理不确定带来的梯度问题,两者都采用了自适应或动态调制的思路,利用模型自身的预测不确定性来反过来校准学习信号。都是利用模型内在的反馈信号(熵或概率)来指导训练,而不是对所有step/token一视同仁。我的视角是AWE ≈ Self-Calibrating Gradient Scaling,但不等于Future Clarity Bonus。AWE主要解决的是梯度大小,EMPG是解决的梯度大小+信用分配。AWE是一个高效和实用的工程解决方案,讨论的是具体工程实践里遇到的具体的问题。Self-Calibrating Gradient Scaling有更形式化更全面的数学定理做支撑,更接近考虑了所有可能的问题。另外EMPG的核心论点之一是基于token的熵和基于step的熵是不同的。理想基座模型负责人陈伟:您这个分析特别好,我们的AWE主要是Self-Calibrating Gradient Scaling,不包含EMPG的Future Clarity Bonus的部分:1. 大家思考上相同的点都是在探索模型学习特别是RL算法熵坍塌的现象如何解决的问题(策略熵在训练过程中迅速下降,导致过度自信和性能饱和主要是面向的任务存在差异)。2. 差异点是 MindGPT的AWE更多是聚焦在模型SFT/RL算法本身,我们会重点看token-level,EMPG会重点看Agent RL的过程中,针对长序列的RL如何确保学习效率和问题,因此会考虑token+step level,不过我觉得token-level是关键问题,解决了token-level自然可以拓展到step level3. Future Clarity Bonus这个策略的引入更多是智能体强化过程中的Reward设计了,和他们的智能体场景相关,所以我们没有涉及。从RL近期的研发看,其实大家都在关注强化奖励函数如何设计,有依赖于规则的(RLVR),比如代码、数学,有依赖于量规的(RAR),比如写作、医疗等没办法做客观评估的,也有依赖于模型自学习的,比如基于熵,因为熵本身就是模型在当前学习样本的置信度,能够基于置信度调整模型的学习策略,提升学习效率和稳定性
基于熵我们其实也设计了一套先易后难的策略。加微信,进群深度交流理想长期基本面。不是技术群,不是车友群。

阅读原文
跳转微信打开