Adam优化器更新RMS为何稳定在0.2？

原创苏剑林 2025-09-12 20:37 北京

训练一稳定，Adam就变0.2？

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

众所周知，我们很早就开始尝试将 Muon 用于大规模 LLM 的训练。

特别地，在QK-Clip巧解MaxLogit爆炸难题：让Muon在Scaleup之路上更进一步中，我们提出了 “Match Adam Update RMS” 的技巧，以便快速从 Adam 迁移到 Muon 上，这个技巧同样用到了 Kimi K2 的训练中。

该技巧是指将 Muon 的 Update RMS 统一成 0.2，这使得我们复用 Adam 的学习率和权重衰减率。

这一技巧的背后，是我们观察到 Adam 的 Update RMS 约等于 0.2，并且这一现象是稳定且可复现的。这便引发了一个有趣的问题：为什么 Adam 的 Update RMS 是 0.2？我们可以从理论上解释它吗？

问题引入

首先描述一下现象：从实验中我们观察到，大致上在 Warmup 结束、模型进入正式训练后，Adam 的 Update RMS 几乎都保持在 0.2～0.3 之间，并且不同尺寸的模型也呈现出相似的规律。

这些模型的共同点是都用 Adam 训练，参数是。由于共性很明显，所以这大概率不是巧合，因此笔者尝试分析背后的原理。

然后我们回顾一下 Adam 优化器的形式：

注意：本文所有向量的乘除法，包括平方，默认都是指 Hadamard 积/商，即 Element-wise 的乘/除。

我们要做的事情，就是证明，至少在这组设置下如此。

由于我们关心的是稳定训练后的情形，因此可以认为 t 足够大，以至于都足够接近于 0，那么就不用区分和、和。同时，我们假设足够小，也可以忽略，于是有。

对于，我们可以得到展开式

数值模拟

如果我们假设都是从同一个分布采样出来的，那么我们就可以直接用数值模拟的方法估计。事不宜迟，让我们从最简单的标准正态分布进行尝试，参考代码如下：

import numpy as npN, T = 10000, 2000beta1, beta2 = 0.9, 0.95m, v = 0, 0for i in range(T):    g = np.random.randn(N)    m = beta1 * m + (1 - beta1) * g    v = beta2 * v + (1 - beta2) * g**2u = m / v**0.5rms = (u**2).mean()**0.5print(rms)

大家猜猜结果是多少？答案大概是 0.225，居然跟实验结果惊人地相似！这反过来表明我们的模拟假设跟实际情况还是很吻合的。

可能有读者觉得不对，不是纯噪声了吗，这还能吻合？实际训练当然不可能是纯噪声，只能说单次梯度的信噪比小得可怜，因此可以用纯噪声来模拟。

读者可以自行折腾一下上述参考代码，观察 Update RMS 的影响变量，大体结论是：Update RMS 跟正相关，跟似乎关系不大，如果的分布具有非零均值（相当于增大梯度的信噪比），那么 Update RMS 也会变大。

平均近似

这一节笔者尝试从理论方面推导上述模拟结果的一个近似解析解。首先，我们从 RMS 的定义可知，要求，需要先求。笔者的想法是，用的期望作为它的近似，并进一步转化为平均场近似：

可能会有读者质疑最后一步近似的合理性。笔者的建议是，先不管这些细枝末节，就好比上一节假设一样，先算了再说，如果结果合理那么过程必然一定程度上也是合理的。

现在我们分别算分子、分母，这次我们一般地设，其中分母比较简单

至于分子，可以直接展开平方计算，也可以稍微偷懒一下：我们要求的是的二阶矩，它又等于，由于是的加权平均，所以必然有；至于方差，它具有平方可加性，因此

所以

结果分析

由于已经是平方后的向量，所以为了估计，我们只需要对各个分量求平均然后开平方。求平均这一步，我们不妨再来一次平均场近似（分子分母分别求平均），最终将得到

它有两个影响因子：一是，这可以看成是梯度的信噪比（SNR）；二是，这是Adam 的超参数之一。特别地，结果不依赖于，这跟前面的模拟结果吻合。那么这个式子究竟近似得好不好呢？我们不妨考虑最简单的特例，此时

代入，结果是，跟模拟结果和实践表现居然都很吻合！进一步地，它跟模拟结果的多个对比如下：

▲ 模拟结果与平均场近似（不同 beta1、beta2）

应该说，近似程度还是不错的，特别是之后，结果几乎跟平均场近似重合了。至于考虑 SNR 的比较结果如下：

▲ 模拟结果与平均场近似（不同 beta1、SNR）

当信噪比增大时，平均场近似的误差开始变大，不过仍旧能预测一个整体趋势。事实上，实际训练中梯度的信噪比很少机会能有接近 1 这么大，因此依然可以认为平均场是一个良好近似。

反向预测

如果我们已经接受平均场近似（7），那么可以反过来用它估算梯度的信噪比：

在实际训练中，是给定的，（也就是 Adam 的 Update RMS）也是可以直接估算的，所以上式是可计算的。当然，这个式子只对 Adam 适用，有没有更一般的估计思路呢？还真有！别忘了前面我们估计得到

那么对它的分量求和然后开平方，我们认为它会是的一个近似：

至于二阶矩是，而像 Muon 之类的优化器并没有二阶矩可用，但是我们留意到二阶矩的结果是跟无关的，所以我们不妨考虑一个最简单的特例—— ——此时。

当然这可能有点勉强，但估算嘛肯定是怎么方便怎么来。这个“近似”意味着成立，于是我们有

右端的形式跟式（7）如出一辙，所以我们可以写出

也就是用替代，这就给出了一种带动量优化器通用的估计的思路。

可能还有读者想问动量都没有咋办？这就真没有办法了，因为这里的属于跨优化轨迹的统计量，我们总得有些跨轨迹的统计信息，才有可能去估计它。

文章小结

本文主要从模拟实验和理论近似两个角度探讨了 Adam 的 Update RMS，它可以作为我们在 Muon 优化器中将 Update RMS 对齐到 0.2 的理论依据之一。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签