PaperWeekly 09月14日
Adam优化器更新RMS为何稳定在0.2?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了Adam优化器在模型训练过程中,其更新的均方根(Update RMS)为何会稳定在0.2至0.3之间。作者通过数值模拟和理论推导,分析了Adam优化器的数学形式,并假设梯度服从标准正态分布,模拟结果惊人地接近实验观察值。理论分析进一步揭示,Update RMS主要受梯度信噪比(SNR)和Adam超参数beta2的影响,且在特定条件下,其近似值与理论推导结果高度吻合。文章还提出了一个通用的估计梯度信噪比的思路,为理解和应用Adam优化器提供了有价值的理论依据。

📊 **Adam更新RMS的稳定现象**:文章指出,在模型训练进入稳定阶段后,Adam优化器的Update RMS(更新的均方根)普遍稳定在0.2至0.3之间,这一现象在不同模型尺寸下均有体现,表明其并非偶然,而是存在内在原理。

🔢 **数值模拟验证**:通过假设梯度分量从标准正态分布中采样,并使用Adam的参数进行数值模拟,结果显示Update RMS大约为0.225,与实验观察到的0.2-0.3的范围高度吻合,这初步证实了梯度接近纯噪声的假设。

💡 **理论推导与近似**:文章从理论层面推导了Update RMS的近似解析解,发现其受梯度信噪比(SNR)和Adam超参数beta2的影响,并且在特定简化条件下(如beta1=0, beta2=0.999),可以得到一个与模拟结果和实践表现吻合的简洁公式,理论上解释了该稳定现象。

📈 **通用梯度信噪比估计**:基于理论近似,文章提出了一种通用的方法,利用Adam的Update RMS和学习率等参数来反向估算梯度的信噪比,即使对于不直接提供二阶矩信息的优化器(如Muon),也能通过类似思路进行估计,为优化器迁移提供了理论参考。

原创 苏剑林 2025-09-12 20:37 北京

训练一稳定,Adam就变0.2?

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

众所周知,我们很早就开始尝试将 Muon 用于大规模 LLM 的训练。

特别地,在QK-Clip巧解MaxLogit爆炸难题:让Muon在Scaleup之路上更进一步中,我们提出了 “Match Adam Update RMS” 的技巧,以便快速从 Adam 迁移到 Muon 上,这个技巧同样用到了 Kimi K2 的训练中。

该技巧是指将 Muon 的 Update RMS 统一成 0.2,这使得我们复用 Adam 的学习率和权重衰减率。

这一技巧的背后,是我们观察到 Adam 的 Update RMS 约等于 0.2,并且这一现象是稳定且可复现的。这便引发了一个有趣的问题:为什么 Adam 的 Update RMS 是 0.2?我们可以从理论上解释它吗?

问题引入

首先描述一下现象:从实验中我们观察到,大致上在 Warmup 结束、模型进入正式训练后,Adam 的 Update RMS 几乎都保持在 0.2~0.3 之间,并且不同尺寸的模型也呈现出相似的规律。

这些模型的共同点是都用 Adam 训练,参数是 。由于共性很明显,所以这大概率不是巧合,因此笔者尝试分析背后的原理。

然后我们回顾一下 Adam 优化器的形式:

注意:本文所有向量的乘除法,包括平方,默认都是指 Hadamard 积/商,即 Element-wise 的乘/除。

我们要做的事情,就是证明 ,至少在  这组设置下如此。

由于我们关心的是稳定训练后的情形,因此可以认为 t 足够大,以至于  都足够接近于 0,那么就不用区分  和  和 。同时,我们假设  足够小,也可以忽略,于是有 

对于 ,我们可以得到展开式

数值模拟

如果我们假设  都是从同一个分布采样出来的,那么我们就可以直接用数值模拟的方法估计 。事不宜迟,让我们从最简单的标准正态分布  进行尝试,参考代码如下:

import numpy as npN, T = 10000, 2000beta1, beta2 = 0.9, 0.95m, v = 0, 0for i in range(T):    g = np.random.randn(N)    m = beta1 * m + (1 - beta1) * g    v = beta2 * v + (1 - beta2) * g**2u = m / v**0.5rms = (u**2).mean()**0.5print(rms)

大家猜猜结果是多少?答案大概是 0.225,居然跟实验结果惊人地相似!这反过来表明我们的模拟假设跟实际情况还是很吻合的。

可能有读者觉得不对, 不是纯噪声了吗,这还能吻合?实际训练当然不可能是纯噪声,只能说单次梯度的信噪比小得可怜,因此可以用纯噪声来模拟。

读者可以自行折腾一下上述参考代码,观察 Update RMS 的影响变量,大体结论是:Update RMS 跟  正相关,跟  似乎关系不大,如果  的分布具有非零均值(相当于增大梯度的信噪比),那么 Update RMS 也会变大。

平均近似

这一节笔者尝试从理论方面推导上述模拟结果的一个近似解析解。首先,我们从 RMS 的定义可知,要求 ,需要先求 。笔者的想法是,用  的期望作为它的近似,并进一步转化为平均场近似:

可能会有读者质疑最后一步近似的合理性。笔者的建议是,先不管这些细枝末节,就好比上一节假设  一样,先算了再说,如果结果合理那么过程必然一定程度上也是合理的。

现在我们分别算分子、分母,这次我们一般地设 ,其中分母比较简单

至于分子,可以直接展开平方计算,也可以稍微偷懒一下:我们要求的是  的二阶矩 ,它又等于 ,由于  是  的加权平均,所以必然有 ;至于方差,它具有平方可加性,因此

所以

结果分析

由于  已经是平方后的向量,所以为了估计 ,我们只需要对各个分量求平均然后开平方。求平均这一步,我们不妨再来一次平均场近似(分子分母分别求平均),最终将得到

它有两个影响因子:一是 ,这可以看成是梯度的信噪比(SNR);二是 ,这 是Adam 的超参数之一。特别地,结果不依赖于 ,这跟前面的模拟结果吻合。那么这个式子究竟近似得好不好呢?我们不妨考虑最简单的特例 ,此时

代入 ,结果是 ,跟模拟结果和实践表现居然都很吻合!进一步地,它跟模拟结果的多个对比如下:

▲ 模拟结果与平均场近似(不同 beta1、beta2)

应该说,近似程度还是不错的,特别是  之后,结果几乎跟平均场近似重合了。至于考虑 SNR 的比较结果如下:

▲ 模拟结果与平均场近似(不同 beta1、SNR)

当信噪比增大时,平均场近似的误差开始变大,不过仍旧能预测一个整体趋势。事实上,实际训练中梯度的信噪比很少机会能有接近 1 这么大,因此依然可以认为平均场是一个良好近似。

反向预测

如果我们已经接受平均场近似(7),那么可以反过来用它估算梯度的信噪比:

在实际训练中, 是给定的,(也就是 Adam 的 Update RMS)也是可以直接估算的,所以上式是可计算的。当然,这个式子只对 Adam 适用,有没有更一般的估计思路呢?还真有!别忘了前面我们估计得到

那么对它的分量求和然后开平方,我们认为它会是  的一个近似:

至于二阶矩是 ,而像 Muon 之类的优化器并没有二阶矩可用,但是我们留意到二阶矩的结果是跟  无关的,所以我们不妨考虑一个最简单的特例——  ——此时 

当然这可能有点勉强,但估算嘛肯定是怎么方便怎么来。这个“近似”意味着成立 ,于是我们有

右端的形式跟式(7)如出一辙,所以我们可以写出

也就是用  替代 ,这就给出了一种带动量优化器通用的估计  的思路。

可能还有读者想问动量都没有咋办?这就真没有办法了,因为这里的  属于跨优化轨迹的统计量,我们总得有些跨轨迹的统计信息,才有可能去估计它。

文章小结

本文主要从模拟实验和理论近似两个角度探讨了 Adam 的 Update RMS,它可以作为我们在 Muon 优化器中将 Update RMS 对齐到 0.2 的理论依据之一。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Adam优化器 深度学习 神经网络训练 数值模拟 理论分析 梯度信噪比 Muon Adam Optimizer Deep Learning Neural Network Training Numerical Simulation Theoretical Analysis Gradient SNR
相关文章