原创 苏剑林 2025-09-12 20:37 北京
训练一稳定,Adam就变0.2?

📈 Update RMS 在 Adam 优化器中稳定在 0.2 左右,这一现象并非偶然,而是由梯度信噪比、超参数 beta1 和 beta2 共同决定的。
🔍 通过数值模拟,我们发现 Update RMS 与梯度信噪比正相关,与 beta2 似乎关系不大,而 beta1 的增大会导致 Update RMS 的增大。
🧮 理论分析表明,Update RMS 可以用梯度的信噪比和 beta1 的函数来近似表示,这一结果与模拟结果吻合。
🔄 可以反过来用 Update RMS 估算梯度的信噪比,这一方法对动量优化器也适用。
🌐 本文提出的估计方法为理解和改进优化器提供了新的思路。
原创 苏剑林 2025-09-12 20:37 北京
训练一稳定,Adam就变0.2?
import numpy as npN, T = 10000, 2000beta1, beta2 = 0.9, 0.95m, v = 0, 0for i in range(T): g = np.random.randn(N) m = beta1 * m + (1 - beta1) * g v = beta2 * v + (1 - beta2) * g**2u = m / v**0.5rms = (u**2).mean()**0.5print(rms)大家猜猜结果是多少?答案大概是 0.225,居然跟实验结果惊人地相似!这反过来表明我们的模拟假设跟实际情况还是很吻合的。可能有读者觉得不对, 不是纯噪声了吗,这还能吻合?实际训练当然不可能是纯噪声,只能说单次梯度的信噪比小得可怜,因此可以用纯噪声来模拟。读者可以自行折腾一下上述参考代码,观察 Update RMS 的影响变量,大体结论是:Update RMS 跟 正相关,跟 似乎关系不大,如果 的分布具有非零均值(相当于增大梯度的信噪比),那么 Update RMS 也会变大。平均近似这一节笔者尝试从理论方面推导上述模拟结果的一个近似解析解。首先,我们从 RMS 的定义可知,要求 ,需要先求 。笔者的想法是,用 的期望作为它的近似,并进一步转化为平均场近似:可能会有读者质疑最后一步近似的合理性。笔者的建议是,先不管这些细枝末节,就好比上一节假设 一样,先算了再说,如果结果合理那么过程必然一定程度上也是合理的。现在我们分别算分子、分母,这次我们一般地设 ,其中分母比较简单至于分子,可以直接展开平方计算,也可以稍微偷懒一下:我们要求的是 的二阶矩 ,它又等于 ,由于 是 的加权平均,所以必然有 ;至于方差,它具有平方可加性,因此所以结果分析由于 已经是平方后的向量,所以为了估计 ,我们只需要对各个分量求平均然后开平方。求平均这一步,我们不妨再来一次平均场近似(分子分母分别求平均),最终将得到它有两个影响因子:一是 ,这可以看成是梯度的信噪比(SNR);二是 ,这 是Adam 的超参数之一。特别地,结果不依赖于 ,这跟前面的模拟结果吻合。那么这个式子究竟近似得好不好呢?我们不妨考虑最简单的特例 ,此时代入 ,结果是 ,跟模拟结果和实践表现居然都很吻合!进一步地,它跟模拟结果的多个对比如下:▲ 模拟结果与平均场近似(不同 beta1、beta2)应该说,近似程度还是不错的,特别是 之后,结果几乎跟平均场近似重合了。至于考虑 SNR 的比较结果如下:▲ 模拟结果与平均场近似(不同 beta1、SNR)当信噪比增大时,平均场近似的误差开始变大,不过仍旧能预测一个整体趋势。事实上,实际训练中梯度的信噪比很少机会能有接近 1 这么大,因此依然可以认为平均场是一个良好近似。反向预测如果我们已经接受平均场近似(7),那么可以反过来用它估算梯度的信噪比:在实际训练中, 是给定的,(也就是 Adam 的 Update RMS)也是可以直接估算的,所以上式是可计算的。当然,这个式子只对 Adam 适用,有没有更一般的估计思路呢?还真有!别忘了前面我们估计得到那么对它的分量求和然后开平方,我们认为它会是 的一个近似:至于二阶矩是 ,而像 Muon 之类的优化器并没有二阶矩可用,但是我们留意到二阶矩的结果是跟 无关的,所以我们不妨考虑一个最简单的特例—— ——此时 。当然这可能有点勉强,但估算嘛肯定是怎么方便怎么来。这个“近似”意味着成立 ,于是我们有右端的形式跟式(7)如出一辙,所以我们可以写出也就是用 替代 ,这就给出了一种带动量优化器通用的估计 的思路。可能还有读者想问动量都没有咋办?这就真没有办法了,因为这里的 属于跨优化轨迹的统计量,我们总得有些跨轨迹的统计信息,才有可能去估计它。文章小结本文主要从模拟实验和理论近似两个角度探讨了 Adam 的 Update RMS,它可以作为我们在 Muon 优化器中将 Update RMS 对齐到 0.2 的理论依据之一。更多阅读#投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑