index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
中国科学技术大学团队的研究揭示,大型模型的强化学习(RL)训练过程并非如想象般混沌,而是可能沿着一条近似线性的轨迹前进。通过对参数更新进行奇异值分解(SVD),发现仅保留最大奇异值分量(Rank-1空间)对模型推理能力影响甚微,且该Rank-1空间在训练过程中呈高度线性变化。这意味着,利用早期训练的检查点,可以预测训练后期的模型参数,从而可能跳过大量训练步骤,显著加速RL训练过程。这项发现为RL算法的优化、解释和加速提供了新的理论基础,并可能连接经验缩放定律与推理涌现。
📈 **Rank-1子空间的主导作用**:研究发现,在强化学习训练过程中,参数更新矩阵的奇异值分解(SVD)显示,仅保留最大奇异值对应的分量(即Rank-1空间)即可捕捉模型推理能力提升的95%以上。这意味着模型的关键性能提升主要集中在一个低维的核心机制中,其余高维信息对推理能力的影响相对较小。
🌟 **训练过程的线性动态**:在RL训练的整个过程中,Rank-1子空间的变化呈现出高度的线性特征(R² > 0.98)。通过早期训练检查点(如0-100 epoch)的数据,可以线性预测训练后期Rank-1子空间的状态,从而直接计算出最优推理能力对应的模型参数更新,理论上可避免60%以上的RL训练。
🚀 **AlphaRL加速算法的提出**:基于Rank-1子空间的主导作用和线性动态规律,研究团队提出了AlphaRL加速算法。该算法通过拟合早期Rank-1子空间的演化,反演出目标准确率对应的Rank-1子空间,并生成最终模型更新,从而在不牺牲模型性能的前提下,显著缩短训练时间,例如在某些情况下仅需40%的训练步骤。
💡 **RL训练的简洁机制**:这项工作不仅提供了即插即用的RL加速方法,更重要的是揭示了RL复杂多步优化过程背后可能遵循着一个极其简洁的低维核心机制。这为理解RL算法的优化、解释性研究以及连接经验缩放定律与推理涌现提供了新的理论视角。
让你更懂AI的 2025-10-13 23:23 北京

从混沌到线性,RL训练或许早已可被计算

RL 训练真的像我们以为的那样“混沌”吗?中科大团队发现,大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。 从复杂到可预测,这一发现让 RL 的漫长训练第一次显得“可计算”。
也许未来,我们不再需要把训练跑满,就能知道模型最终会变成什么样。
概览虽然 LLMs 的推理能力依靠强化学习(RL)训练得到了大幅提升,但 RL 过程总是太过漫长、耗卡。想必各位学者每次感叹训练缓慢的时候都有想过:如果这一过程是可预测的、可凭借训练前期的 checkpoint 直接推出最终训练好时模型的参数就好了!近期,中国科学技术大学研究团队发现,绝大部分主流 RL 算法(如 GRPO)的训练过程是可以被近似预测的。这源于两个 simple yet effective 的规律:
第一:在任意 RL epoch 中,将总参数更新进行 SVD 分解,仅保留奇异值最大的分量(即 Rank-1 空间)、删除其余数千个分量,模型的推理能力几乎不受影响(下降 < 1%)。第二:RL 训练时,Rank-1 空间几乎呈线性变化(线性率 R²>0.98)。这意味着,只要通过 RL 早期的 checkpoint(e.g., 0-100 epoch)对训练后期的 Rank-1 空间进行线性预测,就可以直接计算出实现最优推理能力(e.g., 第 400 epoch)时 LLM 的参数更新,从而直接避免了 60% 以上的 RL 训练。简而言之,这项工作的意义在于:1. 所提供的 RL 加速算法是“免费午餐”:无需任何模块、人工、复杂超参设计,即插即用;2. 揭示了 RL 复杂的多步优化过程可能遵循着一个极其简洁的低维核心机制,这不仅为后续 RL 算法的优化、解释、加速等提供了潜在方向,更为链接 empirical scaling laws 与 reasoning emergence 提供了理论理解的可能。论文链接:https://arxiv.org/pdf/2510.00553代码链接:https://github.com/caiyuchen-ustc/Alpha-RL模型链接:https://huggingface.co/caiyuchen太长不看版为了揭示 RL 训练过程的黑盒,首先,研究团队使用 SVD 对参数更新矩阵进行分解:仅保留最大奇异值 及对应的 ,定义为 Rank-1 更新矩阵:之后,将 Rank-1 更新矩阵 加到基础模型上,得到 Rank-1 模型。 实验设计模型:涵盖 7B 至 32B 大小的模型,均采用全参数训练。算法:RL 类:包括 PPO、RLOO、GRPO、Dr.GRPO、DAPO 等;对比类:监督微调(SFT)、蒸馏(DIST)。测评任务:多个数学推理任务,包括:AIME24、AIME25、MATH-500 等。▲ 图1(a)不同方法的相对准确率对比;(b)训练过程中的 Rank-1 子空间对性能提升的影响。2.1 Rank-1 Dominance在所有 RL 算法中,仅对基础模型注入Rank-1 子空间更新,就能恢复 95% 以上的性能增益。例如在图 1(a)MATH-500 任务中,RLOO、GRPO、DAPO 的 Rank-1 模型相对准确率均超 98%,而 SFT 和蒸馏的模型则需要更多的秩信息才能逐步恢复其推理能力。不同于 LoRA [2] 这类需要在训练前预定义子空间维度的设定,该发现作用于全参数 RL 训练之后,其推理能力的提升仍然几乎完全可以被 Rank-1 子空间所捕获。
随后作者在整个 RL 训练过程中检验了 Rank-1 的性质,结果见图 1(b)。训练初期,Rank-1 子空间性能略低于训练模型;但后续检查点中,其性能与训练模型相同。团队推测其原因是:早期梯度更新较为分散,未集中到稳定子空间;随训练推进,RL 更新方向逐渐收敛并对齐到统一的推理增强模式,而 Rank-1 子空间正捕捉到该模式的主要成分。 ▲ 图2(a)不同单个子空间对性能的影响;(b)按比例放大 Rank-1 子空间对推理性能的影响。为验证不同子空间在推理中的作用,团队还测试了其它子空间的性能,发现 Rank-1 子空间显著优于其他空间,如图 2(a)。这说明 Rank-1 子空间是推理增强的“核心引擎”,其余空间虽有贡献,但不如 Rank-1 稳定、有效。团队还通过引入缩放因子 ,其定义为:通过调整 来测试推理性能随 Rank-1 子空间强度变化情况。如图 2(b),结果显示当 ,性能快速上升,这进一步验证了 Rank-1 Dominance 的性质;再进一步增大 ,性能反而下降,表明过强更新可能损伤原模型结构。 ▲ 图3(a)各方法更新矩阵的性质;(b)不同更新方法对词嵌入层的影响。团队对比了 RL,监督微调和蒸馏给模型所带来的差异。首先看参数更新情况,如图 3(a),蒸馏和监督微调方法的更新范数比 RL 大 1 到 2 个数量级,意味着训练时参数变化更大;RL 则不同,更新更为集中,未缩放的 Rank-1 子空间和 Rank-1% 子空间在总更新范数里占比更高。再看词嵌入的分布变化, 如图 3(b),蒸馏和监督微调会让词嵌入空间有明显漂移,这说明它们的更新不只是调整高层推理路径,还对低层表征空间有大幅全局修改。但 RL 几乎不改变词嵌入空间,说明其推理提升主要靠优化调整高层信息流。最后,团队还深入探讨了 RL 中低秩结构的成因,并指出其可能是 RL 模型能够抗灾难性遗忘 [3],并且拥有强泛化性 [4] 的根本原因,同时发现了 Rank-1 子空间在引导推理思维链中的关键作用。更多细节请参考论文正文与附录实验分析。2.2 Rank-1 Linear Dynamics▲ 图4(a)降维可视化结果;(b)PLS拟合结果;(c)滑动窗口注入结果。进一步的,为了研究参数的更新规律,团队收集了 RL 训练中不同 checkpoint 的 Rank-1 子空间数据,进行 PCA 降维与可视化。如图 4(a)所示,其更新轨迹呈现出一定线性规律。为了进一步验证这种更新规律与推理性能是否有关联,团队通过偏最小二乘法(PLS)来拟合 Rank-1 子空间与推理准确率的关系,其结果展示出高度的线性特性。甚至部分模块的 值接近 1(见图 4(b)),表明 Rank-1 更新方向与推理性能高度相关,且可通过固定的线性关系有效建模。为了探究不同模块的 Rank-1 子空间的更新轨迹的线性程度与模块本身重要性之间的关系。团队将所有模块按 Rank-1 的 降序排序,利用滑动窗口(大小约为总模块数的三分之一,步长约为总模块数的七分之一)选择子集,仅注入选中模块的 Rank-1 子空间更新,其他模块保持为基础模型的数值。如图 4(b)所示,随着窗口内最小 降低,相应模型的推理性能也逐渐降低,说明 有效量化了模块更新的贡献,是分析 RL 训练中模块功能的可靠指标。AlphaRL受上述“Rank-1 子空间”现象的启发,团队进一步提出全新加速算法 AlphaRL。AlphaRL 的核心思路如下:1. 拟合早期 Rank-1 演化利用 PLS 拟合早期 Rank-1 子空间与推理准确率的关系,从而获得模型中各个模块的更新轨迹。2. 目标准确率反演给定目标推理准确率,通过反演得到对应的 Rank-1 子空间。3. 生成最终更新将预测的 Rank-1 子空间加入原模型,即可实现对模型训练的加速。▲ 表1 AlphaRL 加速结果为了全面地评估了 AlphaRL 的有效性,团队在 3 个主流 RL 方法和 6 个推理数据集上测试了加速效果,结果如表 1。在不同方法的不同训练阶段上,AlphaRL 均实现了有效的加速。在 DAPO 中,通过使用 AlphaRL,仅需 40% 的训练步骤就可以得到近乎完整的训练效果。更多实验结果请移步我们的文章或代码。参考文献[1] On Predictability of Reinforcement Learning Dynamics for LLMs[2] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS[3] Why online reinforcement learning forgets less[4] Improving generalization in intent detection: Grpo with reward-based curriculum sampling更多阅读#投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·阅读原文
跳转微信打开