RL训练新发现：模型参数更新或可预测

PaperWeekly 10月15日 00:36

RL训练新发现：模型参数更新或可预测

中国科学技术大学团队的研究揭示，大型模型的强化学习（RL）训练过程并非如想象般混沌，而是可能沿着一条近似线性的轨迹前进。通过对参数更新进行奇异值分解（SVD），发现仅保留最大奇异值分量（Rank-1空间）对模型推理能力影响甚微，且该Rank-1空间在训练过程中呈高度线性变化。这意味着，利用早期训练的检查点，可以预测训练后期的模型参数，从而可能跳过大量训练步骤，显著加速RL训练过程。这项发现为RL算法的优化、解释和加速提供了新的理论基础，并可能连接经验缩放定律与推理涌现。

📈 **Rank-1子空间的主导作用**：研究发现，在强化学习训练过程中，参数更新矩阵的奇异值分解（SVD）显示，仅保留最大奇异值对应的分量（即Rank-1空间）即可捕捉模型推理能力提升的95%以上。这意味着模型的关键性能提升主要集中在一个低维的核心机制中，其余高维信息对推理能力的影响相对较小。

🌟 **训练过程的线性动态**：在RL训练的整个过程中，Rank-1子空间的变化呈现出高度的线性特征（R² > 0.98）。通过早期训练检查点（如0-100 epoch）的数据，可以线性预测训练后期Rank-1子空间的状态，从而直接计算出最优推理能力对应的模型参数更新，理论上可避免60%以上的RL训练。

🚀 **AlphaRL加速算法的提出**：基于Rank-1子空间的主导作用和线性动态规律，研究团队提出了AlphaRL加速算法。该算法通过拟合早期Rank-1子空间的演化，反演出目标准确率对应的Rank-1子空间，并生成最终模型更新，从而在不牺牲模型性能的前提下，显著缩短训练时间，例如在某些情况下仅需40%的训练步骤。

💡 **RL训练的简洁机制**：这项工作不仅提供了即插即用的RL加速方法，更重要的是揭示了RL复杂多步优化过程背后可能遵循着一个极其简洁的低维核心机制。这为理解RL算法的优化、解释性研究以及连接经验缩放定律与推理涌现提供了新的理论视角。

让你更懂AI的 2025-10-13 23:23 北京

从混沌到线性，RL训练或许早已可被计算

RL 训练真的像我们以为的那样“混沌”吗？中科大团队发现，大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。从复杂到可预测，这一发现让 RL 的漫长训练第一次显得“可计算”。
也许未来，我们不再需要把训练跑满，就能知道模型最终会变成什么样。

概览

虽然 LLMs 的推理能力依靠强化学习（RL）训练得到了大幅提升，但 RL 过程总是太过漫长、耗卡。想必各位学者每次感叹训练缓慢的时候都有想过：如果这一过程是可预测的、可凭借训练前期的 checkpoint 直接推出最终训练好时模型的参数就好了！

近期，中国科学技术大学研究团队发现，绝大部分主流 RL 算法（如 GRPO）的训练过程是可以被近似预测的。这源于两个 simple yet effective 的规律：

第一：在任意 RL epoch 中，将总参数更新进行 SVD 分解，仅保留奇异值最大的分量（即 Rank-1 空间）、删除其余数千个分量，模型的推理能力几乎不受影响（下降＜ 1%）。

第二：RL 训练时，Rank-1 空间几乎呈线性变化（线性率 R²＞0.98）。

这意味着，只要通过 RL 早期的 checkpoint（e.g., 0-100 epoch）对训练后期的 Rank-1 空间进行线性预测，就可以直接计算出实现最优推理能力（e.g., 第 400 epoch）时 LLM 的参数更新，从而直接避免了 60% 以上的 RL 训练。

简而言之，这项工作的意义在于：

1. 所提供的 RL 加速算法是“免费午餐”：无需任何模块、人工、复杂超参设计，即插即用；

2. 揭示了 RL 复杂的多步优化过程可能遵循着一个极其简洁的低维核心机制，这不仅为后续 RL 算法的优化、解释、加速等提供了潜在方向，更为链接 empirical scaling laws 与 reasoning emergence 提供了理论理解的可能。

论文链接：

https://arxiv.org/pdf/2510.00553

代码链接：

https://github.com/caiyuchen-ustc/Alpha-RL

模型链接：

https://huggingface.co/caiyuchen

太长不看版

为了揭示 RL 训练过程的黑盒，首先，研究团队使用 SVD 对参数更新矩阵进行分解：

仅保留最大奇异值及对应的，定义为 Rank-1 更新矩阵：

之后，将 Rank-1 更新矩阵加到基础模型上，得到 Rank-1 模型。

实验设计

模型：涵盖 7B 至 32B 大小的模型，均采用全参数训练。

算法：

RL 类：包括 PPO、RLOO、GRPO、Dr.GRPO、DAPO 等；

对比类：监督微调（SFT）、蒸馏（DIST）。

测评任务：多个数学推理任务，包括：AIME24、AIME25、MATH-500 等。

▲ 图1（a）不同方法的相对准确率对比；（b）训练过程中的 Rank-1 子空间对性能提升的影响。

2.1 Rank-1 Dominance

在所有 RL 算法中，仅对基础模型注入Rank-1 子空间更新，就能恢复 95% 以上的性能增益。例如在图 1（a）MATH-500 任务中，RLOO、GRPO、DAPO 的 Rank-1 模型相对准确率均超 98%，而 SFT 和蒸馏的模型则需要更多的秩信息才能逐步恢复其推理能力。

不同于 LoRA [2] 这类需要在训练前预定义子空间维度的设定，该发现作用于全参数 RL 训练之后，其推理能力的提升仍然几乎完全可以被 Rank-1 子空间所捕获。

随后作者在整个 RL 训练过程中检验了 Rank-1 的性质，结果见图 1（b）。训练初期，Rank-1 子空间性能略低于训练模型；但后续检查点中，其性能与训练模型相同。

团队推测其原因是：早期梯度更新较为分散，未集中到稳定子空间；随训练推进，RL 更新方向逐渐收敛并对齐到统一的推理增强模式，而 Rank-1 子空间正捕捉到该模式的主要成分。

▲ 图2（a）不同单个子空间对性能的影响；（b）按比例放大 Rank-1 子空间对推理性能的影响。

为验证不同子空间在推理中的作用，团队还测试了其它子空间的性能，发现 Rank-1 子空间显著优于其他空间，如图 2（a）。这说明 Rank-1 子空间是推理增强的“核心引擎”，其余空间虽有贡献，但不如 Rank-1 稳定、有效。

团队还通过引入缩放因子，其定义为：

通过调整来测试推理性能随 Rank-1 子空间强度变化情况。如图 2（b），结果显示当，性能快速上升，这进一步验证了 Rank-1 Dominance 的性质；再进一步增大，性能反而下降，表明过强更新可能损伤原模型结构。

▲ 图3（a）各方法更新矩阵的性质；（b）不同更新方法对词嵌入层的影响。

团队对比了 RL，监督微调和蒸馏给模型所带来的差异。首先看参数更新情况，如图 3（a），蒸馏和监督微调方法的更新范数比 RL 大 1 到 2 个数量级，意味着训练时参数变化更大；RL 则不同，更新更为集中，未缩放的 Rank-1 子空间和 Rank-1% 子空间在总更新范数里占比更高。

再看词嵌入的分布变化, 如图 3（b），蒸馏和监督微调会让词嵌入空间有明显漂移，这说明它们的更新不只是调整高层推理路径，还对低层表征空间有大幅全局修改。但 RL 几乎不改变词嵌入空间，说明其推理提升主要靠优化调整高层信息流。

最后，团队还深入探讨了 RL 中低秩结构的成因，并指出其可能是 RL 模型能够抗灾难性遗忘 [3]，并且拥有强泛化性 [4] 的根本原因，同时发现了 Rank-1 子空间在引导推理思维链中的关键作用。更多细节请参考论文正文与附录实验分析。

2.2 Rank-1 Linear Dynamics

▲ 图4（a）降维可视化结果；（b）PLS拟合结果；（c）滑动窗口注入结果。

进一步的，为了研究参数的更新规律，团队收集了 RL 训练中不同 checkpoint 的 Rank-1 子空间数据，进行 PCA 降维与可视化。如图 4（a）所示，其更新轨迹呈现出一定线性规律。

为了进一步验证这种更新规律与推理性能是否有关联，团队通过偏最小二乘法（PLS）来拟合 Rank-1 子空间与推理准确率的关系，其结果展示出高度的线性特性。甚至部分模块的值接近 1（见图 4（b）），表明 Rank-1 更新方向与推理性能高度相关，且可通过固定的线性关系有效建模。

为了探究不同模块的 Rank-1 子空间的更新轨迹的线性程度与模块本身重要性之间的关系。团队将所有模块按 Rank-1 的降序排序，利用滑动窗口（大小约为总模块数的三分之一，步长约为总模块数的七分之一）选择子集，仅注入选中模块的 Rank-1 子空间更新，其他模块保持为基础模型的数值。

如图 4（b）所示，随着窗口内最小降低，相应模型的推理性能也逐渐降低，说明有效量化了模块更新的贡献，是分析 RL 训练中模块功能的可靠指标。

AlphaRL

受上述“Rank-1 子空间”现象的启发，团队进一步提出全新加速算法 AlphaRL。AlphaRL 的核心思路如下：

1. 拟合早期 Rank-1 演化

利用 PLS 拟合早期 Rank-1 子空间与推理准确率的关系，从而获得模型中各个模块的更新轨迹。

2. 目标准确率反演

给定目标推理准确率，通过反演得到对应的 Rank-1 子空间。

3. 生成最终更新

将预测的 Rank-1 子空间加入原模型，即可实现对模型训练的加速。

▲ 表1 AlphaRL 加速结果

为了全面地评估了 AlphaRL 的有效性，团队在 3 个主流 RL 方法和 6 个推理数据集上测试了加速效果，结果如表 1。在不同方法的不同训练阶段上，AlphaRL 均实现了有效的加速。在 DAPO 中，通过使用 AlphaRL，仅需 40% 的训练步骤就可以得到近乎完整的训练效果。更多实验结果请移步我们的文章或代码。

参考文献

[1] On Predictability of Reinforcement Learning Dynamics for LLMs

[2] LORA: LOW-RANK ADAPTATION OF LARGE LAN

GUAGE MODELS

[3] Why online reinforcement learning forgets less

[4] Improving generalization in intent detection: Grpo with reward-based curriculum sampling

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签