RL训练的线性轨迹：中科大团队揭示大模型训练可预测性

PaperWeekly 10月14日 22:42

中国科学技术大学的研究团队近期发现，大模型在强化学习（RL）训练过程中并非如想象般“混沌”，而是几乎沿着一条线性轨迹前进。通过对参数更新进行SVD分解，他们发现仅保留最大奇异值分量（Rank-1空间）即可保留模型绝大部分推理能力，且该空间在训练过程中呈线性变化。这意味着，早期训练的检查点可以预测训练终局，从而有望大幅缩短训练时间，实现RL训练的“可计算”和“即插即用”加速。

🎯 **RL训练的低维核心机制**：研究发现，在RL训练过程中，模型参数更新的绝大部分性能增益集中在一个低维的Rank-1子空间中。通过SVD分解，即使丢弃其他数千个分量，模型的推理能力下降也极少（<1%）。这表明RL训练可能遵循一个极其简洁的低维核心机制。

📈 **Rank-1空间的线性动态**：该Rank-1子空间在RL训练过程中呈现出高度的线性变化（R² > 0.98）。这意味着，通过早期训练阶段（如0-100 epoch）的检查点，可以线性预测训练后期（如400 epoch）达到最优推理能力时的模型参数更新，从而实现对长时训练的预测和加速。

🚀 **AlphaRL：即插即用的训练加速算法**：基于上述发现，研究团队提出了AlphaRL算法。该算法能够通过拟合早期Rank-1演化和目标准确率反演，直接生成最终的更新，实现对RL训练的显著加速，例如在某些情况下仅需40%的训练步骤即可达到近乎完整的训练效果，且无需复杂的模块或超参设计。

💡 **RL训练与SFT/蒸馏的差异**：与监督微调（SFT）和蒸馏（DIST）方法相比，RL训练的参数更新更为集中，对词嵌入空间的影响也更小。这表明RL主要通过优化高层信息流来提升推理能力，而非对低层表征进行大幅全局修改，这可能是RL模型在灾难性遗忘和泛化性方面表现优异的原因之一。

让你更懂AI的 2025-10-13 23:23 北京

从混沌到线性，RL训练或许早已可被计算

RL 训练真的像我们以为的那样“混沌”吗？中科大团队发现，大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。从复杂到可预测，这一发现让 RL 的漫长训练第一次显得“可计算”。
也许未来，我们不再需要把训练跑满，就能知道模型最终会变成什么样。

概览

虽然 LLMs 的推理能力依靠强化学习（RL）训练得到了大幅提升，但 RL 过程总是太过漫长、耗卡。想必各位学者每次感叹训练缓慢的时候都有想过：如果这一过程是可预测的、可凭借训练前期的 checkpoint 直接推出最终训练好时模型的参数就好了！

近期，中国科学技术大学研究团队发现，绝大部分主流 RL 算法（如 GRPO）的训练过程是可以被近似预测的。这源于两个 simple yet effective 的规律：

第一：在任意 RL epoch 中，将总参数更新进行 SVD 分解，仅保留奇异值最大的分量（即 Rank-1 空间）、删除其余数千个分量，模型的推理能力几乎不受影响（下降＜ 1%）。

第二：RL 训练时，Rank-1 空间几乎呈线性变化（线性率 R²＞0.98）。

这意味着，只要通过 RL 早期的 checkpoint（e.g., 0-100 epoch）对训练后期的 Rank-1 空间进行线性预测，就可以直接计算出实现最优推理能力（e.g., 第 400 epoch）时 LLM 的参数更新，从而直接避免了 60% 以上的 RL 训练。

简而言之，这项工作的意义在于：

1. 所提供的 RL 加速算法是“免费午餐”：无需任何模块、人工、复杂超参设计，即插即用；

2. 揭示了 RL 复杂的多步优化过程可能遵循着一个极其简洁的低维核心机制，这不仅为后续 RL 算法的优化、解释、加速等提供了潜在方向，更为链接 empirical scaling laws 与 reasoning emergence 提供了理论理解的可能。

论文链接：

https://arxiv.org/pdf/2510.00553

代码链接：

https://github.com/caiyuchen-ustc/Alpha-RL

模型链接：

https://huggingface.co/caiyuchen

太长不看版

为了揭示 RL 训练过程的黑盒，首先，研究团队使用 SVD 对参数更新矩阵进行分解：

仅保留最大奇异值及对应的，定义为 Rank-1 更新矩阵：

之后，将 Rank-1 更新矩阵加到基础模型上，得到 Rank-1 模型。

实验设计

模型：涵盖 7B 至 32B 大小的模型，均采用全参数训练。

算法：

RL 类：包括 PPO、RLOO、GRPO、Dr.GRPO、DAPO 等；

对比类：监督微调（SFT）、蒸馏（DIST）。

测评任务：多个数学推理任务，包括：AIME24、AIME25、MATH-500 等。

▲ 图1（a）不同方法的相对准确率对比；（b）训练过程中的 Rank-1 子空间对性能提升的影响。

2.1 Rank-1 Dominance

在所有 RL 算法中，仅对基础模型注入Rank-1 子空间更新，就能恢复 95% 以上的性能增益。例如在图 1（a）MATH-500 任务中，RLOO、GRPO、DAPO 的 Rank-1 模型相对准确率均超 98%，而 SFT 和蒸馏的模型则需要更多的秩信息才能逐步恢复其推理能力。

不同于 LoRA [2] 这类需要在训练前预定义子空间维度的设定，该发现作用于全参数 RL 训练之后，其推理能力的提升仍然几乎完全可以被 Rank-1 子空间所捕获。

随后作者在整个 RL 训练过程中检验了 Rank-1 的性质，结果见图 1（b）。训练初期，Rank-1 子空间性能略低于训练模型；但后续检查点中，其性能与训练模型相同。

团队推测其原因是：早期梯度更新较为分散，未集中到稳定子空间；随训练推进，RL 更新方向逐渐收敛并对齐到统一的推理增强模式，而 Rank-1 子空间正捕捉到该模式的主要成分。

▲ 图2（a）不同单个子空间对性能的影响；（b）按比例放大 Rank-1 子空间对推理性能的影响。

为验证不同子空间在推理中的作用，团队还测试了其它子空间的性能，发现 Rank-1 子空间显著优于其他空间，如图 2（a）。这说明 Rank-1 子空间是推理增强的“核心引擎”，其余空间虽有贡献，但不如 Rank-1 稳定、有效。

团队还通过引入缩放因子，其定义为：

通过调整来测试推理性能随 Rank-1 子空间强度变化情况。如图 2（b），结果显示当，性能快速上升，这进一步验证了 Rank-1 Dominance 的性质；再进一步增大，性能反而下降，表明过强更新可能损伤原模型结构。

▲ 图3（a）各方法更新矩阵的性质；（b）不同更新方法对词嵌入层的影响。

团队对比了 RL，监督微调和蒸馏给模型所带来的差异。首先看参数更新情况，如图 3（a），蒸馏和监督微调方法的更新范数比 RL 大 1 到 2 个数量级，意味着训练时参数变化更大；RL 则不同，更新更为集中，未缩放的 Rank-1 子空间和 Rank-1% 子空间在总更新范数里占比更高。

再看词嵌入的分布变化, 如图 3（b），蒸馏和监督微调会让词嵌入空间有明显漂移，这说明它们的更新不只是调整高层推理路径，还对低层表征空间有大幅全局修改。但 RL 几乎不改变词嵌入空间，说明其推理提升主要靠优化调整高层信息流。

最后，团队还深入探讨了 RL 中低秩结构的成因，并指出其可能是 RL 模型能够抗灾难性遗忘 [3]，并且拥有强泛化性 [4] 的根本原因，同时发现了 Rank-1 子空间在引导推理思维链中的关键作用。更多细节请参考论文正文与附录实验分析。

2.2 Rank-1 Linear Dynamics

▲ 图4（a）降维可视化结果；（b）PLS拟合结果；（c）滑动窗口注入结果。

进一步的，为了研究参数的更新规律，团队收集了 RL 训练中不同 checkpoint 的 Rank-1 子空间数据，进行 PCA 降维与可视化。如图 4（a）所示，其更新轨迹呈现出一定线性规律。

为了进一步验证这种更新规律与推理性能是否有关联，团队通过偏最小二乘法（PLS）来拟合 Rank-1 子空间与推理准确率的关系，其结果展示出高度的线性特性。甚至部分模块的值接近 1（见图 4（b）），表明 Rank-1 更新方向与推理性能高度相关，且可通过固定的线性关系有效建模。

为了探究不同模块的 Rank-1 子空间的更新轨迹的线性程度与模块本身重要性之间的关系。团队将所有模块按 Rank-1 的降序排序，利用滑动窗口（大小约为总模块数的三分之一，步长约为总模块数的七分之一）选择子集，仅注入选中模块的 Rank-1 子空间更新，其他模块保持为基础模型的数值。

如图 4（b）所示，随着窗口内最小降低，相应模型的推理性能也逐渐降低，说明有效量化了模块更新的贡献，是分析 RL 训练中模块功能的可靠指标。

AlphaRL

受上述“Rank-1 子空间”现象的启发，团队进一步提出全新加速算法 AlphaRL。AlphaRL 的核心思路如下：

1. 拟合早期 Rank-1 演化

利用 PLS 拟合早期 Rank-1 子空间与推理准确率的关系，从而获得模型中各个模块的更新轨迹。

2. 目标准确率反演

给定目标推理准确率，通过反演得到对应的 Rank-1 子空间。

3. 生成最终更新

将预测的 Rank-1 子空间加入原模型，即可实现对模型训练的加速。

▲ 表1 AlphaRL 加速结果

为了全面地评估了 AlphaRL 的有效性，团队在 3 个主流 RL 方法和 6 个推理数据集上测试了加速效果，结果如表 1。在不同方法的不同训练阶段上，AlphaRL 均实现了有效的加速。在 DAPO 中，通过使用 AlphaRL，仅需 40% 的训练步骤就可以得到近乎完整的训练效果。更多实验结果请移步我们的文章或代码。