index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
中国科学技术大学的研究团队近期发现,大模型在强化学习(RL)训练过程中并非如想象般“混沌”,而是几乎沿着一条线性轨迹前进。通过对参数更新进行SVD分解,他们发现仅保留最大奇异值分量(Rank-1空间)即可保留模型绝大部分推理能力,且该空间在训练过程中呈线性变化。这意味着,早期训练的检查点可以预测训练终局,从而有望大幅缩短训练时间,实现RL训练的“可计算”和“即插即用”加速。
🎯 **RL训练的低维核心机制**:研究发现,在RL训练过程中,模型参数更新的绝大部分性能增益集中在一个低维的Rank-1子空间中。通过SVD分解,即使丢弃其他数千个分量,模型的推理能力下降也极少(<1%)。这表明RL训练可能遵循一个极其简洁的低维核心机制。
📈 **Rank-1空间的线性动态**:该Rank-1子空间在RL训练过程中呈现出高度的线性变化(R² > 0.98)。这意味着,通过早期训练阶段(如0-100 epoch)的检查点,可以线性预测训练后期(如400 epoch)达到最优推理能力时的模型参数更新,从而实现对长时训练的预测和加速。
🚀 **AlphaRL:即插即用的训练加速算法**:基于上述发现,研究团队提出了AlphaRL算法。该算法能够通过拟合早期Rank-1演化和目标准确率反演,直接生成最终的更新,实现对RL训练的显著加速,例如在某些情况下仅需40%的训练步骤即可达到近乎完整的训练效果,且无需复杂的模块或超参设计。
💡 **RL训练与SFT/蒸馏的差异**:与监督微调(SFT)和蒸馏(DIST)方法相比,RL训练的参数更新更为集中,对词嵌入空间的影响也更小。这表明RL主要通过优化高层信息流来提升推理能力,而非对低层表征进行大幅全局修改,这可能是RL模型在灾难性遗忘和泛化性方面表现优异的原因之一。
让你更懂AI的 2025-10-13 23:23 北京

从混沌到线性,RL训练或许早已可被计算

RL 训练真的像我们以为的那样“混沌”吗?中科大团队发现,大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。 从复杂到可预测,这一发现让 RL 的漫长训练第一次显得“可计算”。
也许未来,我们不再需要把训练跑满,就能知道模型最终会变成什么样。

概览虽然 LLMs 的推理能力依靠强化学习(RL)训练得到了大幅提升,但 RL 过程总是太过漫长、耗卡。想必各位学者每次感叹训练缓慢的时候都有想过:如果这一过程是可预测的、可凭借训练前期的 checkpoint 直接推出最终训练好时模型的参数就好了!
近期,中国科学技术大学研究团队发现,绝大部分主流 RL 算法(如 GRPO)的训练过程是可以被近似预测的。这源于两个 simple yet effective 的规律:
第一:在任意 RL epoch 中,将总参数更新进行 SVD 分解,仅保留奇异值最大的分量(即 Rank-1 空间)、删除其余数千个分量,模型的推理能力几乎不受影响(下降 < 1%)。
第二:RL 训练时,Rank-1 空间几乎呈线性变化(线性率 R²>0.98)。
这意味着,只要通过 RL 早期的 checkpoint(e.g., 0-100 epoch)对训练后期的 Rank-1 空间进行线性预测,就可以直接计算出实现最优推理能力(e.g., 第 400 epoch)时 LLM 的参数更新,从而直接避免了 60% 以上的 RL 训练。
简而言之,这项工作的意义在于:
1. 所提供的 RL 加速算法是“免费午餐”:无需任何模块、人工、复杂超参设计,即插即用;
2. 揭示了 RL 复杂的多步优化过程可能遵循着一个极其简洁的低维核心机制,这不仅为后续 RL 算法的优化、解释、加速等提供了潜在方向,更为链接 empirical scaling laws 与 reasoning emergence 提供了理论理解的可能。

论文链接:
https://arxiv.org/pdf/2510.00553
代码链接:
https://github.com/caiyuchen-ustc/Alpha-RL
模型链接:
https://huggingface.co/caiyuchen
太长不看版为了揭示 RL 训练过程的黑盒,首先,研究团队使用 SVD 对参数更新矩阵进行分解:

仅保留最大奇异值 及对应的 ,定义为 Rank-1 更新矩阵:

之后,将 Rank-1 更新矩阵 加到基础模型上,得到 Rank-1 模型。

实验设计
模型:涵盖 7B 至 32B 大小的模型,均采用全参数训练。
算法:
测评任务:多个数学推理任务,包括:AIME24、AIME25、MATH-500 等。

▲ 图1(a)不同方法的相对准确率对比;(b)训练过程中的 Rank-1 子空间对性能提升的影响。2.1 Rank-1 Dominance
在所有 RL 算法中,仅对基础模型注入Rank-1 子空间更新,就能恢复 95% 以上的性能增益。例如在图 1(a)MATH-500 任务中,RLOO、GRPO、DAPO 的 Rank-1 模型相对准确率均超 98%,而 SFT 和蒸馏的模型则需要更多的秩信息才能逐步恢复其推理能力。
不同于 LoRA [2] 这类需要在训练前预定义子空间维度的设定,该发现作用于全参数 RL 训练之后,其推理能力的提升仍然几乎完全可以被 Rank-1 子空间所捕获。
随后作者在整个 RL 训练过程中检验了 Rank-1 的性质,结果见图 1(b)。训练初期,Rank-1 子空间性能略低于训练模型;但后续检查点中,其性能与训练模型相同。
团队推测其原因是:早期梯度更新较为分散,未集中到稳定子空间;随训练推进,RL 更新方向逐渐收敛并对齐到统一的推理增强模式,而 Rank-1 子空间正捕捉到该模式的主要成分。

▲ 图2(a)不同单个子空间对性能的影响;(b)按比例放大 Rank-1 子空间对推理性能的影响。
为验证不同子空间在推理中的作用,团队还测试了其它子空间的性能,发现 Rank-1 子空间显著优于其他空间,如图 2(a)。这说明 Rank-1 子空间是推理增强的“核心引擎”,其余空间虽有贡献,但不如 Rank-1 稳定、有效。
团队还通过引入缩放因子 ,其定义为:

通过调整 来测试推理性能随 Rank-1 子空间强度变化情况。如图 2(b),结果显示当 ,性能快速上升,这进一步验证了 Rank-1 Dominance 的性质;再进一步增大 ,性能反而下降,表明过强更新可能损伤原模型结构。

▲ 图3(a)各方法更新矩阵的性质;(b)不同更新方法对词嵌入层的影响。团队对比了 RL,监督微调和蒸馏给模型所带来的差异。首先看参数更新情况,如图 3(a),蒸馏和监督微调方法的更新范数比 RL 大 1 到 2 个数量级,意味着训练时参数变化更大;RL 则不同,更新更为集中,未缩放的 Rank-1 子空间和 Rank-1% 子空间在总更新范数里占比更高。
再看词嵌入的分布变化, 如图 3(b),蒸馏和监督微调会让词嵌入空间有明显漂移,这说明它们的更新不只是调整高层推理路径,还对低层表征空间有大幅全局修改。但 RL 几乎不改变词嵌入空间,说明其推理提升主要靠优化调整高层信息流。
最后,团队还深入探讨了 RL 中低秩结构的成因,并指出其可能是 RL 模型能够抗灾难性遗忘 [3],并且拥有强泛化性 [4] 的根本原因,同时发现了 Rank-1 子空间在引导推理思维链中的关键作用。更多细节请参考论文正文与附录实验分析。
2.2 Rank-1 Linear Dynamics

▲ 图4(a)降维可视化结果;(b)PLS拟合结果;(c)滑动窗口注入结果。进一步的,为了研究参数的更新规律,团队收集了 RL 训练中不同 checkpoint 的 Rank-1 子空间数据,进行 PCA 降维与可视化。如图 4(a)所示,其更新轨迹呈现出一定线性规律。
为了进一步验证这种更新规律与推理性能是否有关联,团队通过偏最小二乘法(PLS)来拟合 Rank-1 子空间与推理准确率的关系,其结果展示出高度的线性特性。甚至部分模块的 值接近 1(见图 4(b)),表明 Rank-1 更新方向与推理性能高度相关,且可通过固定的线性关系有效建模。
为了探究不同模块的 Rank-1 子空间的更新轨迹的线性程度与模块本身重要性之间的关系。团队将所有模块按 Rank-1 的 降序排序,利用滑动窗口(大小约为总模块数的三分之一,步长约为总模块数的七分之一)选择子集,仅注入选中模块的 Rank-1 子空间更新,其他模块保持为基础模型的数值。
如图 4(b)所示,随着窗口内最小 降低,相应模型的推理性能也逐渐降低,说明 有效量化了模块更新的贡献,是分析 RL 训练中模块功能的可靠指标。

AlphaRL
受上述“Rank-1 子空间”现象的启发,团队进一步提出全新加速算法 AlphaRL。AlphaRL 的核心思路如下:
1. 拟合早期 Rank-1 演化
利用 PLS 拟合早期 Rank-1 子空间与推理准确率的关系,从而获得模型中各个模块的更新轨迹。
2. 目标准确率反演
给定目标推理准确率,通过反演得到对应的 Rank-1 子空间。
3. 生成最终更新
将预测的 Rank-1 子空间加入原模型,即可实现对模型训练的加速。

▲ 表1 AlphaRL 加速结果为了全面地评估了 AlphaRL 的有效性,团队在 3 个主流 RL 方法和 6 个推理数据集上测试了加速效果,结果如表 1。在不同方法的不同训练阶段上,AlphaRL 均实现了有效的加速。在 DAPO 中,通过使用 AlphaRL,仅需 40% 的训练步骤就可以得到近乎完整的训练效果。更多实验结果请移步我们的文章或代码。
[1] On Predictability of Reinforcement Learning Dynamics for LLMs
[2] LORA: LOW-RANK ADAPTATION OF LARGE LAN
GUAGE MODELS
[3] Why online reinforcement learning forgets less
[4] Improving generalization in intent detection: Grpo with reward-based curriculum sampling



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·

阅读原文
跳转微信打开