Meta研究：强化学习性能预测，曲线比算力更重要

PaperWeekly 13小时前

Meta近期一项耗资巨大的研究（约420万美元，40万GPU·小时）旨在验证一个大胆猜想：强化学习（RL）的结果在训练中途即可被预测。该研究的核心是验证一个Sigmoid方程，揭示了在大模型时代，RL的可扩展性并非玄学，而是遵循一条可外推的曲线。研究者提出了ScaleRL框架，通过分析“计算量→表现”的曲线，并量化“上限、效率、中点”三个参数，来评估是否值得增加算力，从而改变了传统的评估范式。这一方法使得强化学习的优化过程变得可规划和可预测，为大模型训练提供了新的工程化思路。

📈 **强化学习的可预测性与规模律**：Meta的研究表明，大模型在强化学习阶段的性能增长并非随机，而是遵循一条可预测的Sigmoid增长曲线。通过分析训练过程中的“计算量-表现”关系，研究者发现可以在训练早期就准确预测后续的性能表现，这颠覆了以往RL结果不可预测的认知。

💡 **ScaleRL框架的提出**：Meta构建了ScaleRL系统化框架，整合了PipelineRL异步流式架构、CISPO损失函数（结合截断重要性采样和REINFORCE）、FP32精度修复等关键组件。这些组件共同作用，显著提升了训练的稳定性、鲁棒性和可扩展性，将RL优化从经验驱动转变为工程化体系。

💰 **“天价”实验验证的价值**：尽管实验耗费巨大，但Meta通过40万GPU·小时的训练，验证了在不同模型规模、上下文长度和batch大小下，Sigmoid曲线外推的有效性。这证明了理解和利用性能曲线，比单纯追求算力堆叠更能指导研究方向，实现了对强化学习过程的可度量和可预测。

🎯 **评估范式的转变**：研究强调，在比较RL方案时，不应仅看下游测试点，而应在分布内验证集上拟合“计算量→表现”曲线，并用上限、效率、中点三个参数来判断。这一转变有助于研究者在早期就判断投入算力的回报率，从而更有效地规划和分配计算资源。

原创让你更懂AI的 2025-10-17 17:14 北京

理解曲线，比追求算力更重要

Meta 花了 420 万美元、40 万 GPU·小时，只为验证一个大胆猜想：强化学习的结果，其实在训练一半时就能被算出来。

在大模型时代，烧钱的研究已经见怪不怪；但当 Meta 的论文承认——这项实验消耗了超过 40 万 GPU·小时（社区按 GB200 单价估算约 420 万美元），只为验证一条看似简单的 Sigmoid 方程时，整个行业还是震惊了。

他们要回答的不是“如何让模型更聪明”，而是一个更基础的问题：一场强化学习实验的结果，能否在训练中途就被可靠地预测？

这篇题为 The Art of Scaling Reinforcement Learning Compute for LLMs 的工作，用一场堪称“天价”的实验告诉我们：强化学习的可扩展性不是玄学，它遵循一条可以外推的曲线。

注：论文正文仅报告 GPU·小时与硬件信息，并未直接给出美元成本；上文美元金额为依据社区通行单价的粗略估算。

论文标题：

The Art of Scaling Reinforcement Learning Compute for LLMs

论文链接：

https://arxiv.org/pdf/2510.13786

研究背景

RL 阶段的“不可预测”广为人知：相同模型、不同配方，在小算力阶段看似领先，到了大算力往往后劲不足甚至崩塌。

论文强调：比较 RL 的可扩展性，不应只看若干下游点测，而应在分布内验证集上拟合“计算量 → 表现”的曲线，并用三个量化参数来判断一条路线是否值得继续加算力：

上限（能到多高）/ 效率（涨得多快）/ 中点（何时开始递减）。

这改变了评估范式：先判断“值不值扩大算力”，再决定“用哪种配方去扩”。

论文方法

2.1 Sigmoid 规模律

于是，Meta 从最基础的规律入手：如果预训练有幂律，RL 是否也存在一条自己的曲线？

他们提出一个看似朴素、却颠覆性的假设——大模型在 RL 阶段的性能增长，并非线性，而是 Sigmoid 饱和曲线。

公式如下：

其中：表示渐近性能上限（上限能到多高），控制效率斜率（算力增长带来多少收益），是达到半数提升的计算量。

简单来说，每个 RL 方案都可以用三个数来刻画：上限 A、效率 B、拐点。

▲ 图1. Sigmoid三参数与曲线形态的直观示意

一旦能在训练早期拟合出这条曲线，就能用有限算力预测未来收益——强化学习第一次被写成了公式，而不是玄学。

为了验证这个规律，Meta 设计了一场堪称“史诗级”的实验。他们在 8B dense 与 17B×16 MoE 模型上，进行了总计 400,000 GPU·小时的强化学习训练。每一次消融实验，都对应上万美元的算力开销。

在 8B 模型上，他们仅用前半段（约 50,000 GPU·小时）的训练数据拟合出 Sigmoid 曲线，然后外推预测剩余训练的性能。

结果惊人——外推曲线与真实训练曲线几乎完全重合。这意味着，只需用一半算力，就能提前预测另一半算力的回报。

▲ 图2：8B与17B×16模型的Sigmoid外推结果

Meta 在论文中写道：

“Stable RL recipes follow predictable scaling trajectories.”

稳定的 RL 配方，沿着可预测的轨迹增长。

2.2 ScaleRL 框架

接下来，Meta 将这些规律整合为一个系统化框架——ScaleRL。它并非提出新算法，而是把稳定性工程抽象为一组可复用组件。

核心组件包括：

PipelineRL 异步流式架构

：

CISPO 损失函数

：

FP32 精度修复

：

以及若干优化策略，如 Prompt-level 聚合、Batch-level 优势归一化、Zero-variance filtering、No-positive-resampling 等。

在 CISPO 中，论文首先定义 token-level 重要性采样比，随后提出核心优化目标函数：

其中表示 stop-gradient 操作，为截断阈值，为优势函数（advantage）。

▲ 图3-5. 关键组件的实验比较：PipelineRL、CISPO、FP32 及 Filtering 策略

这一设计在 off-policy 场景下既能抑制分布漂移，又维持梯度稳定。在消融实验中，这些组件单独看似影响有限，但组合后显著提升了训练的稳定性、鲁棒性与可扩展性。

实验：可预测性，不止一次奏效

Meta 没止步于一次 100K GPU·小时的实验。他们想知道：这条 Sigmoid 曲线，是否在不同设定、不同规模下依然奏效。

于是，团队从多个维度验证了 ScaleRL 的可预测性：配方消融、模型规模、上下文长度、batch 大小……每一次扩展，都在验证同一个命题——强化学习能否像预训练那样，被数学规律驯服。

3.1 配方消融

研究者把 ScaleRL 拆解成若干组件（PipelineRL、CISPO、FP32、Filtering），然后逐个“拔掉”，再用 Sigmoid 曲线重新拟合。

结果很清晰：每个组件单独看来影响有限，但组合后，曲线最平滑、效率 B 最高。

▲ 图6. Leave-One-Out（LOO）实验：去掉任意组件都会降低效率 B

当团队在相同配置下重复 3 次实验时，曲线几乎重叠，渐近性能 A 的波动不到 ±0.02——这意味着 ScaleRL 的拟合不仅稳定，而且可复现。

▲ 图7. 三次独立运行的拟合方差与误差界

特别是在 17B×16 MoE（Scout）模型上，FP32 精度修复的作用更明显。一旦关闭它，训练曲线立刻失稳；重新启用后，曲线重新贴合 Sigmoid 外推的预测。

▲ 图8. Scout（17B×16 MoE）上的 FP32 LOO：加回 FP32 后曲线重新收敛

3.2 扩展维度

ScaleRL 的“曲线可预测性”在不同的算力旋钮上依旧成立：

长上下文：从 14k 增到 32k，曲线初期变缓，但上限 A 明显抬升，外推曲线准确预测“后程反超”。

▲ 图9. 长上下文扩展：初期变慢、上限更高，外推准确

大 batch：早期略慢，但后期上限更高，小 batch 反而会提前饱和。

▲ 图10. 全局 batch 扩展：大 batch 提升上限，小 batch 提前饱和

这些结果表明：无论改模型、改上下文还是改 batch，Sigmoid 外推都在奏效。ScaleRL 不只是在一个实验上“偶然稳定”，而是一种可复用的规律。

结语

这篇研究的意义在于，把强化学习从依赖直觉的试验过程，转化为一套可度量、可预测的工程体系。Meta 用 40 万 GPU·小时的实验代价，验证了一个极具指导性的结论——大模型在 RL 阶段同样遵循规模律，性能的提升可以被公式化地描述和外推。

这意味着，研究者不再需要在算力与参数之间盲目试探，而能够在训练的早期就判断投入的回报率。强化学习的优化，不再是经验的积累，而成为可规划的工程。

从更长远的视角来看，ScaleRL 为大模型训练建立了一种新的范式：它让我们从“如何让模型变强”转向“如何预测模型会变强”。在未来的研究中，理解这条曲线，或许会比单纯堆叠算力更重要。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Meta 花了 420 万美元、40 万 GPU·小时，只为验证一个大胆猜想：强化学习的结果，其实在训练一半时就能被算出来。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

Meta 花了 420 万美元、40 万 GPU·小时，只为验证一个大胆猜想： 强化学习的结果，其实在训练一半时就能被算出来。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

Meta 花了 420 万美元、40 万 GPU·小时，只为验证一个大胆猜想：强化学习的结果，其实在训练一半时就能被算出来。