index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
Meta近期一项耗资巨大的研究(约420万美元,40万GPU·小时)旨在验证一个大胆猜想:强化学习(RL)的结果在训练中途即可被预测。该研究的核心是验证一个Sigmoid方程,揭示了在大模型时代,RL的可扩展性并非玄学,而是遵循一条可外推的曲线。研究者提出了ScaleRL框架,通过分析“计算量→表现”的曲线,并量化“上限、效率、中点”三个参数,来评估是否值得增加算力,从而改变了传统的评估范式。这一方法使得强化学习的优化过程变得可规划和可预测,为大模型训练提供了新的工程化思路。
📈 **强化学习的可预测性与规模律**:Meta的研究表明,大模型在强化学习阶段的性能增长并非随机,而是遵循一条可预测的Sigmoid增长曲线。通过分析训练过程中的“计算量-表现”关系,研究者发现可以在训练早期就准确预测后续的性能表现,这颠覆了以往RL结果不可预测的认知。
💡 **ScaleRL框架的提出**:Meta构建了ScaleRL系统化框架,整合了PipelineRL异步流式架构、CISPO损失函数(结合截断重要性采样和REINFORCE)、FP32精度修复等关键组件。这些组件共同作用,显著提升了训练的稳定性、鲁棒性和可扩展性,将RL优化从经验驱动转变为工程化体系。
💰 **“天价”实验验证的价值**:尽管实验耗费巨大,但Meta通过40万GPU·小时的训练,验证了在不同模型规模、上下文长度和batch大小下,Sigmoid曲线外推的有效性。这证明了理解和利用性能曲线,比单纯追求算力堆叠更能指导研究方向,实现了对强化学习过程的可度量和可预测。
🎯 **评估范式的转变**:研究强调,在比较RL方案时,不应仅看下游测试点,而应在分布内验证集上拟合“计算量→表现”曲线,并用上限、效率、中点三个参数来判断。这一转变有助于研究者在早期就判断投入算力的回报率,从而更有效地规划和分配计算资源。
原创 让你更懂AI的 2025-10-17 17:14 北京
理解曲线,比追求算力更重要
Meta 花了 420 万美元、40 万 GPU·小时,只为验证一个大胆猜想: 强化学习的结果,其实在训练一半时就能被算出来。
在大模型时代,烧钱的研究已经见怪不怪;但当 Meta 的论文承认—— 这项实验消耗了超过 40 万 GPU·小时(社区按 GB200 单价估算约 420 万美元),只为验证一条看似简单的 Sigmoid 方程时,整个行业还是震惊了。
他们要回答的不是“如何让模型更聪明”,而是一个更基础的问题: 一场强化学习实验的结果,能否在训练中途就被可靠地预测?
这篇题为 The Art of Scaling Reinforcement Learning Compute for LLMs 的工作,用一场堪称“天价”的实验告诉我们:强化学习的可扩展性不是玄学,它遵循一条可以外推的曲线。
注:论文正文仅报告 GPU·小时与硬件信息,并未直接给出美元成本;上文美元金额为依据社区通行单价的粗略估算。
论文标题: The Art of Scaling Reinforcement Learning Compute for LLMs 论文链接: https://arxiv.org/pdf/2510.13786 研究背景 RL 阶段的“不可预测”广为人知:相同模型、不同配方,在小算力阶段看似领先,到了大算力往往后劲不足甚至崩塌。 论文强调:比较 RL 的可扩展性,不应只看若干下游点测,而应在分布内验证集上拟合“计算量 → 表现”的曲线,并用三个量化参数来判断一条路线是否值得继续加算力: 上限 (能到多高)/ 效率 (涨得多快)/ 中点 (何时开始递减)。 这改变了评估范式: 先判断“值不值扩大算力”,再决定“用哪种配方去扩”。
论文方法 2.1 Sigmoid 规模律 于是,Meta 从最基础的规律入手:如果预训练有幂律,RL 是否也存在一条自己的曲线? 他们提出一个看似朴素、却颠覆性的假设—— 大模型在 RL 阶段的性能增长,并非线性,而是 Sigmoid 饱和曲线。公式如下: 其中: 表示渐近性能上限(上限能到多高), 控制效率斜率(算力增长带来多少收益), 是达到半数提升的计算量。 简单来说,每个 RL 方案都可以用三个数来刻画:上限 A、效率 B、拐点 。 ▲ 图1. Sigmoid三参数与曲线形态的直观示意
一旦能在训练早期拟合出这条曲线,就能用有限算力预测未来收益——强化学习第一次被写成了公式,而不是玄学。 为了验证这个规律,Meta 设计了一场堪称“史诗级”的实验。他们在 8B dense 与 17B×16 MoE 模型上,进行了总计 400,000 GPU·小时的强化学习训练。每一次消融实验,都对应上万美元的算力开销。在 8B 模型上,他们仅用前半段(约 50,000 GPU·小时)的训练数据拟合出 Sigmoid 曲线,然后外推预测剩余训练的性能。 结果惊人——外推曲线与真实训练曲线几乎完全重合。这意味着,只需用一半算力,就能提前预测另一半算力的回报。 ▲ 图2:8B与17B×16模型的Sigmoid外推结果 Meta 在论文中写道: “Stable RL recipes follow predictable scaling trajectories.” 稳定的 RL 配方,沿着可预测的轨迹增长。
2.2 ScaleRL 框架 接下来,Meta 将这些规律整合为一个系统化框架—— ScaleRL。它并非提出新算法,而是把稳定性工程抽象为一组可复用组件。核心组件包括: PipelineRL 异步流式架构 : 生成端持续 rollout,训练端实时更新,避免资源空转;CISPO 损失函数 : 结合截断重要性采样(IS clipping)与 REINFORCE,实现更稳定的梯度估计;FP32 精度修复 : 在 logits 层使用全精度计算,避免数值误差引发的梯度坍塌;以及若干优化策略,如 Prompt-level 聚合、Batch-level 优势归一化、Zero-variance filtering、No-positive-resampling 等。 在 CISPO 中,论文首先定义 token-level 重要性采样比,随后提出核心优化目标函数: 这一设计在 off-policy 场景下既能抑制分布漂移,又维持梯度稳定。在消融实验中,这些组件单独看似影响有限,但组合后显著提升了训练的稳定性、鲁棒性与可扩展性。 实验:可预测性,不止一次奏效 Meta 没止步于一次 100K GPU·小时的实验。他们想知道:这条 Sigmoid 曲线,是否在 不同设定、不同规模 下依然奏效。于是,团队从多个维度验证了 ScaleRL 的可预测性:配方消融、模型规模、上下文长度、batch 大小……每一次扩展,都在验证同一个命题—— 强化学习能否像预训练那样,被数学规律驯服。3.1 配方消融 研究者把 ScaleRL 拆解成若干组件(PipelineRL、CISPO、FP32、Filtering),然后逐个“拔掉”,再用 Sigmoid 曲线重新拟合。 结果很清晰: 每个组件单独看来影响有限,但组合后,曲线最平滑、效率 B 最高。▲ 图6. Leave-One-Out(LOO)实验:去掉任意组件都会降低效率 B
当团队在相同配置下重复 3 次实验时,曲线几乎重叠,渐近性能 A 的波动不到 ±0.02——这意味着 ScaleRL 的拟合不仅稳定,而且 可复现 。 ▲ 图 7. 三次独立运行的拟合方差与误差界 特别是在 17B×16 MoE(Scout)模型上,FP32 精度修复的作用更明显。一旦关闭它,训练曲线立刻失稳;重新启用后,曲线重新贴合 Sigmoid 外推的预测。 ▲ 图8. Scout(17B×16 MoE)上的 FP32 LOO:加回 FP32 后曲线重新收敛 3.2 扩展维度 ScaleRL 的“曲线可预测性”在不同的算力旋钮上依旧成立: 长上下文: 从 14k 增到 32k,曲线初期变缓,但上限 A 明显抬升,外推曲线准确预测“后程反超”。▲ 图9. 长上下文扩展:初期变慢、上限更高,外推准确
大 batch: 早期略慢,但后期上限更高,小 batch 反而会提前饱和。▲ 图10. 全局 batch 扩展:大 batch 提升上限,小 batch 提前饱和这些结果表明:无论改模型、改上下文还是改 batch,Sigmoid 外推都在奏效。ScaleRL 不只是在一个实验上“偶然稳定”,而是一种可复用的规律。
结语
这篇研究的意义在于,把强化学习从依赖直觉的试验过程,转化为一套可度量、可预测的工程体系。Meta 用 40 万 GPU·小时的实验代价,验证了一个极具指导性的结论——大模型在 RL 阶段同样遵循规模律,性能的提升可以被公式化地描述和外推。 这意味着,研究者不再需要在算力与参数之间盲目试探,而能够在训练的早期就判断投入的回报率。强化学习的优化,不再是经验的积累,而成为可规划的工程。 从更长远的视角来看,ScaleRL 为大模型训练建立了一种新的范式:它让我们从“如何让模型变强”转向“如何预测模型会变强”。在未来的研究中,理解这条曲线,或许会比单纯堆叠算力更重要。 更多阅读 # 投 稿 通 道 # 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。 总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是 最新论文解读 ,也可以是 学术热点剖析 、 科研心得 或 竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。 📝 稿件基本要求: • 文章确系个人 原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题 • PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供 业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算 📬 投稿通道: • 投稿邮箱: hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者 • 您也可以直接添加小编微信( pwbot02 )快速投稿,备注:姓名-投稿 △长按添加PaperWeekly小编 🔍 现在,在 「知乎」 也能找到我们了 进入知乎首页搜索 「PaperWeekly」 点击 「关注」 订阅我们的专栏吧 · 阅读原文
跳转微信打开