掘金 人工智能 09月12日
英伟达发布Rubin CPX GPU,引领AI进入百万Token推理时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达重磅推出专为海量上下文 AI 设计的全新 GPU——Rubin CPX,将大模型一次性推理带入“百万 Token 时代”。Rubin CPX 基于 Rubin 架构,是首款支持数百万 Token 模型进行推理的 CUDA GPU,性能远超前代产品,并引入了“解耦式推理”创新,旨在大幅提升效率和投资回报率。该平台通过与 Vera CPU 和 Rubin GPU 协同工作,优化了长上下文处理,为软件开发、视频生成等复杂任务带来突破。Rubin CPX 预计于 2026 年底可用,将进一步推动 AI 计算的前沿。

🚀 **百万 Token 推理新突破:** 英伟达发布了专为海量上下文 AI 设计的 Rubin CPX GPU,这是首款能够一次性推理跨越数百万 Token 的 CUDA GPU,标志着大模型推理能力迈入新纪元,为处理长文本、复杂指令等场景提供了强大的算力支持。

💡 **解耦式推理与高 ROI:** Rubin CPX 引入了“解耦式推理”技术,将大模型推理中的上下文处理和生成阶段分开优化,显著提升了计算和内存资源的利用率,为企业带来了高达 30-50 倍的投资回报率,重塑了推理经济。

⚙️ **强大的硬件规格与协同工作:** Rubin CPX 拥有卓越的硬件性能,包括单机架 8 EFLOPS 的 NVFP4 计算力、100TB 高速内存和 1.7 PB/s 的内存带宽。它与 NVIDIA Vera CPU 和 Rubin GPU 紧密协同,集成为 NVIDIA Vera Rubin NVL144 CPX 平台,能够高效处理多步推理、持久化记忆与长时程上下文等复杂任务。

🌐 **加速下一代 AI 应用:** Rubin CPX 的推出将赋能软件开发、视频生成、深度研究等领域的创新,使 AI 编码升级为复杂系统优化,满足长视频和研究应用对数百万 Token 级别持续一致性和记忆的需求,重新定义下一代生成式 AI 应用的可能性。

⏳ **生态系统与未来展望:** Rubin CPX 将获得 NVIDIA 全面的 AI 软件栈支持,包括 NVIDIA AI Enterprise 和 NVIDIA Dynamo 平台,并受益于庞大的开发者生态。该 GPU 预计于 2026 年底可用,将为全球开发者和创作者解锁更强大的能力。

「【新智元导读】昨天,英伟达重磅发布了专为海量上下文 AI 打造的 CUDA GPU——Rubin CPX,将大模型一次性推理带入「百万 Token 时代」。NVIDIA 创始人兼 CEO 黄仁勋表示,Vera Rubin 平台将再次推动 AI 计算的前沿,不仅带来下一代 Rubin GPU,也将开创一个 CPX 的全新处理器类别。」

一图看透全球大模型!新智元十周年钜献,2025 ASI 前沿趋势报告 37 页首发

「百万 Token 怪兽」出世!

昨天,NVIDIA 突放大招,推出了 Rubin CPX,这是一款专为大规模上下文推理而设计的全新 GPU。

它的性能,是 Vera Rubin NVL144 平台的 2 倍多,是基于 Blackwell Ultra 的 GB300 NVL72 机架式系统的 7.5 倍!

它具有单机架 8 EFLOPS 的 NVFP4 计算力、100TB 高速内存与 1.7 PB/s 的内存带宽、128GB 的高性价比 GDDR7 显存。

相比较 NVIDIA GB300 NVL72 系统,Rubin CPX 带来了 3 倍的注意力机制处理能力。

性能巨兽,在变现能力上更是不容小觑。

每投入 1 亿美元,最高可以带来 50 亿美元的 Token 收入!

「Rubin CPX」

「开创 CPX 全新处理器类别」

Rubin CPX 基于 Rubin 架构构建,是首款专为海量上下文 AI 打造的 CUDA GPU,能够在同一时间推理跨越数百万个知识标记的模型。

可以说,Rubin CPX 是专为破解 AI「长上下文」瓶颈而生的「特种兵」。

它的出现,为 AI 带来了百万 Token 级推理场景下的性能和效率的新突破。

依托于全新的 NVIDIA Vera Rubin NVL144 CPX 平台,Rubin CPX 与 NVIDIA Vera CPU 和 Rubin GPU 紧密协同,可以支持多步推理、持久化记忆与长时程上下文,这让它在面对软件开发、视频生成、深度研究等领域的复杂任务时,更加游刃有余。

这也意味着在 Rubin CPX 的最新加持下,AI 编码将从简单的代码生成工具,升级为能够理解并优化大规模软件项目的复杂系统。

同样,它还可以满足长视频与研究类应用领域,在数百万 Token 级别上保持持续一致性与记忆的需求。

这些需求,都在逼近当前基础设施的极限。

NVIDIA 创始人兼 CEO 黄仁勋表示,Vera Rubin 平台将再次推动 AI 计算的前沿,也将开创一个 CPX 的全新处理器类别。

「正如 RTX 颠覆了图形与物理 AI 一样,Rubin CPX 是首个专为海量上下文 AI 打造的 CUDA GPU,模型能够一次性跨越数百万个 Token 的知识进行推理。」

目前,Cursor、Runway 和 Magic 等 AI 先锋企业,正在积极探索 Rubin CPX 在应用加速上的新可能。

「30-50 倍 ROI」

「重写推理经济」

Rubin CPX 通过解耦式推理创新,可以企业带来 30-50 倍 ROI,重写推理经济。

大模型的推理,主要分为上下文和生成两个阶段。

它们对于基础设施的要求,也存在着本质性的差异。

上下文阶段,以计算受限为主,需要高吞吐处理来摄取并分析海量输入数据,以产出第一个 Token 的输出结果。

而生成阶段,则以内存带宽受限为主,依赖快速的内存传输与高速互联(如 NVLink)来维持逐 Token 的输出性能。

解耦式推理,可以让这两个阶段独立处理,从而更加针对性地优化算力与内存资源,提升吞吐,降低时延,增强整体资源的利用率。

但解耦式推理,也带来了新的复杂性层次,需要在低时延 KV 缓存传输、面向大模型感知的路由,以及高效内存管理之间进行精确协调。

这离不开 NVIDIA Dynamo,它作为以上组件的编排层,发挥着关键作用。

Rubin CPX 是专为大语言模型(尤其是百万 Token 上下文)推理设计的「专用加速器」。

Rubin CPX 与 NVIDIA Vera CPU ,以及用于生成阶段处理的 Rubin GPU 协同工作,共同形成了面对长上下文场景的完整的高性能解耦式服务方案。

CPX 的推出,标志着解耦式推理基础设施的最新进化,也树立了推理经济的新标杆。

在规模化场景下,NVIDIA Vera Rubin NVL144 CPX 平台,可带来 30–50x 的投资回报(ROI)。

这意味着 1 亿美元的资本性支出(CAPEX),最高可转化为 50 亿美元的收入。

「百万 Token 怪兽」

「重新定义下一代 AI 应用」

Vera Rubin NVL144 CPX 平台,重新定义了企业构建下一代生成式 AI 应用的可能性。

NVIDIA Vera Rubin NVL144 CPX 机架与托盘,配备 Rubin 上下文 GPU(Rubin CPX)、Rubin GPU 与 Vera CPU

Rubin CPX 与 NVIDIA Vera CPU、Rubin GPU,共同集成在全新的 NVIDIA Vera Rubin NVL144 CPX 平台内。

NVIDIA Vera Rubin NVL144 CPX 平台,采用最新 GPU 架构,具备极高算力与能效比,可以基于 MGX 架构实现机架级部署。

    算力跃升

NVIDIA MGX 机架式系统,单机架集成了 144 块 Rubin CPX GPU、144 块 Rubin GPU 与 36 颗 Vera CPU,可以提供 8 EFLOPS 的 NVFP4 计算力,并在单机架内配备 100TB 高速内存与 1.7 PB/s 的内存带宽。

    长序列的高效处理优化

Rubin CPX 针对长序列的高效处理进行了优化,是软件应用开发与高清(HD)视频生成等高价值推理用例的关键。

    显存升级

单个 Rubin CPX GPU 可以提供高达 30 petaflops 的 NVFP4 计算能力,它配备 128GB 的高性价比 GDDR7 显存,以加速最苛刻的上下文类工作负载。

    注意力机制加速

相比 NVIDIA GB300 NVL72 系统,Rubin CPX 带来了 3 倍的注意力机制处理能力,显著提高模型处理更长上下文序列的能力且不降速。

    多种形态配置

Rubin CPX 提供多种形态配置,包括 Vera Rubin NVL144 CPX,并可与 NVIDIA Quantum-X800 InfiniBand 横向扩展计算网络。

也可以搭配采用 NVIDIA Spectrum-XGS 以太网技术与 NVIDIA ConnectX®-9 SuperNICs™的 NVIDIA Spectrum-X™以太网网络平台结合使用,以实现大规模部署。

「Rubin CPX」

「拥抱 NVIDIA 全栈 AI 生态」

在生态上,Rubin CPX 将得到完整的 NVIDIA AI 堆栈支持,包括:

NVIDIA Rubin CPX 预计将于 2026 年底可用。

它的推出将为全球开发者与创作者解锁更强大的能力,重新定义企业构建下一代生成式 AI 应用的可能性。

参考资料:

developer.nvidia.com/blog/nvidia…

nvidianews.nvidia.com/news/nvidia…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

NVIDIA Rubin CPX AI GPU 百万 Token 海量上下文 推理 解耦式推理 CPX Vera Rubin NVIDIA Rubin CPX AI GPU Million Token Massive Context Inference Decoupled Inference CPX Vera Rubin
相关文章