深度财经头条 09月13日
AI算力新焦点:从模型训练转向长上下文推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着生成式AI的规模化落地,AI算力的竞争焦点正从模型参数和算力堆叠转向推理能力。真实场景中海量数据的瞬间调用、百万Token的连续推理以及长上下文的高效处理,对算力基础设施提出了更高要求。英伟达推出的专为长上下文推理设计的Rubin CPX GPU,以及GB300 NVL72在MLPerf基准测试中创下的新纪录,标志着AI算力进入了新的发展阶段。甲骨文创始人也指出,AI推理市场将远大于训练市场,且推理算力正面临耗尽的局面。Google、微软和字节等科技巨头的数据显示,Token调用量正呈指数级增长,凸显了长上下文推理需求的爆发式增长。

🚀 **推理成为AI算力新战场:** 随着生成式AI进入规模化落地阶段,AI算力的重心已从训练转向推理。海量数据的高效调用、百万Token的连续推理以及长上下文处理能力,成为衡量算力基础设施价值的关键指标,直接影响到实际应用场景的落地效率和成本效益。

💡 **英伟达Rubin CPX引领长上下文推理:** 英伟达推出的全新Rubin CPX GPU专为长上下文推理负载设计,能够一次性处理数百万级别的tokens,为AI推理带来前所未有的投资回报率。这标志着AI硬件正在加速适应“推理时代”的需求,并有望带动英伟达在AI基础设施领域的收入显著增长。

📈 **推理算力需求爆发,市场潜力巨大:** 甲骨文创始人Larry Ellison强调,AI推理市场将远大于AI训练市场,且当前推理算力正面临短缺。Google、微软和字节等科技巨头公布的数据显示,Token调用量呈现指数级增长,印证了长上下文推理需求的快速崛起,预示着巨大的市场机遇。

🔗 **算力基础设施进入长上下文协作新阶段:** Rubin CPX的推出不仅是硬件的升级,更意味着算力基础设施进入了“上下文与生成分工协作”的新模式。硬件(GPU、存储、网络)与软件的耦合度显著提高,将带动整个算力产业链价值量的提升,相关厂商均有望从中受益。


《科创板日报》9月13日讯 在AI浪潮中,模型参数增长和算力堆叠一度成为竞逐焦点。不过站在当下时点,当生成式AI开启规模化落地,战场已经转向推理:真实场景中海量数据的瞬间调用、百万Token的连续推理、长上下文的高效处理,在提升了算力需求的同时,也重新定义了算力基建的价值链。

在日前的AI基础设施峰会上,英伟达发布了全新Rubin CPX GPU。据官方介绍,这颗芯片专为长上下文推理负载设计,是英伟达首颗专为需要一次性处理大量知识(数百万级别tokens)并进行AI推理的模型构建的芯片。

英伟达称,这颗芯片可以为客户带来“前所未有的投资回报率”——每部署价值1亿美元的新芯片,将带来50亿美元收入,投资回报率约50倍,远超GB200 NVL72的约10倍回报率。此外,公司宣布GB300 NVL72机架级系统在最新MLPerf推理基准测试中创造了新推理基准记录。

花旗研究指出,在ASIC竞争加剧的环境下,英伟达曾经一年一度的产品发布脚步开始提速,Rubin CPX在产品路线图中“插队”,标志着“推理时代”已经到来。

分析师进一步指出,Rubin CPX的发布和MLPerf新纪录都展现了英伟达在AI基建领域的持续创新能力。随着AI推理需求、特别是长语境推理需求爆发,英伟达的新品组合有望带动收入显著增长。

值得注意的是。本周引发全球市场瞩目的甲骨文,也提到了推理市场需求的爆发。

在业绩会上,公司创始人Larry Ellison明确指出,AI正从根本上改变甲骨文,AI推理市场将“远大于”AI训练市场,而市场上的推理算力正在被耗尽。

虽说甲骨文指数级别的订单爆炸性增长,以及随之而来对OpenAI依赖性的质疑,让其股价在飙升之后连跌两天。但摩根大通也表示,承认甲骨文在获取OCI业务方面取得了“令人印象深刻的成就”,并认可其在AI领域的长期潜力。

▌算力基础设施进入长上下文推理新阶段

实际上拉长时间线就能发现,海内外大厂Token调用量已出现明显加速拐点,推理端算力需求快速增长。

今年5月Google I/O大会的数据显示,Google的Token月均调用量从去年4月的9.7万亿增长至今年4月的480万亿,增长50倍。根据微软三季度电话会数据,Azure AI基础设施在今年一季度处理了超100万亿Token,较去年同期增长5倍,其中3月份单月Token调用量达50万亿。国内互联网大厂来看,今年5月字节火山引擎Token日均调用量为16.4万亿(月均508T),是去年5月的137倍。

过去一年,随着生成式AI进入规模化落地阶段,行业对“长上下文”的需求快速上升。无论是企业级知识库问答、代码生成,还是多模态长视频生成,均需要模型在极大输入序列下保持推理准确性与计算效率。然而,现有GPU在应对超长上下文时普遍存在内存带宽瓶颈与计算冗余,导致算力利用率不足。

东吴证券指出,从产业角度来看,Rubin CPX的推出不仅是英伟达产品线的升级,更意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万Token推理与长视频生成成为AI应用的标配需求,硬件和软件的耦合度显著提高,算力产业链的价值量同步上升。无论是GPU、存储、网络,还是配套的高速PCB、光模块与封装工艺,相关厂商都有望深度受益。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI算力 长上下文推理 NVIDIA Rubin CPX 生成式AI 推理算力 Oracle MLPerf Token AI Infrastructure Long Context Inference Generative AI Inference Compute AI Compute
相关文章