新智元 10月21日 01:18
甲骨文发布万亿级AI超级计算机OCI Zettascale10
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

甲骨文在AI World 2025大会上发布了其最新一代云端AI超级计算机OCI Zettascale10。该系统由80万块NVIDIA GPU组成,峰值算力高达16 ZettaFLOPS,旨在为OpenAI的“星际之门”AI集群提供核心算力支持。其核心技术在于创新的Acceleron RoCE网络架构,该架构能够实现GPU间的低延迟、高效率互联,显著提升AI训练性能和能效。虽然16 ZFLOPS的算力尚未独立验证,但这一部署标志着甲骨文在AI基础设施领域的战略布局和技术实力,也预示着云端AI算力军备竞赛的进一步升级。该系统计划于2026年下半年向客户提供服务。

🚀 **全球最大规模云端AI超级计算机:** 甲骨文推出的OCI Zettascale10由80万块NVIDIA GPU构成,峰值算力高达16 ZettaFLOPS,成为OpenAI“星际之门”AI集群的算力核心,展现了甲骨文在AI基础设施领域的强大实力和战略布局。

💡 **Acceleron RoCE网络架构创新:** 该系统独创的Acceleron RoCE网络采用多平面、扁平化设计,使GPU间通信延迟大幅降低,并具备故障切换能力,确保了大规模AI训练的高效、稳定运行。该架构还通过引入新技术优化了能耗和冷却成本。

📈 **AI算力竞赛新格局:** Zettascale10的发布标志着云服务商在AI算力领域竞争的白热化。甲骨文此举不仅巩固了与OpenAI的合作,也向市场展示了其在AI基础设施领域的雄心,并可能通过“多云通用积分”计划吸引更多客户。

🤔 **性能与实际应用的权衡:** 尽管宣称峰值算力高达16 ZettaFLOPS,但这一数字可能基于理论峰值或低精度计算。该系统的实际性能和可靠性仍需在2026年投入使用后通过基准测试和用户反馈来验证,以确定其在真实工作负载下的表现。


  新智元报道  

编辑:艾伦
【新智元导读】甲骨文于上周发布全球最大云端AI超级计算机「OCI Zettascale10」,由80万块NVIDIA GPU组成,峰值算力高达16 ZettaFLOPS,成为OpenAI「星际之门」集群的算力核心。其独创Acceleron RoCE网络实现GPU间高效互联,显著提升性能与能效。该系统象征甲骨文在AI基础设施竞争中的强势布局。
甲骨文在2025年AI World大会上发布OCI Zettascale10超级集群。

在拉斯维加斯举办的AI World 2025大会上,甲骨文高调推出了一台号称全球最大规模的云端AI超级计算机——OCI Zettascale10。

这个庞然大物横跨多个数据中心,由多达80万块NVIDIA GPU芯片构成,峰值计算性能被宣称可达惊人的16 ZettaFLOPS(即每秒1021次以上浮点运算)。

如此天文数字意味着平均每块GPU可贡献约20 PetaFLOPS算力,接近英伟达最新一代Grace Hopper(Blackwell架构GB300)芯片的水平。

甲骨文此举无疑是在急速升温的AI算力军备竞赛中放出「大招」,试图在云端AI基础设施版图上占据一席之地。

OpenAI巨型集群的动力之源这套Zettascale10系统已经成为OpenAI庞大算力需求的幕后功臣。

据悉,甲骨文与OpenAI在德州阿比林(Abilene)共建了「星际之门」旗舰AI超级计算集群,而OCI Zettascale10正是其算力骨干。

OpenAI基础设施部门副总裁Peter Hoeschele表示,甲骨文定制的RoCE高速网络架构在「千兆瓦级」规模下最大化了整体性能,同时将大部分能耗都用在了计算上。

换言之,甲骨文研发的这套RDMA over Converged Ethernet网络(代号Acceleron)将海量GPU紧密连接成一个整体,使得OpenAI的大模型训练能够在如此庞大的芯片阵列上高效运转。

正因有了与OpenAI的深度合作背书,Zettascale10一亮相便自带「实战」光环,它已经在为当今业界最严苛的一些AI工作负载提供动力。

Acceleron网络架构揭秘如此规模的GPU「巨阵」要高效运转,奥秘就在于甲骨文独创的Acceleron RoCE网络架构。

简单来说,Acceleron让每块GPU的网络接口卡(NIC)都充当一个小型交换机,一次可连接到多个隔离的网络交换平面。

这种多平面、扁平化的网络设计大幅降低了GPU之间的通信延迟,并确保即使某一路由出现故障时,训练作业也能自动切换到其它路径继续运行,不至于被迫中断。

相比传统三级交换结构,Acceleron减少了网络层级,使GPU对GPU的直连延迟更加一致,整体性能更具可预测性。

此外,该架构引入了线性可插拔光学模块(LPO)和线性接收光学组件(LRO)等新技术,在不降低400G/800G带宽的前提下削减了网络的能耗与冷却成本。

甲骨文称这种创新网络既提高了效率又降低了成本,让客户可以用更少的电力完成同样的AI训练任务;

NVIDIA公司高管Ian Buck也认可道,正是这种全栈优化的「计算结构」(compute fabric)提供了将AI从实验推进到工业化所需的基础。

峰值神话与现实考验甲骨文计划在2026年下半年正式向客户提供Zettascale10集群服务,目前这一系统已开始接受预订。

然而,对于16 ZFLOPS的惊人算力,不少业内观察者持保留态度。

该数据尚未经独立机构验证,而且很可能是基于理论峰值算力而非持续实效得出。

据业内报道,甲骨文宣称的16 ZFLOPS有可能利用了极低精度的AI计算指标(例如FP8甚至4比特稀疏运算)来实现。

实际的大模型训练通常需要使用更高精度(如BF16或FP8)的数值格式以保证模型收敛效果,因此16 ZFLOPS这个数字更多体现了甲骨文硬件在理想情况下的上限潜力,而非日常工作负载下可持续交付的性能。

这台「云端巨无霸」真正的实战表现还有待时间检验,只有等到系统明年投入使用,各种基准测试与用户实际反馈才能揭晓它能否如宣称般高效且可靠。

云端AI竞赛的挑战与展望甲骨文并非孤军奋战。

当前,微软、谷歌、亚马逊等云计算巨头也在争相构建各自的大规模AI集群,它们或采购海量GPU,或研发自家AI加速硬件,云端AI算力版图正迅速扩张。

甲骨文此次押下重注推出Zettascale10,一方面巩固了与OpenAI的战略联盟,另一方面也是向业界宣示其在AI时代不容忽视的新实力。

然而在市场前景上,甲骨文依然面临如何吸引客户的问题。

为此,该公司还发布了新的「多云通用积分」计划,允许运营商用统一的预付积分在甲骨文云及AWS、Azure、Google等多家云服务间自由调配甲骨文数据库和OCI服务。

这项举措旨在降低客户迁移门槛、提高平台黏性,为甲骨文云生态争取更大的用户基础。

OCI Zettascale10的出现展示了云服务商为满足AI空前算力需求所做的大胆探索。

等到明年这套系统真正落地,我们才能知道甲骨文能否凭借这一云端「巨无霸」在激烈的AI基础设施竞赛中抢得先机,并兑现其关于高效、规模和可靠性的承诺。

参考资料:
https://www.oracle.com/news/announcement/ai-world-oracle-unveils-next-generation-oci-zettascale10-cluster-for-ai-2025-10-14/


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

甲骨文 OCI Zettascale10 AI超级计算机 NVIDIA GPU OpenAI 星际之门 Acceleron RoCE AI基础设施 云服务 Oracle AI Supercomputer NVIDIA GPU OpenAI Stargate Acceleron RoCE AI Infrastructure Cloud Services
相关文章