少数派 -- Matrix 10月24日 00:51
华为全连接大会:Ascend芯片路线图与AI算力发展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为近期召开的全连接大会上,发布了其Ascend系列AI芯片的未来产品路线图,包括910C、950、960和970等型号,并公布了部分性能参数。其中,910C由两颗910B拼接而成,950系列则区分了训练和推荐优化版本,均搭载自研HBM显存。与英伟达H100和B200等竞品相比,华为Ascend芯片在单卡性能上存在差距,但通过大规模集群(如CloudMatrix 384和Atlas 950 SuperPoD)堆叠数量优势,在整体算力上展现出强劲的追赶态势。文章还探讨了国内AI产业面临的工艺限制、CUDA生态壁垒、HBM技术差距以及多卡互联等挑战,并对未来发展持谨慎乐观态度。

🚀 **Ascend芯片路线图与产品规划**:华为公布了2025年至2028年的Ascend系列AI芯片路线图,确认了910C的存在,并详细介绍了950系列(包括PR和DT版本,分别侧重推荐和训练性能)以及960和970等未来产品。值得注意的是,950系列和960/970系列均计划搭载自研HBM显存,这标志着国产HBM技术在制造工艺和量产方面取得了重要进展,尽管其具体颗粒来源尚未公开。

💡 **性能对比与集群策略**:虽然910C的FP16性能达到800T,但950的FP8算力(约500T FP16)低于910C,这可能与单die设计有关。Ascend 960预计在2027年Q4发布,其FP8算力达到2P(2000T),与H100持平,显存容量更是H100的3.5倍。华为的策略是通过“力大飞砖”的多卡集群来弥补单卡性能的不足,例如CloudMatrix 384系统通过384颗910C芯片实现比NVIDIA GB200 NVL72更高的总算力,尽管功耗也相应增加。

🔗 **生态与互联挑战**:尽管华为在AI算力领域取得了显著进展,但在CUDA生态系统方面仍面临挑战,开源的CANN能否撼动CUDA的地位尚待观察。此外,在多卡互联方面,虽然新产品的互联带宽表现令人惊喜,但其UB mesh方案的推广仍需市场检验。同时,受制于先进工艺的限制,国产AI芯片的单卡性能与英伟达等国际巨头仍有差距,而HBM技术的EUV光刻机等关键环节也存在技术瓶颈。


一个月前,华为召开全连接大会,相比于新手机发布或者开发者大会,这次大会的热度似乎有点低。但对我来说,这次大会的震撼程度远超自己的想象,各种重磅产品让人应接不暇。下面我以一个爱好者(而非从业者)的角度来浅谈此次大会发布的一些产品和技术。作为非从业者,个人水平远远达不到专业水准,且数据资料均来自互联网开源信息,还请各位大佬批评指正。


一、产品路线

话不多说,先来看看华为此次发布的Ascend路线图。

图中展示了华为2025到2028年的Ascend产品,大大方方的承认了910C的存在。之前只是传说ascend910有B1 B2乃至B4等产品,还有双芯版的910C,以及单die的910D。但是关于它们的性能参数全网都没有一个准确的数值,少数做dieshot的博主动态也惨遭下架。

这次大会华为倒是很自信,大大方方公布了910C一直到970的产品规划。920/930被跳过倒是让我很意外,940跳过完全可以理解,毕竟麒麟和鲲鹏都没有940,数字不吉利。

910C没什么好说的,两个910B胶水在一起。

910C

950很有意思,分了两个版本,分别是950PR和950DT,通过打听得知。前者预计2026年Q1发布,后者预计2026年Q4发布。

DT是decode/training,PR是prefill/recommendation,这二者用途有不同之处。前者提升了训练性能,后者提升了推荐业务性能。

值得注意的是,dt和pr都搭载了自研hbm显存。不过要说明的是,pr搭载的HiBL严格来说不是hbm,而是hmc;而dt搭载的HiZQ才是正儿八经的hbm。(命名一如既往的简单,BL白鹭,ZQ朱雀)

HBM全称为High Bandwidth Memory,即高带宽内存,与常规的DDR DRAM不同,HBM是将很多个DDR DRAM芯片堆叠在一起,然后与GPU/GPU封装在一起,实现大容量、高带宽、低延迟的DDR DRAM组合阵列。

搭载hbm说明两个问题,一个是国内的cowos工艺已经达到可用的地步,第二个说明国产的hbm已经试产成功,不管颗粒来自长鑫存储还是福建晋华。

二、性能对比

下面是华为官方发布的产品路线图以及性能展示

910C的fp16性能800t,之前曝光的910b fp16性能为400t,符合910c为2个910b拼接的表现。但是让人费解的是950只有1P的FP8算力,换算下来500T FP16,甚至比910C还要低,可能是单die的原因?但是我在网上也查到950是双die的消息,不知道有没有从业者了解具体情况。

ascend960预计2027年Q4发布,它的fp8算力达到了2P(2000t),这一性能已经和H100持平;显存容量288GB,大约是H100 80G的3.5倍。用7nm打平5年前4nm芯片(h100于2022年发布),已经是一个很厉害的成绩了!

Ascend 960

970预计要到2028年发布,性能进一步提升,fp8算力来到4p,已经接近英伟达B200的4.5p

三、多卡集群

现如今随着AI的兴起,对算力的要求也水涨船高,因此多卡集群成了必然趋势。微软,OpenAI,meta,xAI这些国外AI巨头动辄几万甚至十几万卡互联。得益于英伟达的InfiniBand交换机,才能实现上述功能。

近期英伟达遭遇反垄断调查便是因为捆绑销售迈络思公司的网络设备(InfiniBand之前被迈络思收购,之后迈络思又被英伟达收购)值得一提的是,此前登顶超算TOP1的神威 太湖之光也用了迈络思的的IB技术。

毫不夸张的说,英伟达的QM+IB那套高速网软硬件方案才是大规模训练核心护城河了。与其说各大厂商买英伟达显卡,不如说是花钱买cuda生态和IB互联。

此次华为展出的几款集群,堪比豪横,主打一个力大飞砖,既然单卡性能不如人,就拿数量堆。

上图是前不久展出的华为cloudmatrix384超节点与英伟达GB200 NVL72的一些参数对比,超节点有384颗910C,虽然910C单卡性能只有B200的30%,但是华为通过更多的卡数量,实现性能的反超。

matrix384的总性能比GB200 NVL72提升了70%,但是我们也要看到差距,华为384张卡性能比英伟达72张强了70%,单卡性能差距还是比较大的。而且matrix功耗也比nvl72要更高。

根据分析报告,一个满配的CloudMatrix 384系统功耗约为559 kW。相比之下,一个GB200 NVL72机柜的功耗约为145kW。即使考虑到Matrix384的加速器数量是NVL72的5.3倍(384 vs 72),其功耗也达到了后者的3.9倍

尽管CloudMatrix 384在BF16精度下提供了接近两倍于NVL72的总算力(300 PFLOPS vs 180 PFLOPS),但它是以巨大的功耗为代价的。有分析指出,与NVL72相比,CloudMatrix 384的每瓦性能(power-per-FLOP)要差2.5倍,每TB/s内存带宽的功耗也要高1.9倍。

不过需要指出的是,对华为来说,在先进工艺受限的情况下,首先要考虑的不是功耗问题,而是有无或者说算力够不够的问题。

华为还透露,公司将打造基于Ascend 950全球最强节点Atlas 950 SuperPoD(预计2026Q4)

节点拥有8192 NPU;

算力高达8 EFLOPS FP8;

内存容量1152 TB;

内存带宽高达16.3 PB/s

训练总吞吐4.91mn TPS

推理总吞吐19.6mn TPS

作为对比,英伟达计划于2027年发布的rubin ultraNVL576的fp8性能为5E(考虑到英伟达宣传的是稀疏化算力,稠密算力得除以2,也就是2.5E)

8192卡性能相当于英伟达576卡的3.2倍,依旧延续大力出奇迹的思路,单卡性能欠缺,就用多卡互联去弥补不足。(有一种观点认为英伟达其实只有144卡,一卡4die,所以是576)

 

除了950 superpod之外,华为还将打造基于Ascend 950DT / Ascend 960的Atlas 960 SuperPoD(预计2027Q4):

据介绍,这个节点拥有15488卡(NPU),算力高达30 EFLOPS FPB / 60 EFLOPS FP4,跨柜全光互联(互联带宽 34 PB/s)

华为还有更大胆的方案,即64个950superPoD/960superPoD互联,组成950supercluster/960supercluster。显卡数量来到819264=524288,1638464=1048576(考虑到冗余,华为标注的显卡数量为991232,即60.5×16384)

百万显卡集群,或许这是国内第一家?

四、不足之处

这次大会无疑为中国AI产业打了一针强心剂,但事业仍未成功,同志仍需努力。

当然这些不足之处,原因不在于华为自己。

第一,由于工艺的限制,单卡性能依旧和英伟达有较大的差距。2027年Q4发布的ascend960 fp8性能打平2022年发布的英伟达h100,2028Q4发布的ascend970 fp8性能接近2024年发布的英伟达b200。

第二,AI领域绕不开的cuda生态,虽然华为开源了CANN,但是短期内cuda生态依旧难以撼动。(参考摩尔线程s80,虽然理论性能相当于3060,但是买回家玩游戏体验会很差)

第三,hbm问题。目前hbm即将进入hbm4时代,三星海力士和镁光甚至在生产中引入euv光刻机!而这也是国产工艺所欠缺的,靠duv来SAQP,良率会下降,成本会提升,即便通过工艺优化,也难以超越euv。

第四,多卡互联问题。华为作为通讯老牌厂商,此前910b的互联带宽堪称耻辱,56GB/s的带宽,在产品手册里7卡总带宽,甚至有的场合写400Gb/s(注意大小写B),而英伟达H100是900GB/s,阉割版的H800也有400GB/s。

是新产品的互联带宽表现让人十分惊喜,这才有个通讯厂商的样子嘛!8192卡,带宽16.3PB/s;英伟达是576卡,1.5PB/s。

然而,业界是否感兴趣还有待观察。Nvidia 依靠其机架内部的 NVLink 连接以及整个数据中心的以太网或 InfiniBand 连接。AMD、博通和英特尔等其他公司正在推动 UALink 用于机舱间通信,以及超级以太网用于数据中心范围的连接。这两种技术都已标准化,并得到了众多公司的支持,从而实现了灵活性并降低了成本。

华为的UB mesh能不能推广,要看自己的超节点实际运用效果,否则难以说服其他厂商采用类似的互联方案。

最重要的是,竞争对手英伟达和博通没有停滞不前,他们的交换机和硅光技术依然处于世界先进水平。

 

最后的最后,我对华为乃至全国的AI持谨慎乐观的保守态度。不是我们不强,而是对手更强,绝对不能过分乐观。他们能招揽优秀人才,能够投入数十倍的资本,能够购买中国企业无法采购的先进硬件,之后的竞争,只会更加残酷。

上半年华为384超节点,通过5.3倍的显卡数量3.9倍功耗1.6倍单位算力成本5年1.9倍的电费,实现70%的性能提升。某种程度上说,在竞争中丢掉了先前的成本优势。短期内还可以维持下去,但是后面该如何应对?网友总调侃美国电力不足,无法撑得起AI的高能耗,殊不知通用电气的燃气轮机订单已经排到几年之后。殊不知谷歌为数据中心供电建设的460MW能源中心,只用了三个月!要知道华龙一号核电机组的装机容量也只有1200兆瓦,建设周期需要几年甚至更久。

8192卡的950集群,性能是英伟达Rubin Ultra NVL576的3.2倍,8000对600,显卡数量相差一个数量级,但性能提升却只有3.2倍……

但是有利于国产显卡的方面也很多:

首先是美国对华禁运,高性能计算卡基本上与大陆企业无缘,除非“特殊渠道”,但通过这种方法进入大陆的显卡数量远远无法满足国内厂商的需求

其次是政策导向,对数据中心的国产化比例提出要求

最后是国际局势,做好最坏打算,即彻底断链脱钩的风险。考虑到这一点,国产硬件是必须采购的。

 

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为 Ascend AI芯片 全连接大会 算力 HBM 集群 NVIDIA CUDA Huawei Ascend AI Chips Huawei Connect Computing Power HBM Clusters NVIDIA CUDA
相关文章