华为算力三大进展公布

2025-09-18 18:40 广东

事件：9月18日，华为全联接大会上，徐直军公布了华为算力三大进展，给市场放了个重磅蓝图（结合阿里昨天表现，国芯加速崛起）

1、华为全连接大会的三个重点

1）预计2026年第一季度推出昇腾950PR，第四季度推出昇腾950DT，2027年第四季度推出昇腾960芯片，2028年第四季度推出昇腾970。

2）超节点方面，华为开创的灵衢新型互联协议，支撑万卡超节点架构，灵衢2.0技术规范现已开放，产业界可在此基础上研发相关产品和部件。同时，华为正在开发Atlas 950 SuperCluster、Atlas 960 SuperCluster等大规模超节点新品，分别支持8192卡、15488卡，均是跨柜全光互联。

3）华为更新新型磁电存储技术最新进展。

2、重点关注三个信号

1）华为将以基本每年迭代一次的节奏，持续推进昇腾的演进，有望持续引领国内AI芯片，构建一个持续迭代的国产算力底座，并与英伟达、AMD等海外龙头迭代速度看齐。

2）与传统以单卡极致性能为核心的思路不同，华为转向从系统协同层面解决问题，通过高速互联总线将多个节点连接，尽管单卡性能不如英伟达，但集群能力显著提升带宽、降低时延、适配万卡训练场景。

3）磁电存储结合SSD与磁带优势，分层存储活跃与非活跃数据，降低成本并提升效率。技术路径分高速缓存和长期存储层，实现毫秒级响应。优势包括能效降低90%、性能提升2.5倍、寿命长。华为将推出磁电存储产品，与斯迪克合作开发AI SSD，推动国产替代生态。应用场景覆盖AI训练与推理，市场潜力大。

3、昇腾AI芯片未来三年规划

- Ascend 910C：2025 年 Q1，目前在售

- Ascend 950PR：2026 年 Q1，1PFLOPS FP8算力，互联带宽2TB/s，显存128GB，支持【华为自研HBM】

- Ascend 950DT：2026 年 Q4，同上，显存提升至144GB

- Ascend 960：2027 年 Q4，算力、显存较上一代翻倍

- Ascend 970：2028 年 Q4，算力、显存较上一代再翻倍

整体演进节奏：以“几乎一年一代、算力翻倍”的速度，向支持更多数据格式、更高带宽等方向持续演进。

4、910C vs 950PR

1）算力：800T FP16 vs 1P FP8/2P FP4，新增FP8、FP4算力类型；

2）HBM：128GB，3.2TB/s vs 144GB，4TB/s；

3）互联带宽：784 GB/s vs 2TB/s。

- 超节点方案是核心：2026年华为将推出基于Ascend 950全球最强节点Atlas 950 SuperPoD，拥有8192 颗NPU，FP8算力高达8 EFLOPS。2027年华为将推出Ascend 950DT / Ascend 960的Atlas 960 SuperPoD，拥有15488颗NPU，FP8算力高达30 EFLOPS。

- 超节点成为AI基础设施建设新常态：目前Cloud Matrix 384超节点累计部署300+套，服务20+客户。Atlas 950 SuperPoD，算力规模8192卡，预计于2025年Q4上市。新一代产品Atlas 960 SuperPoD ，算力规模15488卡，预计2027年Q4上市。

5、950PR重点升级互联带宽，提升集群和训练能力，片间互联为算力芯片通胀环节，价值量提升最大——

1）连接器：华丰科技（背板互联一供）、意华股份；

2）PCB：深南电路（当前昇腾PCB一供）、方正科技、博敏电子（新晋供应商，产能/关系优势）；

3）CCL：南亚新材（当前CCL份额领先）、华正新材；

4）光模块：华工科技。

6、超节点研讨会梳理

昨天全球AI芯片峰会于上海举办，机构主持了超节点与智算集群研讨会，研讨会核心内容汇报如下：

1）何谓超节点：

- 超节点：从单卡到机柜内多卡（64、72、384）的全互联互通，从而大幅提升单节点计算效能，Scale-Up网络可实现GPU间高速互连，支持跨设备内存直接读写，当Scale up形成产品化形态时，即为超节点。

- 核心矛盾：前期市场更多关注芯片算力，但伴随Scale up产业趋势崛起，超节点内部的互联能力成为重中之重。

2）超节点：强者的标志、更是龙头的护城河

超节点本身没有统一标准，通过硬件层全互联架构、资源层内存池化、软件层统一调度实现，因而对厂商要求极高，典型案例有华为CloudMatrix 384、中兴通讯、海光HSL等

- 华为CloudMatrix 384：由384张昇腾910C NPU、192个鲲鹏CPU，卡组成的统一算力集群。通过超高速低延迟统一总线（UB）网络互联，实现计算、内存和网络资源的动态池化与统一访问。

- 中兴通讯：基于自研AI交换芯片的超节点方案，内置16个计算节点和8个交换节点，GPU通信带宽可达400GB/s至1.6T/s，能够适配英伟达和国内大多数GPU企业的AI加速卡。

- 海光信息：发布CPU-GPU直连技术HSL，HSL总线具备高带宽、低延迟特性，支持全局地址空间与一致性，延迟较传统PCIe降低约50%，并可通过Switch实现节点内及跨节点扩展，同时联合寒武纪、昆仑芯、沐曦等10余家共建国产AI智算生态。

此外寒武纪预计将于明年重磅推出机柜方案，当下国产算力龙头陆续发布超节点，加速追赶脚步从未停歇，高度重视国产算力。

更多超节点解读及跟踪：

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签