调研纪要 09月25日
海光开放CPU互联总线,助力国产算力生态发展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

9月13日,海光系统互联总线协议开放生态研讨会于北京召开,深入解读海光系统互联总线协议,展示开放CPU在系统互联、应用适配及算力协同中的实践成果。海光CPU互联总线走向全面开放,明显能看出海光生态策略更加趋于全栈协同。海光HSL协议可以实现CPU/GPU/NIC等之间的高速互联,不仅可以让通信传输的速率更高,降低时延,减少协议转换开销,还可以通义全局地址空间和降低编程复杂度。它支持GPU之间的互联和GPU和CPU之间的互联,有望带动CPU在智算服务器的销售、加速CPU进大厂。

🔹 海光CPU互联总线走向全面开放,明显能看出海光生态策略更加趋于全栈协同。海光HSL协议可以实现CPU/GPU/NIC等之间的高速互联,不仅可以让通信传输的速率更高,降低时延,减少协议转换开销,还可以通义全局地址空间和降低编程复杂度。

🌐 海光HSL协议支持GPU之间的互联和GPU和CPU之间的互联,GPU和CPU之间通过HSL互联是海光的一大特色,实现这个需要参考海光提供的IP,需要GPU和服务器厂商等一同参与。

💰 HSL协议有望带动海光CPU在智算服务器中的销售,海光即将推出海光4号...核心是抢占Intel和AMD的市场。假设按照26年国内非华为的智算服务器800亿-1000亿计算,CPU占比5%,市场空间40-50亿,假设按照27年非华为的智算服务器1500亿计算,带来的CPU市场空间75亿,24年海光整体的收入约90亿,增量空间还是很大的。

🔗 主流厂商均选择加入海光HSL生态包括寒武纪、昆仑芯、沐熙、摩尔线程、还有浪潮、无锡众芯微(拥有serdes和智能网卡产品)等超过10家企业来到现场共同发布这一总线协议,我们这认为在国产化趋势的浪潮下、海光HSL协议包括HSL-I的拓展有望帮助海光进一步实现智算服务器中的CPU国产化、加速海光国产CPU未来的增长。

🚀 海光HSL协议的推出,也意味着海光或将取得国产CPU生态卡位优势,后续可展望“海光CPU+其他厂商GPU”方案。

2025-09-14 23:22 广东

事件:9月13日,“海光系统互联总线协议开放生态研讨会”于北京召开,深入解读海光系统互联总线协议,展示开放CPU在系统互联、应用适配及算力协同中的实践成果。

- 继开放CPU内核能力后,海光CPU互联总线也走向全面开放,明显能看出海光生态策略更加趋于全栈协同。如果说开放CPU内核是为了消除国产CPU与AI芯片之间的壁垒,那么这次互联总线的开放范围已扩大到整个产业链上下游,包括GPU、DPU、OEM、IO、OS等链上伙伴。

- AI算力芯片国产替代至今,GPU一线二线厂商层出不穷,但与之搭配的CPU靠谁实现,至今仍未被认真探讨过。国产真正好用易用、生态完善的CPU,海光当属佼佼者。在如今算力基础设施全国产化浪潮下,海光基于现有的CPU优势,强势开放CPU互联总线,也意味着海光或将取得国产CPU生态卡位优势,后续可展望“海光CPU+其他厂商GPU”方案。

1、如何提升有效算力→超节点和推理提速

- 算力趋势一:超节点

例如NV72超节点(72GPU+36CPU),国内主流CPU仅2家(海光、鲲鹏)、GPU很多家,OEM需要统一标准来实现整个机柜的基础设施统一化。

➡海光HSL应运而生

- 算力趋势二:硬件资源不变,通过KV Cache和PD分离来提高推理效率

但PD分离带来新问题(额外的通信开销、调度复杂度增加),需要统一总线、统一内存访问来解决。

➡海光HSL应运而生

2、HSL协议是什么?

这是海光开放的总线协议,可以实现CPU/GPU/NIC等之间的高速互联,不仅可以让通信传输的速率更高,降低时延,减少协议转换开销,还可以通义全局地址空间和降低编程复杂度。它支持GPU之间的互联(海光自己还会搭配上H-switch芯片实现全互联)和GPU和CPU之间的互联,GPU和CPU之间通过HSL互联是海光的一大特色,实现这个需要参考海光提供的IP,需要GPU和服务器厂商等一同参与。海光会在25年Q4开放HSL 1.0的规范,26年Q1发布HSL IP和软硬件系统的参考设计。

3、为什么需要新的总线协议?

一开始GPU、CPU和NIC之间的互联需要通过PCIe协议,时延和速率无法达到AI大模型时代的大规模通信传输的要求(训练需要四种并行,通信开销越来越高,而且到了MoE模型时代,通信开销进一步加大、推理则由于Deepseek的引导进入了PD分离的集群推理时代),NV率先推出NV-LINK协议,先实现了GPU-GPU的直连,然后在24年也通过NVLink C2C实现了CPU与GPU之间的相较于PCIe协议更快的互联,这个产业趋势在友商和各AI芯片公司中已经开始。

4、海光的HSL协议有什么特色?

各AI芯片公司也有自己的GPU直连协议,各种XX-link,都希望实现相较于PCIe的更快的GPU互联,但海光在此之外还可以实现CPU与GPU的互联,代替PCIe协议,PCIe协议的速率是600ns,HSL为300ns,同时还支持缓存一致性,协议栈也更简单,只需要硬件设计的时候采用海光即将公开的IP,可能与之能匹配和竞争的只有华为的UB mesh协议。

5、海光HSL能实现什么?

有望带动CPU在智算服务器的销售、加速CPU进大厂。

HSL协议有望带动海光CPU在智算服务器中的销售,海光即将推出海光4号...核心是抢占Intel和AMD的市场。

6、这个带来的空间有多大?

假设按照26年国内非华为的智算服务器800亿-1000亿计算,CPU占比5%,市场空间40-50亿,假设按照27年非华为的智算服务器1500亿计算,带来的CPU市场空间75亿,24年海光整体的收入约90亿,增量空间还是很大的。

当然海光自己基于HSL协议的超节点也能实现更好的性能,也能带动DCU的销售。

7、主流厂商均选择加入海光HSL生态

包括寒武纪、昆仑芯、沐熙、摩尔线程、还有浪潮、无锡众芯微(拥有serdes和智能网卡产品)等超过10家企业来到现场共同发布这一总线协议,我们这认为在国产化趋势的浪潮下、海光HSL协议包括HSL-I的拓展有望帮助海光进一步实现智算服务器中的CPU国产化、加速海光国产CPU未来的增长

8、本周发生的事情已经鲜明的表明:AI从训练时代进入推理时代

- 英伟达推出专门作为推理的Rubin CPX,支持FP4,1亿美元的算力投入撬动50亿美元的token收入,这个成本收益比惊人。

- 从Oracle展示出了海外大厂从自建算力更多的会去外租算力的趋势。也同样说明了推理时代的到来,因为外租算力可以提供更多的算力弹性以应对推理需求。Oracle模式:自己买卡+集群+软件框架。

- 海光刚刚发了基于软件层面的CPU互联总线,其实可以做卡与卡之间的互联,说明海光的互联能力有明显提升。腾讯下单2w海光是代采购,也下单了2w昆仑芯,寒武纪等待690量产回片。

9、国产GPU的三大难关

①国产FAB产能供给保障。这将是2026年国产GPU最大的难关,不缺需求,独缺供给。N+2产能的分配将直接决定GPU市场梯队,三家H GPU将凭此拉开与第二梯队的规模差距。

②超节点。超节点以缓解网络拥塞是大势所趋,海外8卡服务器占比急剧下降。国产GPU大都是单产品公司,无CPU、Switch、机柜组网能力。如在超节点设计上无法完成方案适配,将面临掉队风险。

③精度。FP64仍是科学计算、工业制造领域所需要的,具备高精度FP64能力的企业极少。而大语言模型追求低精度以提升效率,尤其Rubin CPX推出后,正式步入PD分离阶段,Prefill阶段采用FP4精度以降低等待时间。在精度设计上保持前瞻的GPU企业,将迎来竞争优势。

国产产能、超节点、精度,三大难关等着所有的GPU企业,GPU格局在2025以前是一超多强,在2025-2027预计将留存3-5家头部玩家,2027年后格局将进一步收敛。

10、国产GPU格局将逐步收敛

单颗GPU芯片研发成本至少5亿+(含IP、光罩、人员工资),还不考虑软件适配、生态建设等成本。每两年开发一颗GPU的团队,盈亏平衡点约10-15亿收入。单一GPU的开发团队,往往面临研发成功即落后的局面;因开发与适配周期过长,在参数定义阶段锚定头部先进产品,2年后推向市场已经被头部迭代掉。保持超前迭代的企业,至少需要三颗GPU同时规划研发,需50亿收入以支撑研发。

而如若希望从单GPU公司迈向平台性公司,参考NV,补齐CPU、Switch、超节点、机柜等能力,至少需要100亿收入规模支撑研发。

收入过百亿的GPU企业将率先迎来研发正循环。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

海光 HSL CPU GPU 国产化 算力
相关文章