海光开放CPU互联总线，助力国产算力生态发展

2025-09-14 23:22 广东

事件：9月13日，“海光系统互联总线协议开放生态研讨会”于北京召开，深入解读海光系统互联总线协议，展示开放CPU在系统互联、应用适配及算力协同中的实践成果。

- 继开放CPU内核能力后，海光CPU互联总线也走向全面开放，明显能看出海光生态策略更加趋于全栈协同。如果说开放CPU内核是为了消除国产CPU与AI芯片之间的壁垒，那么这次互联总线的开放范围已扩大到整个产业链上下游，包括GPU、DPU、OEM、IO、OS等链上伙伴。

- AI算力芯片国产替代至今，GPU一线二线厂商层出不穷，但与之搭配的CPU靠谁实现，至今仍未被认真探讨过。国产真正好用易用、生态完善的CPU，海光当属佼佼者。在如今算力基础设施全国产化浪潮下，海光基于现有的CPU优势，强势开放CPU互联总线，也意味着海光或将取得国产CPU生态卡位优势，后续可展望“海光CPU+其他厂商GPU”方案。

1、如何提升有效算力→超节点和推理提速

- 算力趋势一：超节点

例如NV72超节点（72GPU+36CPU），国内主流CPU仅2家（海光、鲲鹏）、GPU很多家，OEM需要统一标准来实现整个机柜的基础设施统一化。

➡海光HSL应运而生

- 算力趋势二：硬件资源不变，通过KV Cache和PD分离来提高推理效率

但PD分离带来新问题（额外的通信开销、调度复杂度增加），需要统一总线、统一内存访问来解决。

➡海光HSL应运而生

2、HSL协议是什么？

这是海光开放的总线协议，可以实现CPU/GPU/NIC等之间的高速互联，不仅可以让通信传输的速率更高，降低时延，减少协议转换开销，还可以通义全局地址空间和降低编程复杂度。它支持GPU之间的互联（海光自己还会搭配上H-switch芯片实现全互联）和GPU和CPU之间的互联，GPU和CPU之间通过HSL互联是海光的一大特色，实现这个需要参考海光提供的IP，需要GPU和服务器厂商等一同参与。海光会在25年Q4开放HSL 1.0的规范，26年Q1发布HSL IP和软硬件系统的参考设计。

3、为什么需要新的总线协议？

一开始GPU、CPU和NIC之间的互联需要通过PCIe协议，时延和速率无法达到AI大模型时代的大规模通信传输的要求（训练需要四种并行，通信开销越来越高，而且到了MoE模型时代，通信开销进一步加大、推理则由于Deepseek的引导进入了PD分离的集群推理时代），NV率先推出NV-LINK协议，先实现了GPU-GPU的直连，然后在24年也通过NVLink C2C实现了CPU与GPU之间的相较于PCIe协议更快的互联，这个产业趋势在友商和各AI芯片公司中已经开始。

4、海光的HSL协议有什么特色？

各AI芯片公司也有自己的GPU直连协议，各种XX-link，都希望实现相较于PCIe的更快的GPU互联，但海光在此之外还可以实现CPU与GPU的互联，代替PCIe协议，PCIe协议的速率是600ns，HSL为300ns，同时还支持缓存一致性，协议栈也更简单，只需要硬件设计的时候采用海光即将公开的IP，可能与之能匹配和竞争的只有华为的UB mesh协议。

5、海光HSL能实现什么？

有望带动CPU在智算服务器的销售、加速CPU进大厂。

HSL协议有望带动海光CPU在智算服务器中的销售，海光即将推出海光4号...核心是抢占Intel和AMD的市场。

6、这个带来的空间有多大？

假设按照26年国内非华为的智算服务器800亿-1000亿计算，CPU占比5%，市场空间40-50亿，假设按照27年非华为的智算服务器1500亿计算，带来的CPU市场空间75亿，24年海光整体的收入约90亿，增量空间还是很大的。

当然海光自己基于HSL协议的超节点也能实现更好的性能，也能带动DCU的销售。

7、主流厂商均选择加入海光HSL生态

包括寒武纪、昆仑芯、沐熙、摩尔线程、还有浪潮、无锡众芯微（拥有serdes和智能网卡产品）等超过10家企业来到现场共同发布这一总线协议，我们这认为在国产化趋势的浪潮下、海光HSL协议包括HSL-I的拓展有望帮助海光进一步实现智算服务器中的CPU国产化、加速海光国产CPU未来的增长

8、本周发生的事情已经鲜明的表明：AI从训练时代进入推理时代

- 英伟达推出专门作为推理的Rubin CPX，支持FP4，1亿美元的算力投入撬动50亿美元的token收入，这个成本收益比惊人。

- 从Oracle展示出了海外大厂从自建算力更多的会去外租算力的趋势。也同样说明了推理时代的到来，因为外租算力可以提供更多的算力弹性以应对推理需求。Oracle模式：自己买卡+集群+软件框架。

- 海光刚刚发了基于软件层面的CPU互联总线，其实可以做卡与卡之间的互联，说明海光的互联能力有明显提升。腾讯下单2w海光是代采购，也下单了2w昆仑芯，寒武纪等待690量产回片。

9、国产GPU的三大难关

①国产FAB产能供给保障。这将是2026年国产GPU最大的难关，不缺需求，独缺供给。N+2产能的分配将直接决定GPU市场梯队，三家H GPU将凭此拉开与第二梯队的规模差距。

②超节点。超节点以缓解网络拥塞是大势所趋，海外8卡服务器占比急剧下降。国产GPU大都是单产品公司，无CPU、Switch、机柜组网能力。如在超节点设计上无法完成方案适配，将面临掉队风险。

③精度。FP64仍是科学计算、工业制造领域所需要的，具备高精度FP64能力的企业极少。而大语言模型追求低精度以提升效率，尤其Rubin CPX推出后，正式步入PD分离阶段，Prefill阶段采用FP4精度以降低等待时间。在精度设计上保持前瞻的GPU企业，将迎来竞争优势。

国产产能、超节点、精度，三大难关等着所有的GPU企业，GPU格局在2025以前是一超多强，在2025-2027预计将留存3-5家头部玩家，2027年后格局将进一步收敛。

10、国产GPU格局将逐步收敛

单颗GPU芯片研发成本至少5亿+（含IP、光罩、人员工资），还不考虑软件适配、生态建设等成本。每两年开发一颗GPU的团队，盈亏平衡点约10-15亿收入。单一GPU的开发团队，往往面临研发成功即落后的局面；因开发与适配周期过长，在参数定义阶段锚定头部先进产品，2年后推向市场已经被头部迭代掉。保持超前迭代的企业，至少需要三颗GPU同时规划研发，需50亿收入以支撑研发。

而如若希望从单GPU公司迈向平台性公司，参考NV，补齐CPU、Switch、超节点、机柜等能力，至少需要100亿收入规模支撑研发。

收入过百亿的GPU企业将率先迎来研发正循环。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签