海光系统互联总线协议于北京正式发布,标志着海光生态策略向全栈协同迈进。继开放CPU内核后,此次互联总线的开放进一步延伸至GPU、DPU、OEM等产业链上下游伙伴,旨在解决AI大模型训练与推理对算力协同的更高要求。新发布的HSL协议能够实现CPU/GPU/NIC之间的高速互联,降低时延,简化编程,并支持全局地址空间。该协议的推出,有望在全国产化浪潮下,为海光CPU在智算服务器领域抢占市场份额,并带动相关产业链的发展。
💡 **海光互联总线协议开放,构建全栈协同生态**:海光此次全面开放系统互联总线协议,是其生态策略从开放CPU内核向全栈协同的重大转变。该协议的开放范围已覆盖GPU、DPU、OEM等产业链上下游,旨在打破壁垒,促进国产算力基础设施的统一化和协同化,为国产AI芯片与CPU的深度融合奠定基础。
🚀 **HSL协议赋能高效算力,应对AI新趋势**:新发布的HSL协议(Hygon System Interconnect)旨在实现CPU、GPU、NIC等组件之间的高速互联,有效提升通信速率,降低时延,并支持全局地址空间,从而解决AI大模型训练和推理(如PD分离集群推理)对算力协同提出的新挑战。通过HSL,海光有望在超节点和推理效率提升方面取得突破。
🤝 **多方厂商加入生态,加速国产CPU卡位**:寒武纪、昆仑芯、浪潮等超过10家主流厂商的加入,表明海光HSL协议得到了广泛认可。在国产化浪潮下,海光通过开放互联总线,有望在智算服务器领域抢占市场先机,推动“海光CPU+其他厂商GPU”方案的普及,并带动CPU在智算服务器销售的增长,为海光带来可观的增量市场空间。
📈 **国产GPU面临三大挑战,格局将逐步收敛**:国产GPU面临产能供给、超节点设计适配以及高精度计算(FP64)等关键挑战。随着AI进入推理时代,精度需求分化,竞争将更加激烈。预计未来3-5年内,国产GPU市场将从“一超多强”格局逐步收敛至3-5家头部玩家,最终形成更集中的市场格局。
💰 **生态建设与研发投入,驱动企业迈向平台化**:单颗GPU芯片的研发成本高昂,且需持续的生态建设和软件适配。企业若想在竞争中脱颖而出并实现研发正循环,需具备同时规划研发多代GPU的能力,并向平台化公司转型,补齐CPU、交换芯片、超节点等关键能力。收入达到百亿规模的企业将更有优势支撑这一过程。
2025-09-14 23:22 广东

事件:9月13日,“海光系统互联总线协议开放生态研讨会”于北京召开,深入解读海光系统互联总线协议,展示开放CPU在系统互联、应用适配及算力协同中的实践成果。- 继开放CPU内核能力后,海光CPU互联总线也走向全面开放,明显能看出海光生态策略更加趋于全栈协同。如果说开放CPU内核是为了消除国产CPU与AI芯片之间的壁垒,那么这次互联总线的开放范围已扩大到整个产业链上下游,包括GPU、DPU、OEM、IO、OS等链上伙伴。
- AI算力芯片国产替代至今,GPU一线二线厂商层出不穷,但与之搭配的CPU靠谁实现,至今仍未被认真探讨过。国产真正好用易用、生态完善的CPU,海光当属佼佼者。在如今算力基础设施全国产化浪潮下,海光基于现有的CPU优势,强势开放CPU互联总线,也意味着海光或将取得国产CPU生态卡位优势,后续可展望“海光CPU+其他厂商GPU”方案。
1、如何提升有效算力→超节点和推理提速- 算力趋势一:超节点例如NV72超节点(72GPU+36CPU),国内主流CPU仅2家(海光、鲲鹏)、GPU很多家,OEM需要统一标准来实现整个机柜的基础设施统一化。➡海光HSL应运而生- 算力趋势二:硬件资源不变,通过KV Cache和PD分离来提高推理效率但PD分离带来新问题(额外的通信开销、调度复杂度增加),需要统一总线、统一内存访问来解决。➡海光HSL应运而生2、HSL协议是什么?这是海光开放的总线协议,可以实现CPU/GPU/NIC等之间的高速互联,不仅可以让通信传输的速率更高,降低时延,减少协议转换开销,还可以通义全局地址空间和降低编程复杂度。它支持GPU之间的互联(海光自己还会搭配上H-switch芯片实现全互联)和GPU和CPU之间的互联,GPU和CPU之间通过HSL互联是海光的一大特色,实现这个需要参考海光提供的IP,需要GPU和服务器厂商等一同参与。海光会在25年Q4开放HSL 1.0的规范,26年Q1发布HSL IP和软硬件系统的参考设计。3、为什么需要新的总线协议?一开始GPU、CPU和NIC之间的互联需要通过PCIe协议,时延和速率无法达到AI大模型时代的大规模通信传输的要求(训练需要四种并行,通信开销越来越高,而且到了MoE模型时代,通信开销进一步加大、推理则由于Deepseek的引导进入了PD分离的集群推理时代),NV率先推出NV-LINK协议,先实现了GPU-GPU的直连,然后在24年也通过NVLink C2C实现了CPU与GPU之间的相较于PCIe协议更快的互联,这个产业趋势在友商和各AI芯片公司中已经开始。4、海光的HSL协议有什么特色?各AI芯片公司也有自己的GPU直连协议,各种XX-link,都希望实现相较于PCIe的更快的GPU互联,但海光在此之外还可以实现CPU与GPU的互联,代替PCIe协议,PCIe协议的速率是600ns,HSL为300ns,同时还支持缓存一致性,协议栈也更简单,只需要硬件设计的时候采用海光即将公开的IP,可能与之能匹配和竞争的只有华为的UB mesh协议。5、海光HSL能实现什么?有望带动CPU在智算服务器的销售、加速CPU进大厂。HSL协议有望带动海光CPU在智算服务器中的销售,海光即将推出海光4号...核心是抢占Intel和AMD的市场。6、这个带来的空间有多大?假设按照26年国内非华为的智算服务器800亿-1000亿计算,CPU占比5%,市场空间40-50亿,假设按照27年非华为的智算服务器1500亿计算,带来的CPU市场空间75亿,24年海光整体的收入约90亿,增量空间还是很大的。当然海光自己基于HSL协议的超节点也能实现更好的性能,也能带动DCU的销售。7、主流厂商均选择加入海光HSL生态包括寒武纪、昆仑芯、沐熙、摩尔线程、还有浪潮、无锡众芯微(拥有serdes和智能网卡产品)等超过10家企业来到现场共同发布这一总线协议,我们这认为在国产化趋势的浪潮下、海光HSL协议包括HSL-I的拓展有望帮助海光进一步实现智算服务器中的CPU国产化、加速海光国产CPU未来的增长8、本周发生的事情已经鲜明的表明:AI从训练时代进入推理时代- 英伟达推出专门作为推理的Rubin CPX,支持FP4,1亿美元的算力投入撬动50亿美元的token收入,这个成本收益比惊人。- 从Oracle展示出了海外大厂从自建算力更多的会去外租算力的趋势。也同样说明了推理时代的到来,因为外租算力可以提供更多的算力弹性以应对推理需求。Oracle模式:自己买卡+集群+软件框架。- 海光刚刚发了基于软件层面的CPU互联总线,其实可以做卡与卡之间的互联,说明海光的互联能力有明显提升。腾讯下单2w海光是代采购,也下单了2w昆仑芯,寒武纪等待690量产回片。9、国产GPU的三大难关①国产FAB产能供给保障。这将是2026年国产GPU最大的难关,不缺需求,独缺供给。N+2产能的分配将直接决定GPU市场梯队,三家H GPU将凭此拉开与第二梯队的规模差距。②超节点。超节点以缓解网络拥塞是大势所趋,海外8卡服务器占比急剧下降。国产GPU大都是单产品公司,无CPU、Switch、机柜组网能力。如在超节点设计上无法完成方案适配,将面临掉队风险。③精度。FP64仍是科学计算、工业制造领域所需要的,具备高精度FP64能力的企业极少。而大语言模型追求低精度以提升效率,尤其Rubin CPX推出后,正式步入PD分离阶段,Prefill阶段采用FP4精度以降低等待时间。在精度设计上保持前瞻的GPU企业,将迎来竞争优势。国产产能、超节点、精度,三大难关等着所有的GPU企业,GPU格局在2025以前是一超多强,在2025-2027预计将留存3-5家头部玩家,2027年后格局将进一步收敛。10、国产GPU格局将逐步收敛单颗GPU芯片研发成本至少5亿+(含IP、光罩、人员工资),还不考虑软件适配、生态建设等成本。每两年开发一颗GPU的团队,盈亏平衡点约10-15亿收入。单一GPU的开发团队,往往面临研发成功即落后的局面;因开发与适配周期过长,在参数定义阶段锚定头部先进产品,2年后推向市场已经被头部迭代掉。保持超前迭代的企业,至少需要三颗GPU同时规划研发,需50亿收入以支撑研发。而如若希望从单GPU公司迈向平台性公司,参考NV,补齐CPU、Switch、超节点、机柜等能力,至少需要100亿收入规模支撑研发。收入过百亿的GPU企业将率先迎来研发正循环。
![]()
![]()
![]()
阅读原文
跳转微信打开