特大号 09月12日
算力江湖新势力:超智融合崛起
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

算力江湖存在两大主流门派:高性能计算派和通用计算派。其中,超算和智算作为绝世高手,分别擅长高精度和低精度计算。然而,随着客户需求的日益复杂,两者固守本门武功已无法满足需求。超智融合新派的崛起,旨在通过从底到顶的系统重构,实现超算和智算的全方面融合,解决精度、硬件、软件、能耗和稳定性等难题。曙光超智融合解决方案Nebula 800,通过贯通算力全栈,实现了存算传一体高效协同,并提供了全生命周期服务,为客户带来融合之利。

🔹超算与智算作为算力江湖的两大高手,分别擅长高精度和低精度计算,但无法满足日益复杂的客户需求。

🔹超智融合新派的崛起,旨在通过系统重构,实现超算和智算的全方面融合,解决精度、硬件、软件、能耗和稳定性等难题。

🔹曙光超智融合解决方案Nebula 800,通过贯通算力全栈,实现存算传一体高效协同,并提供全生命周期服务,为客户带来融合之利。

🔹超智融合不仅能为AI所用,也能由AI驱动,最终迈向更高境界—内生融合。

🔹曙光正牵头参与编写国内首部行业标准《超智融合集群能力要求》,联合多方力量共筑新生态,推动超智融合一统高端算力江湖。

原创 特大妹 2025-08-15 16:42 北京

.

话说算力江湖,有两大主流门派

高性能计算派,位列武林之巅

通用计算派,遍布市井四方

而在高性能计算派中

有两位绝世高手

一位叫「超算」一位叫「智算

超算,德高望重

科学严谨,高精度要求高

智算,后起之秀

专注学习,主打低精度

两位高手

一重【算力之巅】,一走【算法之锋】

各有所长,共掌高算江湖半壁江山

怎料,AI搅动天下风云突变

客户的需求,越发复杂

有“豪门”客户贴出招贤榜

我既要做AI大模型,还要跑科学仿真,既要算得快,还要算得准。

这招贤榜,智算看了没敢接

它虽然算得快,但多是低精度招式

无法满足科学仿真的严谨要求

另一边,超算看着也皱眉头

它虽然高精度,算得准

但训练AI大模型成本高、不划算

性价比上不去,只好放弃

放弃一次不要紧,麻烦的是

江湖上这种「招贤榜」越来越多

多模态大模型、AI for Science、物理AI、工业仿真AI…

偏偏个个都难搞

只可叹,两大高手长期以来

固守本门武功,鲜有交流合作

更不用说联手出击、共克难题

然而,门户之见挡不住江湖大势

一场算力内功的重构势在必行

忽一日,两位高手相逢燕山之巅

灵光乍现

“你有深算之力,我有智能之法,何不联手闯荡江湖”

于是江湖诞生新流派:超智融合

新派初成:融合难于上青天

超智融合

并非简单将“超算+智算”强行拼接

而是一场从底到顶、由表及里的系统重构

要从芯片到计算、从存储到网络、

从调度到运维、再到平台与应用

全线打通,实现全方位融合

数据融合丨算法融合丨业务融合丨设施融合

这条融合之路

需要翻越六道险关

一险|精度难全,架构割裂

现在客户需要1套融合算力系统

而不是N套,来满足多样化算力需求

科学计算要FP64,AI训练用FP32/BF16

推理又追求INT8/INT4极致压缩

不同精度对处理器的要求不同

CPU、GPU都做不到“一芯通吃”

想融合它们,既要硬件异构协同

又要打通软件系统全精度调度链

这,正是超智融合面临的首要险关

二险|硬件失衡,强中拖弱

融合系统想要强悍

必须做到几大核心硬件高度协同

现实是它们各个功法不一,快慢不同

丨计算端:GPU飞天遁地,CPU还在原地修行

丨存储端:Cache如疾风,NVMe、HDD却慢如蜗行

丨通信端:专用总线、PCIe、IB、RoCE各怀心事,配合失调

三险|软件混乱,各自为战

如今的算力江湖

软件生态山头林立,碎片化严重

四险|阵法更新,算法难契

过去“阵法”修炼并行之术

多是张量并行、数据并行

当今大模型训练之道愈发深奥

流水线并行、专家并行纷纷登场

需要与分布式算法高度匹配

五险丨能耗如山,电力告急

修炼AI神功,动辄万卡集群

功耗从千瓦跃至兆瓦

未来甚至飙到数吉瓦

此乃真正的算力之困,能耗之险

六险|系统不稳,修行易断

如今大模型训练,往往持续数月

若中途宕机,Checkpoint失败,功亏一篑

系统稳定性,已成破局之关键

六重险关横在面前

超算与智算始终无法突破

谁能横扫六险,开山立派?

两位高手想到一位绝世宗师

此人低调内敛,却锋芒内藏

早年便打通超算、智算两脉内功

在科研工业气象等实战中

斩六险、破重围

这位绝世宗师,便是中科曙光

曙光一出山

就拿出秘籍《超智融合六脉神剑》

即,曙光超智融合解决方案

以此秘籍为筑根基

曙光构建了

首个行业标准化的超智融合算力平台

Nebula 800贯通算力全栈四大层

资源层丨平台层丨服务层丨应用层

其中,曙光深度融合底部三层

资源→平台→服务,层层贯通

真正做到「融合有术,算力无界」

具体来看

Nebula 800如何解六困、破六难?

一破异构架构之险

主流架构,算力精度全面

曙光不走偏锋,踏的是主流正道

坚持x86 CPU + GPGPU技术路线

既能兼容当前国际主流AI/HPC生态

又能承接「国产化」演进趋势

一套系统双精、单精、半精、整型、混合精度俱全

二破硬件效率之困

存、算、传紧耦合协同设计

为了提高融合效率

曙光下重手修炼硬件协同「心法」

让每个硬件都能合纵连横、出招有力

最终实现“存算传”一体高效协同

真正做到“组件虽异,协力同心”

数据I/O最快加速20倍,GPU提效30-40%

①GPU为中心,采用GPU直连架构,减少中间链路损耗

②层次化高速互联,在芯片内、集群间都构建高带宽互联结构

③软硬兼修,从硬件到协议再到软件,层层打通

三破软件生态之裂

软件全栈完备,大模型适配

曙光以算法-硬件协同设计为核心

构建起一整套超智算全栈基础软件

从底层的设备驱动、运行时、编译器

到中间的数学库、通信库、算子库

再到上层编程接口、工具链,一应俱全

更联合20+家AI门派深度打通

适配30+主流大模型

算法与算力高度适配

软硬贯通,一气呵成

四破并行之阵

融合管理调度大模型

面对集群资源调度和运维管理

曙光研发了管理调度大模型

让资源调度不再靠拍脑袋

有据可循,智者当先

哪些资源适合哪个任务;哪些时段高峰,哪些地方堵点;如何削峰填谷,实现资源预判;在任务运行时,还能动态重排座次,提升并行效率;同时不断做智能分析与优化,把运行瓶颈揪出来。

五破电力能耗之限

液冷神功,节能术深

Nebula 800修得曙光独门“功耗轻功”

外修液冷玄法,内练能源动态优化之术

实现高密部署、精准控电

能耗削减高达30%,PUE低至1.04

堪称现代算力江湖中的“冰心诀”再现

六破稳定之痛

全生命周期服务

曙光纵横高性能算力江湖30载

淬炼二十余座超大规模算力中心

精于实战,妙于部署

从安装调试,到监测运维,再到故障闭环

可视化运维,瓶颈功耗,一目了然

任务自追踪,失败可重试,续算免返工

为广大用户奉上

可定制、一站式、全程相伴的顶级专业服务

客户口碑为佐证,江湖实战炼真章

曙光Nebula 800以一套平台

打通超智融合“任督二脉”相关技术

已在新材料、气象、能源、制造、生物医药、教育科研等三十余“江湖豪门”中遍地开花

超智融合,大势所趋

超智融合,既能为AI所用(for AI)

亦能由AI驱动(by AI)

最终,它将迈向更高境界—内生融合

为推动超智融合新派崛起,曙光正在持续努力

曙光牵头参与编写国内首部行业标准《超智融合集群能力要求》,联合中国信息通信研究院、中国智能计算产业联盟等,重点解决跨厂商设备兼容性差、集群协同效率低等痛点。

并成功当选

ICCPA“超智融合”工作组组长

定标准、掌航向,率四十家名门共筑新生态

让超智融合一统高端算力江湖

多精好省,让客户尽享融合之利

超智同启云霄震,六剑纵横舞巅峰!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

超智融合 算力江湖 曙光 Nebula 800 高性能计算 AI
相关文章