IT之家 10月14日 19:54
中国移动智算万卡池实现长周期训练稳定运行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国移动近期在长周期训练场景下成功实现了智算万卡池的持续稳定运行,训练稳定性达到行业领先水平。这标志着中国在超大规模智算集群管控领域取得重要进展,有效解决了算力集群调度、高可靠通信和故障智能诊断与快速自愈等业界难题。面对大模型参数规模向万亿级升级带来的挑战,中国移动通过主导研发全调度以太网(GSE)技术体系,创新慢卡慢网络风险识别、断点续训和AI运维智能体等新技术,显著提升了智算基础设施的运行效率和稳定性,为AI技术工业化量产奠定基础。

🌟 **突破性训练稳定性**:中国移动成功实现智算万卡池在长周期训练场景下的持续稳定运行,训练稳定性达到行业领先水平,解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等关键技术难题,为AI技术的工业化量产奠定了坚实基础。

💡 **关键技术创新**:通过主导研发全调度以太网(GSE)技术体系,中国移动创新了慢卡慢网络风险识别技术,实现了典型场景故障的全部感知和诊断准确率的提升;研发了断点续训机制,能够实现故障节点自动隔离后训练状态的分钟级回滚,大幅降低了硬件故障导致的断训量。

🚀 **AI运维效率提升**:引入AI运维智能体,通过多层架构日志分析系统,实现了分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处理时长从数天级缩短至分钟级,极大提升了智算基础设施的运维效率和响应速度。

📈 **赋能前沿领域发展**:长稳运行能力将大模型训练周期缩短近三分之一,资源利用率接近100%,能够有力支撑自动驾驶、生物医药、新材料研发等前沿领域的技术进步,加速AI技术的落地应用。

IT之家 10 月 14 日消息,据人民邮电报今日报道,中国移动近期实现了智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,标志着我国在超大规模智算集群管控领域已具备领先水平,解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。

据介绍,人工智能技术正迎来爆发式的发展,大模型参数规模正向万亿级升级,因此智算基础设施的算力密度、稳定性和协同效率面临挑战,万卡级规模协同训练场景是全球普遍面临智算集群稳定性问题。

中国移动基于哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI 运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术难题。在关键技术突破层面,团队重点攻关三大核心难题:

    创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率

    研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降 50%

    引入 AI 运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖 25 类软硬件故障解决方案,将故障处理时长从数天级降至分钟级

IT之家从人民邮电报报道获悉,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近 100%,为 AI 技术工业化量产奠定基础,可支撑自动驾驶、生物医药、新材料研发等前沿领域技术进步。此外,中国移动还在黑龙江、广东打造了智算运维样板间。

值得一提的是,在今年 10 月 11 日的 2025 中国移动全球合作伙伴大会主论坛上,中国移动宣布升级“AI+”行动计划,明确到 2028 年底,中国移动将持续加大对人工智能领域的投入力度,总体投入翻一番,建成国内规模最大、技术领先的智算基础设施,探索十万卡智算集群建设,全国产智能算力规模突破 100 EFLOPS。

相关阅读:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

中国移动 智算 AI 大模型 集群管理 China Mobile Intelligent Computing AI Large Models Cluster Management
相关文章