dbaplus社群 10月09日 08:48
AIOps保障大模型训练稳定性
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着大模型训练规模扩大,基础设施稳定性和运维效率面临挑战。传统的运维手段难以应对训练过程中的性能波动和隐性故障。蚂蚁集团AIOps专家将分享如何利用AIOps技术保障大规模模型训练的稳定性,推动运维从被动响应走向主动优化,实现全网自治。

🔍 AIOps技术在大模型训练场景的应用,旨在解决传统运维手段难以应对的复杂异构计算环境和漫长的训练周期带来的稳定性挑战。

📈 通过AIOps,海量运维数据得以实时洞察和自动分析,生成精准的决策建议,推动运维从被动响应走向主动优化,提升运维效率。

🌐 蚂蚁集团超级计算技术部AIOps专家汪周飞将分享AIOps在大模型训练稳定性保障和智算资源Profiling能力建设方面的实践经验,助力实现全网自治。

🤝 dbaplus社群携手蚂蚁集团及携程等智能运维专家,将开展『智能运维新范式』专题直播,聚焦大模型训练、大数据AIOps实践等热门议题。

🔗 更多直播干货,包括PPT和加入直播群的信息,可通过助手获取。

2025-10-09 07:15 广东

如何保障大规模模型训练场景的稳定性?

随着大模型训练迈向千亿乃至万亿参数规模,其复杂的异构计算环境与漫长的训练周期对基础设施的稳定性和运维效率提出了极致挑战。传统的运维手段已难以应对训练过程中频发的性能波动与隐性故障。

10月13日(周一)19:00蚂蚁集团超级计算技术部AIOps专家汪周飞老师,将带来AIOps在大模型训练场景的实践》主题分享与大家深入探讨如何保障大规模模型训练场景的稳定性。

活动信息

    主题:AIOps在大模型训练场景的实践

    讲师:蚂蚁集团 超级计算技术部AIOps专家 汪周飞

    时间:10月13日(周一)19:00

    地点:线上直播间

讲师信息

汪周飞

蚂蚁集团

超级计算技术部AIOps专家

在AI Infra以及大模型训练/推理下稳定性保障和性能优化具有丰富经验;

目前就职于蚂蚁集团超级计算技术部、算力治理团队,负责大模型训练稳定性保障和智算资源的Profiling能力建设,推进基础设施AIOps实践落地。

直播地址

>>>>

更多直播干货

添加助手获取PPT、加入直播群

更多『智能运维新范式』专题直播

在AI和大模型技术加速落地的当下,智能运维已不再停留于“问题发现与告警”,而正演变为以数据为基础、以智能决策为目标的全新体系。大模型赋能AIOps,并让海量运维数据得以被实时洞察、自动分析,生成更精准的决策建议,推动运维从被动响应走向主动优化,最终迈向全网自治的高阶水平。

基于上述背景,dbaplus社群携手蚂蚁集团携程多位智能运维专家,分别在10月13/20/27日周一19:00开展『智能运维新范式』专题直播,将聚焦大模型训练、大数据AIOps实践、运维大脑架构设计等智能运维领域的热门议题进行深度探讨。扫码可预约直播:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AIOps 大模型训练 稳定性保障 智能运维 蚂蚁集团
相关文章