index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
「智驱未来,云网随行:AI Infra建设方案及最佳实践」沙龙在北京成功举办,聚焦AI基础设施高效、高可用建设。会议深入解析AI驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度到VPC RDMA性能优化、Agent智能体出海等场景的全链路方案。阿里云专家分享了AI Infra解决方案与最佳实践,包括资源池化、容器编排调度、面向AI的存储方案等,助力企业打造智能、弹性、稳定的下一代AI基础网络架构。
🔹 沙龙聚焦AI基础设施高效、高可用建设,深入解析AI驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度到VPC RDMA性能优化、Agent智能体出海等场景的全链路方案。
🌐 阿里云专家分享了AI Infra解决方案与最佳实践,包括资源池化,通过弹性公网、云企业网、转发路由器等核心产品打造覆盖全球的AI算力和数据网络,实现算网融合,资源池化,弹性调度,按需使用。
📊 针对AI领域对资源异构管理、大规模稳定性、资源利用率、工程提效的更高要求,阿里云ACK容器智算提供弹性、高性价比算力,支持集群异构资源管理,监控和性能追踪,故障发现、诊断、自愈。
💾 阿里云存储方案从Storage for AI & AI enabled Storage两方面,阐述如何利用CPFS、OSS、EBS、NAS等存储组合方案,从数据采集、数据处理,模型训练、模型推理多个细分场景提高数据的处理效率。
🌏 针对AI智能体&推理服务出海的长连接与高时延敏感性,云网络全球加速产品提供全球智能调度、集成四七层防护及提供确定性跨域时延,助力AI智能体&推理服务提升出海竞争力。
2025-08-27 08:30 浙江

这是2025年的第95篇文章
( 本文阅读时间:15分钟 )
聚焦AI Infra建设方案及最佳实践,「智驱未来,云网随行:AI Infra建设方案及最佳实践」沙龙阿里云基础设施AI Tech Day北京站于8月8日下午在北京全球创新社区顺利举办,活动现场吸引了来自月之暗面、字节、小米、爱奇艺、360、雪球、猿辅导、奥迪等16家相关AI领域领先企业或有AI建设诉求企业的32名业务/技术骨干参与。本次技术沙龙旨在聚焦企业建设高效、高可用的AI Infra,深入解析AI驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度,以及VPC RDMA性能优化、Agent智能体出海等场景的全链路方案,助力企业打造智能、弹性、稳定的下一代AI基础网络架构。阿里云智能集团公共云华北大区资深解决方案架构师王勇猛(勇猛)致开场辞,AI规模化落地对基础设施提出严峻挑战,AI时代的基础设施不再仅仅是后台支持,而是深度融入业务决策,加速企业认知,实现“零延迟”技术底座。今天AI发展的三个趋势:第一,AI Infra核心是高效协同的“集群当量”,而非单一GPU数量。第二,大模型等应用爆发驱动云基础设施升级:低时延、高吞吐、弹性、高可用,关乎业务连续性和数智化竞争力。第三,AI出海加速,全球化部署成刚需,需全球组网、低延迟调度及合规安全。云基础设施是AI爆发的创新土壤和模型高效稳定运行的“底座工程”。阿里云正围绕通义大模型、PAI平台、自研芯片、全球一张高性能网络等能力构建一体化AI基础设施,助力技术领导者专注于业务创新。第一章节围绕AI Infra解决方案与最佳实践展开,介绍当前阿里云围绕AI Infra主推的网络/计算/存储主推方案与核心能力阿里云智能集团云网络高级产品解决方案架构师任江波(硕丰)分享了《资源池化,打造全球AI算力和数据一张网》。AI技术和应用的时代,相比以往的3大特征:算力规模更大、算力形态更多样、数据体量和数据流动频率指数级增长。在此背景之下,网络作为管道,如何进行资源池化和调度,帮助释放算力的价值,让数据传输和流动更加高效,变得尤为重要。阿里云云网络基于弹性公网 EIP、云企业网CEN、转发路由器TR、私网连接PrivateLink、AI原生ALB和全球加速GA等核心产品打造一张覆盖全球的AI算力和数据网络,真正实现算网融合,资源池化,弹性调度,按需使用。支撑AI场景下高质量数据采集、超大带宽训练数据运载、超低时延推理访问加速、多业务端到端有序混跑和内网级生态应用安全调用,保障极致的用户使用体验。阿里云智能集团弹性计算容器产品架构师陈晓斌(阿兵)分享了《AI Infra关键基础算力与容器编排调度》。AI领域相对传统微服务,大数据领域从资源异构管理,大规模稳定性,资源利用率,工程提效对Infra团队提出了更高的要求。ACK 容器智算针对AI领域所涉及的预训练数据获取、处理场景的资源弹性,高性价比算力,IP轮换,计算框架容器化深度融合;训练场景:集群异构资源管理,监控和性能追踪、故障发现、诊断、自愈,支持各种训练推理框架、大规模AI任务调度;推理场景:AI容器镜像和模型加速,分布式推理负载管理与弹性伸缩,高阶流量调度;针对AI Agent场景的安全沙箱/极速弹性Serverless能力均在各大头部AI客户得到大规模生产实践。阿里云智能集团存储产品解决方案架构师程川军(无川)分享了《面向AI的阿里云存储方案及最佳实践》。该话题从Storage for AI & AI enabled Storage两个方面,阐述如何利用阿里云的存储解决方案构建一个高效、灵活且安全的AI数据管道,帮助企业快速实现从原始数据到有价值洞察的转变,以及用户在使用中的需求洞察和最佳实践。Storage for AI产品能力,面向大模型、智驾和具身智能等AI场景,CPFS(数据流动、EFC缓存)、OSS(OSS加速器、OSS connecter For AI)、EBS(EED)、NAS等存储组合方案,从数据采集、数据处理,模型训练、模型推理多个细分场景提高数据的处理效率。AI enabled Storage维度,介绍OSS的数据索引Metaquery提供支持 AI 检索能力,对OSS中的文本,图片、视频类数据,融合大模型解析能力,匹配非结构化数据的语义信息,智能整合向量特征、键值特征与全文索引&智能排序,支持数据高效价值发掘和应用,并分享在智能家居摄像机场景的语义检索实践。第二章节围绕AI场景网络助力业务提效展开,从典型客户的AI Infra组网架构实践展开,再深度介绍训推场景和AI Agent出海场景网络性能和体验提升方案阿里云智能集团公共云事业部解决方案架构师李为祥(轻毅)分享了《AI Infra基础组网架构的实践与思考》。AI场景下,Infra应该如何更好的满足业务的需求。从AI行业的发展趋势入手,看大模型开发的不同阶段对Infra的特殊需求,倒推出Infra设计原则,最后详细阐述了网络、计算、存储三个层面具体的架构设计和注意事项。把我们服务众多基础大模型客户的经验赋能给了参会的各行业的客户群体。阿里云智能集团云网络高级技术专家吴曦(恒远)分享了《为客户体验保驾护航:AI应用出海场景的网络实践与演进》。AI智能体&推理服务出海浪潮呈现三大特征:其一,需平衡资源可获得性、用户体验优化与成本控制;其二,网络连接具有显著的长连接与高时延敏感性;其三,涉及多模型跨地域调用。应对此,亟需构建一张具备全球视野,融合安全防护、智能加速与全局分发能力的网络。云网络全球加速产品正是为此而生,其核心能力——全球智能调度、集成四七层防护及提供确定性跨域时延——将有效助力AI智能体&推理服务提升出海竞争力。在最后的客户互动讨论环节,来自阿里云网络、弹性计算、存储等团队的PDSA、PD和研发同学,与到场客户一起围绕企业AI(模型/应用等)建设及使用场景的典型问题展开深度探讨和交流,包括IaaS层核心能力与网络需求、外部数据获取与模型优化、AI应用与智能体服务部署、基础架构重构与资源融合等相关的架构合理性、合规性、成本、质量等。阅读原文
跳转微信打开