09月25日
Arm服务器助力大模型推理与云应用优化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着大模型推理需求的增长,企业对算力的关注点从性能转向效能。Arm架构服务器凭借其高能效、多核并发和软硬协同优化能力,成为新一代云与AI基础设施的优选。相比x86架构,Arm在能效比、核心密度和TCO方面优势显著,尤其适合大模型推理。Arm开放的生态和灵活定制能力提供了高性价比算力。其Kleidi AI工具可与主流AI框架集成,加速模型推理。智猩猩联合Arm推出系列公开课,深入讲解Arm服务器在大模型推理和云应用优化方面的实践,首期将于9月22日开讲,汇聚多位专家。

💡 **Arm架构服务器在算力效率上的优势**:Arm服务器凭借其高能效比、多核并发处理能力以及软硬件协同优化,正成为企业应对大模型推理爆发和AI应用繁荣的新选择。相比传统x86架构,Arm在能效、核心密度和整体拥有成本(TCO)方面展现出明显优势,特别适合高并发、低功耗的大模型推理任务,为云与AI基础设施提供了更具经济效益的解决方案。

🔧 **软件生态与性能优化工具**:Arm架构的开放生态系统和高度灵活性,使其能够提供更具性价比的算力。在软件层面,Arm推出的Kleidi AI工具能够与PyTorch、TensorFlow等主流AI框架实现无缝集成,有效帮助开发者充分发挥Arm CPU的性能潜力,显著加速大模型推理过程。

🚀 **公开课聚焦实战优化**:智猩猩与Arm联合策划的“Arm服务器大模型推理与云应用优化系列公开课”,旨在帮助开发者深入理解并在Arm架构服务器上实践大模型推理与云应用优化。首期课程将于9月22日开讲,汇聚安谋科技及鸿钧微电子的专家,围绕混合AI工作负载资源分配、Llama.cpp性能分析与优化、高性能Arm CPU服务器应用以及MoE模型优化等前沿技术进行深度讲解。

2025-09-19 23:19 北京

9月22日19点见~

随着大模型推理的爆发与AI应用的逐步繁荣,企业对算力的需求正从“单纯性能”转向“效能兼顾”。在这场效率革命中,Arm架构服务器凭借其高能效、多核并发和软硬协同优化能力,正在成为新一代云与AI基础设施的重要选择。

与传统的x86架构相比,Arm服务器在能效比、核心密度和总拥有成本(TCO)方面表现出显著优势。尤其是在大模型推理场景中,Arm架构能够更好地支持高并发、低功耗的推理任务。此外,Arm架构开放的生态和灵活的定制能力,能够为云服务商和企业用户提供了更具性价比的算力解决方案。

在软件层面,Arm推出的Kleidi AI工具,可与 PyTorch、TensorFlow 等主流AI框架无缝集成,帮助开发者充分发挥Arm CPU的性能,加速模型推理性能。

为了帮助开发者更好地了解和掌握如何在Arm架构服务器上进行大模型推理与云应用优化,智猩猩联合Arm策划推出 「Arm服务器大模型推理与云应用优化系列公开课」,共5期。

第1期将于9月22日19点开讲,邀请到安谋科技基础设施业务线总监侯科鑫、资深软件工程师张浩林、主任软件工程师蔡亦波、高级软件工程师张向泽和鸿钧微电子应用软件部经理崔世强5位专家参与。

安谋科技基础设施业务线总监侯科鑫将进行开场致辞,另外四位主讲人将围绕Arm架构下的混合AI工作负载资源分配、Llama.cpp性能分析与优化、鸿旻系列高性能Arm CPU服务器和RTP-LLM框架中MoE优化实践带来主题讲解。

 主题介绍

安谋科技资深软件工程师张浩林:Linux 中的 MPAM:混合 AI 工作负载中 QoS 的资源分配

内容概要:

随着人工智能工作负载越来越多地与共享服务器上的传统应用程序整合,高效的资源分配对于确保可预测的性能变得至关重要。 内存分区和监控 (MPAM) 在 Linux 中提供硬件辅助机制来对内存带宽和系统级缓存进行分区,从而允许跨工作负载进行细粒度的 QoS 控制。

本次分享,我们将简要介绍 MPAM 及其与 Linux 内核的集成,演示带宽和缓存分区在与其他工作负载位于同一位置时如何保护关键的 AI 推理任务,并展示一个简单的演示,重点介绍 MPAM 在混合环境中实现性能隔离方面的作用。

安谋科技主任软件工程师蔡亦波:Llama.cpp量化模型在Arm Neoverse平台上的性能优化实践

内容概要:

Llama.cpp是一款非常流行的大模型推理框架,适合做CPU推理任务。本次分享将介绍在Arm Neoverse处理器上针对Llama.cpp做的性能分析和优化工作。 主要包括性能瓶颈分析,模型量化原理,以及利用Arm整数矩阵乘法扩展指令优化量化模型推理性能。

鸿钧微电子应用软件部经理崔世强:鸿旻系列高性能Arm CPU服务器:赋能多样化工作负载的最佳实践

内容概要:

在本次分享中,鸿钧微电子将重点介绍搭载基于Armv9架构自主研发的鸿旻系列高性能CPU服务器在多种工作负载下的最佳实践。该产品采用自主创新的先进计算架构,专为高效计算场景设计,凭借多核架构与高速I/O能力,为高负载数据库、实时编解码等应用提供卓越的算力支持。在实现极致性能的同时,显著降低了总体拥有成本,为互联网、云计算、智能制造及科研创新等领域提供兼具突破性性能和超高性价比的算力基础设施解决方案。

安谋科技高级软件工程师张向泽:RTP-LLM框架中MoE模型的优化实践

内容概要:

在本次分享中,我们将介绍如何在阿里巴巴的大语言模型推理引擎 RTP-LLM 的 Arm CPU 后端中,集成了对 Mixture of Experts (MoE) 模型 的支持,包括 DeepSeek V3/R1 和 Qwen3 MoE。 我们利用了 MMLA 和 I8MM 指令、INT4 量化、Arm KleidiAI 库以及其他先进的优化技术,在 Arm Neoverse 平台 上实现性能最大化。

 报名方式

对「Arm服务器大模型推理与云应用优化系列公开课」感兴趣的朋友,可以扫描下方二维码添加小助手“石头”进行报名。已添加过“石头”的老朋友,可以给“石头”私信,发送“Arm”进行报名,报名通过后将给到公开课地址。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Arm服务器 大模型推理 云应用优化 AI基础设施 能效比 Arm架构 Kleidi AI 公开课
相关文章