快科技资讯 11月05日 16:48
华为UCM开源AI推理加速技术
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为近日开源AI推理加速技术UCM,通过多级缓存和推理记忆管理,提升AI推理性能,已在ModelEngine社区开放。

快科技11月5日消息,近日,华为宣布针对AI推理加速的关键技术——UCM(Unified Cache Manager)推理记忆数据管理正式开源。

UCM以KV Cache多级缓存和推理记忆管理为中心,通过推理框架、算力、存储的三层协同,破解长序列推理效率低、成本高的难题,为企业提供更优的AI推理体验。

据介绍,UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。

UCM具备四大关键能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

它实现首Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展,显著提升了AI推理性能。

目前,UCM已在ModelEngine社区开放基础框架与工具链,开发者可通过社区获取UCM源代码与技术文档。


UCM产品架构

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为 AI推理 UCM 开源 加速技术
相关文章