最新-新浪科技科学探索 11月05日 17:47
华为开源UCM推理记忆数据管理技术
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为近日宣布开源其AI推理加速关键技术UCM(Unified Cache Manager)推理记忆数据管理。该技术以KV Cache多级缓存和推理记忆管理为核心,通过推理框架、算力、存储三层协同,旨在解决长序列推理效率和成本问题,提升企业AI推理体验。UCM融合多种缓存加速算法,可分级管理推理过程中的KV Cache数据,具备稀疏注意力、前缀缓存、预填充卸载和异构PD解耦四大关键能力,能够显著降低首Token时延,提升系统吞吐,并扩展上下文窗口。

🚀 华为开源UCM技术,专注于AI推理加速,特别是针对长序列推理的效率和成本难题,旨在为企业提供更优的AI推理解决方案。

💾 UCM的核心在于KV Cache多级缓存和推理记忆管理,通过推理框架、算力及存储的三层协同工作,优化数据管理流程。

💡 UCM具备四大关键功能,包括稀疏注意力机制、前缀缓存技术、预填充卸载能力以及异构并行解耦,这些功能共同作用,可实现首Token时延最高降低90%,系统吞吐最大提升22倍,并支持高达10倍的上下文窗口扩展。

🛠️ 目前,UCM的基础框架和工具链已在ModelEngine社区开放,开发者可以便捷地获取源代码和技术文档,进行进一步的开发和应用。

快科技11月5日消息,近日,华为宣布针对AI推理加速的关键技术——UCM(Unified Cache Manager)推理记忆数据管理正式开源。

UCM以KV Cache多级缓存和推理记忆管理为中心,通过推理框架、算力、存储的三层协同,破解长序列推理效率低、成本高的难题,为企业提供更优的AI推理体验。

据介绍,UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。

UCM具备四大关键能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

它实现首Token时延最高降低90%,系统吞吐最大提升22倍,并达到10倍级上下文窗口扩展,显著提升了AI推理性能。

目前,UCM已在ModelEngine社区开放基础框架与工具链,开发者可通过社区获取UCM源代码与技术文档。

UCM产品架构

【本文结束】如需转载请务必注明出处:快科技

责任编辑:随心

文章内容举报

]article_adlist-->

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为 UCM AI推理 开源 长序列推理
相关文章