华为开源UCM推理记忆数据管理技术

最新-新浪科技科学探索 11月05日 17:47

华为开源UCM推理记忆数据管理技术

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

华为近日宣布开源其AI推理加速关键技术UCM（Unified Cache Manager）推理记忆数据管理。该技术以KV Cache多级缓存和推理记忆管理为核心，通过推理框架、算力、存储三层协同，旨在解决长序列推理效率和成本问题，提升企业AI推理体验。UCM融合多种缓存加速算法，可分级管理推理过程中的KV Cache数据，具备稀疏注意力、前缀缓存、预填充卸载和异构PD解耦四大关键能力，能够显著降低首Token时延，提升系统吞吐，并扩展上下文窗口。

🚀 华为开源UCM技术，专注于AI推理加速，特别是针对长序列推理的效率和成本难题，旨在为企业提供更优的AI推理解决方案。

💾 UCM的核心在于KV Cache多级缓存和推理记忆管理，通过推理框架、算力及存储的三层协同工作，优化数据管理流程。

💡 UCM具备四大关键功能，包括稀疏注意力机制、前缀缓存技术、预填充卸载能力以及异构并行解耦，这些功能共同作用，可实现首Token时延最高降低90%，系统吞吐最大提升22倍，并支持高达10倍的上下文窗口扩展。

🛠️ 目前，UCM的基础框架和工具链已在ModelEngine社区开放，开发者可以便捷地获取源代码和技术文档，进行进一步的开发和应用。

快科技11月5日消息，近日，华为宣布针对AI推理加速的关键技术——UCM（Unified Cache Manager）推理记忆数据管理正式开源。

UCM以KV Cache多级缓存和推理记忆管理为中心，通过推理框架、算力、存储的三层协同，破解长序列推理效率低、成本高的难题，为企业提供更优的AI推理体验。

据介绍，UCM融合了多类型缓存加速算法工具，可分级管理在推理过程中产生的KV Cache记忆数据。

UCM具备四大关键能力：稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

它实现首Token时延最高降低90%，系统吞吐最大提升22倍，并达到10倍级上下文窗口扩展，显著提升了AI推理性能。

目前，UCM已在ModelEngine社区开放基础框架与工具链，开发者可通过社区获取UCM源代码与技术文档。

UCM产品架构

【本文结束】如需转载请务必注明出处：快科技

责任编辑：随心

文章内容举报

]article_adlist-->

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签