深度财经头条 08月13日
华为发布AI推理新技术 将于今年9月正式开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为近日推出了名为UCM(推理记忆数据管理器)的AI推理创新技术。该技术旨在解决当前AI推理应用落地面临的“推不动、推得慢、推得贵”等痛点,通过以KV Cache为核心的推理加速套件,融合多类型缓存加速算法,分级管理推理过程中的记忆数据,从而扩大推理上下文窗口,实现高吞吐、低时延的推理体验,并有效降低每Token的推理成本。IDC预测,未来智能算力中推理算力占比将大幅提升,AI推理效率和体验成为行业化落地的关键。华为计划于2025年9月正式开源UCM,与生态伙伴共同推动AI推理技术的进步。

💡 **UCM技术核心在于KV Cache加速,旨在提升AI推理效率** Huawei UCM(推理记忆数据管理器)是一款以KV Cache为核心的推理加速套件,它融合了多种缓存加速算法,能够对推理过程中产生的KV Cache记忆数据进行分级管理。通过扩大推理的上下文窗口,UCM能够显著提升推理的吞吐量并降低时延,从而解决当前AI推理应用落地中普遍存在的“推不动、推得慢、推得贵”等问题,并降低每一次Token的推理成本。

📈 **AI推理算力需求爆发,基础设施重心正向推理偏移** 随着大模型应用的普及,推理算力需求正呈现爆发式增长。IDC预测,到2027年,中国智能算力中推理算力占比将从2023年的41%提升至72.6%。这意味着AI基础设施的重心将逐步从训练转向推理,推理系统的效率和用户体验成为影响AI行业化落地的关键因素。

🤝 **华为计划开源UCM,携手生态伙伴共建AI推理生态** Huawei计划于2025年9月正式开源UCM,并首先在魔擎社区发布,随后逐步贡献给业界主流推理引擎社区,并与所有Share Everything(共享架构)存储厂商和生态伙伴共享。目前,讯飞等生态伙伴已加入,多家政府、金融、制造行业的客户也已开始试点应用,共同构建AI推理的开放生态。

🚀 **AI发展趋势转向数据智能,UCM为Agentic AI提供基础** AI发展正从模型智能转向数据智能,尤其是在专业领域。华为将基于UCM构建更多的Agentic AI能力、多模态检索和数据湖能力。在Agentic AI时代,Token消耗量将达到百万级,推理成本过高将成为落地瓶颈,UCM通过降低成本,为Agentic AI的商业化落地提供了坚实的基础。

🤔 **GPT5瓶颈显现,AI商业化落地关注体验与成本** GPT5的发布表明传统Scaling Law模式已遇瓶颈,客户更关注AI的商业循环和变现能力,以及用户体验。当模型智能水平受限时,AI将系统化地转向数据智能。高质量数据的缺乏、AI合成数据的泛滥以及数据质量问题,将成为未来产业研究的焦点,而UCM在降低成本方面提供了解决方案。


《科创板日报》8月12日讯(记者 黄心怡)华为今日发布AI推理创新技术UCM(推理记忆数据管理器)。作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

据悉,华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

IDC预测,到2027年中国智能算力中,推理算力占比将从2023年的41%左右上升到72.6%左右。中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示,大模型推理需求爆发。一方面大模型服务调用量、推理计算量将翻倍,另一方面大模型推理算力供给将超过训练,基础设施重心将逐步向推理偏移。

不过,当前AI推理应用落地过程中存在推不动、推得慢、推得贵等问题。华为数据存储产品线总裁周跃峰举例:中国互联网大模型的首Token时延普遍慢于海外互联网头部的首Token时延,海外头部大模型的推理吞吐率也要远高于中国。因此,如何改进推理系统的效率和体验是重要课题。这也是华为此次推出UCM推理记忆数据管理器的原因。

据介绍,UCM推理记忆数据管理器已经在中国银联的客户服务、营销策划、办公会议等业务场景中,开展AI推理加速应用试点。

华为数据存储产品线副总裁、闪存领域总裁谢黎明表示,从银行业来看,不管是生产环境的投研分析,还是舆情分析也好,都会涉及到非常多的长序列输入。“比如一份投研报告就是上兆级别,精准营销所需要输入的上下文也是长序列,所以推不动这个问题经常出现。其次是推得慢的问题,核心就是并发上不去,上去之后每Token时延特别长。另外推得贵,原因是需要耗费大量的算力。”

华为数据存储产品线AI存储首席架构师李国杰进一步解释,不管是行业调研报告、公司财务信息以及其他公开信息,都是超长上下文的多源信息汇聚。随着迈向Agentic AI(代理式AI),这些信息会拆成很多步,逐步地深度挖掘,最终给出一个专业的趋势判断和报告。这对显存、计算量都会有很大的压力。

推理体验和推理成本,将成为未来AI行业化落地的一大阻碍。“到了Agentic AI时代,Token消费相比以前是百万级的,成本过高意味着落地就没有了一个基本的前提,没有人用得起。”谢黎明称。

谈及AI的发展趋势,李国杰认为,模型智能转向数据智能,这在专业领域已基本成为共识。未来,华为会基于UCM构筑更多的Agentic AI能力,以及多模检索和数据湖的能力等等。

“从GPT5的发布可以看到,传统的Scaling Law模式已经遇到瓶颈。从应用需求的角度来讲,客户开始关注AI的商业循环和商业变现,更关注体验。从技术驱动的角度,当模型的智能水平遇到瓶颈,会系统化地转向数据智能。因为其本质原因是缺少高质量数据,大量用AI合成数据、数据荒以及数据质量的问题,都会成为新的产业研究焦点。”

华为计划于今年9月份开源UCM,目前已有讯飞等生态伙伴加入。李国杰透露,“很多政府行业、金融行业、制造行业等客户,已经使用起来。我们会与更多的基础设施和生态伙伴一起共建,也会与更多具有非常典型性或者行业性的客户,一起共建。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为 UCM AI推理 KV Cache 数据智能
相关文章