阿里技术 09月22日
大模型推理新架构:PD分离与RBG的生产化落地
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了PD分离(Disaggregated prefill and decoding)架构在大模型推理,尤其大规模部署场景下的重要价值。该架构将计算密集型的预填充阶段与显存密集型的解码阶段分开部署,以优化吞吐量和降低延迟。文中列举了多种开源实现方案,并指出其在生产环境落地时面临的部署复杂性、可靠性等挑战。为解决这些问题,SGLang社区推出了RBG(RoleBasedGroup)项目,提供了一套开放、兼容的解决方案,将协同服务抽象为统一管理单元,显著降低部署和运维成本,使PD分离架构真正具备生产就绪能力。

💡PD分离架构的价值:PD分离架构通过将大模型推理的计算密集型预填充(Prefill)阶段与显存密集型解码(Decode)阶段分开部署,有效解决了资源争抢问题,显著提升了首次响应时间(TTFT)和系统吞吐量(TPOT)。同时,它允许针对不同阶段的计算特性灵活采用不同的并行策略和GPU硬件,实现性能与成本的最佳平衡。

🚀开源实现与生产落地挑战:社区已涌现出SGLang、Mooncake、vLLM+LMCache、NVIDIA Dynamo等多种PD分离的开源实现方案,并在特定场景下展现了显著的效率提升。然而,将这些方案从测试环境迁移到生产环境面临严峻挑战,包括部署复杂性、服务发现失效、拓扑感知缺失、资源动态请求中断、状态迁移成本高、弹性指标失准、故障恢复缓慢和升级风险高等问题。

🤝SGLang与RBG协同解决之道:为了跨越PD分离架构的“落地鸿沟”,SGLang社区联合阿里云和小红书开发者共同开发了RBG(RoleBasedGroup)项目。RBG基于“Role Based Pod Group”设计理念,将需要紧密协同的一组服务角色抽象为统一管理单元,实现统一调度与管理,并提供生产级运维能力,如优雅下线、无感变更、分批发布和安全防护,从而简化了大模型推理系统的部署和运维,为PD分离架构的生产化落地提供了可大规模复制的基础设施。

RBG 项目维护者 2025-09-22 08:30 浙江

PD分离(Disaggregated prefill and decoding)架构对大模型推理——尤其是大规模部署场景——具有显著价值。

PD 分离架构:

大模型推理部署的重要演进

PD 分离 (Disaggregated prefill and decoding) 架构对大模型推理——尤其是大规模部署场景——具有显著价值。LLM 推理过程可以分预填充(Prefill)阶段和解码(Decode)阶段。预填充阶段是计算密集型而解码阶段是显存密集型。PD 分离架构通过将这两个阶段分开部署,实现了计算资源的更细粒度调度与利用,为提升吞吐、降低延迟提供了结构基础。

社区中已涌现多种 PD 分离的开源实现方案,包括 SGLang 与 Mooncake 、vLLM 与 LMCache 的组合、以及 NVIDIA 的 Dynamo 组合(vLLM/SGLang+NIXL)等。在实际应用中,这些方案展现出了巨大的潜力,例如,SGLang 的 PD 分离方案结合 DeepEP、EPLB、FlashInfer、DeepGEMM 等优化,显著提升了 DeepSeek-R1 的推理效率,在特定场景下,尤其在 Decode 阶段实现了高达 5 倍的吞吐提升 [1]

 SGLang:高性能 PD 

分离的实现引擎

SGLang 现已全面支持 PD 分离架构与大规模 EP 并行策略 (Large-scale EP),完整集成了 DeepEP、DeepGEMM 和 EPLB 等功能模块,在多项测试中表现出卓越的性能,为复杂推理负载提供了强大支撑。

性能之外的挑战:

  PD 分离架构的“落地鸿沟”

尽管 PD 分离架构在 Benchmark 中表现优异,但从测试环境到生产环境的落地过程中存在诸多挑战。核心矛盾在于云原生环境(如 Kubernetes)擅长编排无状态服务,而 LLM PD 分离推理服务本质上具有状态依赖的特征(特别是跨阶段 KVCache 的复用),导致在部署、调度、升级、故障恢复与弹性伸缩方面产生前所未有的复杂性。

部署复杂性

资源动态性

运行可靠性

跨越鸿沟:RBG + SGLang 的

协同解决方案

面对 PD 分离架构落地难题,SGLang 开源了 RoleBasedGroup(RBG)项目,提供了一套开放、兼容的解决方案,不仅优化 SGLang 自身,更为大模型推理引擎领域提供 PD 分离场景的可复用参考架构。

RBG:面向 PD 分离推理的

多角色协作 API 抽象

RBG 由 SGLang 社区联合来自阿里云和小红书的开发者共同开发,旨在简化多角色模型的部署与运维流程。该项目基于“Role Based Pod Group”的设计理念,将需要紧密协同的一组服务角色抽象为一个整体单元,实现统一的调度与管理。结合阿里云和小红书在大规模分布式系统领域的深厚积累,RBG 显著降低了大模型推理系统的部署复杂度和运维成本。RBG 融合了阿里云和小红书在大规模分布式系统方面的技术积累,通过 RBG(RoleBaseGroup)负责按“角色”批量管理和 ITS(InstanceSet)对于原地升级和流量切换的精细控制,显著简化了大模型推理系统的部署和运维。通过整合阿里云和小红书在工作负载编排与精细化发布控制、大规模弹性伸缩与策略优化等方面的实践,RBG 让复杂的大模型推理集群管理变得像操作单个容器一样便捷高效。

图 1: RoleBasedGroup 概念图

设计原则:标准、轻量、

   独立、可扩展、被集成

核心能力

编排能力

运行时管理

扩展能力:

总   结

将 LLM 推理的 Prefill 和 Decode 阶段分离部署,可有效避免二者资源争抢,从而优化首次响应时间(TTFT)和系统吞吐量(TPOT)。该架构还允许针对各阶段的计算特性,灵活采用不同的并行策略(TP/PP 等)与 GPU 硬件,以实现性能与成本的最佳平衡。然而,这种分离架构在生产环境中的落地极具挑战。为此,SGLang 与 RBG 的组合提供了完整的解决方案:SGLang 作为高性能推理引擎奠定基础,RBG 则解决复杂的资源编排与运维难题。二者协同,为 PD 分离架构的生产化落地铺平了道路,提供了一套真正生产就绪的解决方案。把“Prefill-Decode 分离”从论文级别的性能突破,升级成了“可大规模复制”的云原生基础设施,其最大价值不是让大模型推理性能吞吐提升 5 倍,而是让这 5 倍提升能在生产环境持续、稳定、可运维地发生。

RBG 项目的 Github 代码库:https://github.com/sgl-project/rbg,

相关文档:https://github.com/sgl-project/rbg/blob/main/doc/TOC.md

FAQ

RBG 与 OME Operator 的区别以及二者的关系是什么?

RBG(RoleBasedGroup)

定位:Kubernetes 上的「多角色编排 API」。它负责把一组需要紧密协同的 Pod(Prefill / Decode / Router …)封装成一个“Pod Group”,解决启动顺序、服务发现、弹性扩缩容、原地升级、故障恢复等通用问题。类比:K8s 里的 StatefulSet / Deployment / LWS,但是给“多角色有状态服务”准备的。(https://github.com/sgl-project/awesome-sglang/blob/main/k8s/rbg/deepseekr1/rbg_dsr1.yaml

OME(Open Model Engine)

定位:端到端的「大模型服务框架」。它把“模型”本身提升为一等公民(Model 和 Inference 相关 CRD),自动完成模型下载、解析、选 runtime、生成最优拓扑、暴露 OpenAI 兼容接口、附带 BenchmarkJob、LoRA、加密等企业级功能。类比:SageMaker、AIBrix、llm-d,KServe 这类“模型即资源”的平台。(https://docs.sglang.ai/ome/docs/tasks/run-workloads/deploy-inference-service/#step-2-deploy-a-small-model-1b-parameters)

具体做法:

[1] Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs, https://lmsys.org/blog/2025-05-05-large-scale-ep/

[2] OME: Revolutionizing LLM Infrastructure with Model-Driven Architecture, https://lmsys.org/blog/2025-07-08-ome/

致谢:

SGLang 社区 —— Yineng Zhang、Ying Sheng、Lianmin Zheng、Simo Lin、Yanbo Yang —— 感谢你们在 SGLang 和 OME 上的开创性工作,以及持续在 RBG 上的深度合作。

阿里云团队 —— Jing Gu,Tongyu Guo,Xiongfeng Guo, Zhihao Xu,Teng Ma,Yang Lu,Shangming Cai,Yang Che, Kai Zhang

小红书团队 ——Weixiang Sun,Yang Song,Yue Zhang,Xiying Ding, Feng Xiong,Yuqi Huang

—— 感谢你们结合自身大规模分布式系统的经验积累,一起推动简化分离式大模型推理系统的部署与运维。

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型推理 PD分离 SGLang RBG 云原生 LLM Inference PD Disaggregation Kubernetes Scalability Operability
相关文章