大模型推理新架构：PD分离与RBG的生产化落地

阿里技术 09月22日

文章介绍了PD分离（Disaggregated prefill and decoding）架构在大模型推理，尤其大规模部署场景下的重要价值。该架构将计算密集型的预填充阶段与显存密集型的解码阶段分开部署，以优化吞吐量和降低延迟。文中列举了多种开源实现方案，并指出其在生产环境落地时面临的部署复杂性、可靠性等挑战。为解决这些问题，SGLang社区推出了RBG（RoleBasedGroup）项目，提供了一套开放、兼容的解决方案，将协同服务抽象为统一管理单元，显著降低部署和运维成本，使PD分离架构真正具备生产就绪能力。

💡PD分离架构的价值：PD分离架构通过将大模型推理的计算密集型预填充（Prefill）阶段与显存密集型解码（Decode）阶段分开部署，有效解决了资源争抢问题，显著提升了首次响应时间（TTFT）和系统吞吐量（TPOT）。同时，它允许针对不同阶段的计算特性灵活采用不同的并行策略和GPU硬件，实现性能与成本的最佳平衡。

🚀开源实现与生产落地挑战：社区已涌现出SGLang、Mooncake、vLLM+LMCache、NVIDIA Dynamo等多种PD分离的开源实现方案，并在特定场景下展现了显著的效率提升。然而，将这些方案从测试环境迁移到生产环境面临严峻挑战，包括部署复杂性、服务发现失效、拓扑感知缺失、资源动态请求中断、状态迁移成本高、弹性指标失准、故障恢复缓慢和升级风险高等问题。

🤝SGLang与RBG协同解决之道：为了跨越PD分离架构的“落地鸿沟”，SGLang社区联合阿里云和小红书开发者共同开发了RBG（RoleBasedGroup）项目。RBG基于“Role Based Pod Group”设计理念，将需要紧密协同的一组服务角色抽象为统一管理单元，实现统一调度与管理，并提供生产级运维能力，如优雅下线、无感变更、分批发布和安全防护，从而简化了大模型推理系统的部署和运维，为PD分离架构的生产化落地提供了可大规模复制的基础设施。

RBG 项目维护者 2025-09-22 08:30 浙江

PD分离(Disaggregated prefill and decoding)架构对大模型推理——尤其是大规模部署场景——具有显著价值。

PD 分离架构：

大模型推理部署的重要演进

PD 分离 (Disaggregated prefill and decoding) 架构对大模型推理——尤其是大规模部署场景——具有显著价值。LLM 推理过程可以分预填充（Prefill）阶段和解码（Decode）阶段。预填充阶段是计算密集型而解码阶段是显存密集型。PD 分离架构通过将这两个阶段分开部署，实现了计算资源的更细粒度调度与利用，为提升吞吐、降低延迟提供了结构基础。

社区中已涌现多种 PD 分离的开源实现方案，包括 SGLang 与 Mooncake 、vLLM 与 LMCache 的组合、以及 NVIDIA 的 Dynamo 组合（vLLM/SGLang+NIXL）等。在实际应用中，这些方案展现出了巨大的潜力，例如，SGLang 的 PD 分离方案结合 DeepEP、EPLB、FlashInfer、DeepGEMM 等优化，显著提升了 DeepSeek-R1 的推理效率，在特定场景下，尤其在 Decode 阶段实现了高达 5 倍的吞吐提升 ^[1]。

SGLang：高性能 PD

分离的实现引擎

SGLang 现已全面支持 PD 分离架构与大规模 EP 并行策略 (Large-scale EP），完整集成了 DeepEP、DeepGEMM 和 EPLB 等功能模块，在多项测试中表现出卓越的性能，为复杂推理负载提供了强大支撑。

性能之外的挑战：

PD 分离架构的“落地鸿沟”

尽管 PD 分离架构在 Benchmark 中表现优异，但从测试环境到生产环境的落地过程中存在诸多挑战。核心矛盾在于云原生环境（如 Kubernetes）擅长编排无状态服务，而 LLM PD 分离推理服务本质上具有状态依赖的特征（特别是跨阶段 KVCache 的复用），导致在部署、调度、升级、故障恢复与弹性伸缩方面产生前所未有的复杂性。

部署复杂性

强顺序依赖：多个服务必须按严格顺序启动和升级，手工操作繁琐易错。

服务发现失灵：扩缩容或实例重建后，角色间的访问关系无法自动更新，需人工介入重新配置。

拓扑感知缺失：实例无法自动感知集群中其他角色的分布，难以实现高效的内部通信。

资源动态性

请求强制中断：传统缩容直接删除实例，会中断正在进行的推理请求，影响服务质量。

状态迁移成本高：缩容丢弃 KV Cache；扩容新实例无缓存预热，导致首请求延迟飙升。

弹性指标失准：基于 CPU/ 内存的监控指标无法真实反映 TTFT/TPOT 等关键推理性能，导致扩缩容决策滞后或无效。

运行可靠性

故障恢复缓慢：实例重启需完整加载模型，耗时长，且缺乏从中断点续跑请求的机制。

升级风险高：滚动更新会中断请求，且更新后请求需重算 KV Cache，耗时激增，缺乏灰度验证机制。

级联故障风险：Prefill 等服务短时故障可能引发 Decode 服务雪崩。

跨越鸿沟：RBG + SGLang 的

协同解决方案

面对 PD 分离架构落地难题，SGLang 开源了 RoleBasedGroup（RBG）项目，提供了一套开放、兼容的解决方案，不仅优化 SGLang 自身，更为大模型推理引擎领域提供 PD 分离场景的可复用参考架构。

RBG：面向 PD 分离推理的

多角色协作 API 抽象

RBG 由 SGLang 社区联合来自阿里云和小红书的开发者共同开发，旨在简化多角色模型的部署与运维流程。该项目基于“Role Based Pod Group”的设计理念，将需要紧密协同的一组服务角色抽象为一个整体单元，实现统一的调度与管理。结合阿里云和小红书在大规模分布式系统领域的深厚积累，RBG 显著降低了大模型推理系统的部署复杂度和运维成本。RBG 融合了阿里云和小红书在大规模分布式系统方面的技术积累，通过 RBG（RoleBaseGroup）负责按“角色”批量管理和 ITS（InstanceSet）对于原地升级和流量切换的精细控制，显著简化了大模型推理系统的部署和运维。通过整合阿里云和小红书在工作负载编排与精细化发布控制、大规模弹性伸缩与策略优化等方面的实践，RBG 让复杂的大模型推理集群管理变得像操作单个容器一样便捷高效。

图 1: RoleBasedGroup 概念图

设计原则：标准、轻量、

独立、可扩展、被集成

简单灵活：基于角色关系假设和 Kubernetes 标准，降低学习成本和开放配置灵活性，通过可复用 Template 避免重复定义

易于集成：与 HPA、KEDA、KPA 等弹性方案无缝集成，支持 AIBrix、OME、llm-d 和 Dynamo Operator 等 LLM 管理框架

生产级运维：支持优雅下线、无感变更、分批发布与安全防护，确保业务平稳升级和弹性伸缩

灵活的工作负载支持：兼容 K8s 原生标准负载，同时支持与 LWS、OpenKruise 等深度定制，默认无需强制安装

低侵入性：通过可扩展的 Engine Runtime 机制解耦编排能力与引擎集成

核心能力

编排能力

声明式角色模板（RoleTemplate），支持多种工作负载实现

原生支持 SGLang+Mooncake 等主流 PD 分离方案

DAG 定义角色启动顺序，支持阻塞式启动协调

支持按角色精细扩缩容

运行时管理

分级故障处理：从 Pod 重启到全组重构的多级恢复机制

智能滚动升级：基于请求排空机制的零中断更新

支持 Gang Scheduling：避免资源死锁

扩展能力：

支持引擎指标采集

动态 LoRA 管理

全局拓扑信息自动转换为 Inference Engine 专属格式

总结

将 LLM 推理的 Prefill 和 Decode 阶段分离部署，可有效避免二者资源争抢，从而优化首次响应时间（TTFT）和系统吞吐量（TPOT）。该架构还允许针对各阶段的计算特性，灵活采用不同的并行策略（TP/PP 等）与 GPU 硬件，以实现性能与成本的最佳平衡。然而，这种分离架构在生产环境中的落地极具挑战。为此，SGLang 与 RBG 的组合提供了完整的解决方案：SGLang 作为高性能推理引擎奠定基础，RBG 则解决复杂的资源编排与运维难题。二者协同，为 PD 分离架构的生产化落地铺平了道路，提供了一套真正生产就绪的解决方案。把“Prefill-Decode 分离”从论文级别的性能突破，升级成了“可大规模复制”的云原生基础设施，其最大价值不是让大模型推理性能吞吐提升 5 倍，而是让这 5 倍提升能在生产环境持续、稳定、可运维地发生。

RBG 项目的 Github 代码库：https://github.com/sgl-project/rbg，

FAQ

RBG 与 OME Operator 的区别以及二者的关系是什么？

RBG 和 OME 的关系

概念：

RBG（RoleBasedGroup）

定位：Kubernetes 上的「多角色编排 API」。它负责把一组需要紧密协同的 Pod（Prefill / Decode / Router …）封装成一个“Pod Group”，解决启动顺序、服务发现、弹性扩缩容、原地升级、故障恢复等通用问题。类比：K8s 里的 StatefulSet / Deployment / LWS，但是给“多角色有状态服务”准备的。（https://github.com/sgl-project/awesome-sglang/blob/main/k8s/rbg/deepseekr1/rbg_dsr1.yaml）

OME（Open Model Engine）

定位：端到端的「大模型服务框架」。它把“模型”本身提升为一等公民（Model 和 Inference 相关 CRD），自动完成模型下载、解析、选 runtime、生成最优拓扑、暴露 OpenAI 兼容接口、附带 BenchmarkJob、LoRA、加密等企业级功能。类比：SageMaker、AIBrix、llm-d，KServe 这类“模型即资源”的平台。（https://docs.sglang.ai/ome/docs/tasks/run-workloads/deploy-inference-service/#step-2-deploy-a-small-model-1b-parameters）

架构层级关系

RBG 位于“工作负载编排层”，解决“怎么把一堆 Pod 当做一个整体来管理和运维”。

OME 位于“服务层”，解决“以什么拓扑 (比如单机推理，可以用 deployment；分布式推理可以用 LWS；分离式推理可以用 RBG)、用什么镜像、跑哪个模型”。

协作

“RBG 作为 OME 的 Workload 实现”。

具体做法：

OME 的 InferenceService 在 PD 分离的模式下，需要创建 Prefiller / Decoder / Router 三种组件；这些组件的底层 workload 可以由 RBG 来承载。

这样，OME 专注做“模型驱动”的高级策略（AI Gateway，选 runtime、定 GPU 数、生成超参），RBG 负责“把这几个角色按正确顺序、无中断地跑起来”。https://docs.sglang.ai/ome/docs/concepts/inference_service/

[1] Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs, https://lmsys.org/blog/2025-05-05-large-scale-ep/

[2] OME: Revolutionizing LLM Infrastructure with Model-Driven Architecture， https://lmsys.org/blog/2025-07-08-ome/

致谢：

SGLang 社区 —— Yineng Zhang、Ying Sheng、Lianmin Zheng、Simo Lin、Yanbo Yang —— 感谢你们在 SGLang 和 OME 上的开创性工作，以及持续在 RBG 上的深度合作。

阿里云团队 —— Jing Gu，Tongyu Guo，Xiongfeng Guo， Zhihao Xu，Teng Ma，Yang Lu，Shangming Cai，Yang Che， Kai Zhang

小红书团队 ——Weixiang Sun，Yang Song，Yue Zhang，Xiying Ding， Feng Xiong，Yuqi Huang

—— 感谢你们结合自身大规模分布式系统的经验积累，一起推动简化分离式大模型推理系统的部署与运维。

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签