阿里巴巴中间件 09月27日
AI原生应用DevOps白皮书:系统拆解与实践指南
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

《AI 原生应用架构白皮书》由阿里云与阿里巴巴爱橙科技联合发布,深入解析了 AI 原生应用的 DevOps 全生命周期。白皮书系统拆解了 AI 应用开发面临的挑战,如模型依赖、结果可控性不足、幻觉问题、推理延迟、稳定性波动等。它从架构设计、技术选型、工程实践到运维优化,详细阐述了 AI 原生应用的关键要素(包括大模型、开发框架、提示词、RAG、记忆、工具、网关、运行时、可观测、评估和安全),并提供了相应的解题思路,旨在帮助企业构建稳定、高效、安全且成本可控的 AI 应用。

🌟 **AI原生应用DevOps全生命周期解析**:白皮书系统性地拆解了AI原生应用的DevOps全生命周期,从架构设计到运维优化,为企业级AI应用提供了全面的指导框架。它强调了AI应用与传统软件开发的根本性区别,即以自然语言编程和上下文工程为核心,将复杂业务逻辑下沉至模型推理环节,实现了业务的智能化自适应。

💡 **关键要素与挑战应对**:文章详细阐述了AI原生应用必备的11个关键要素,包括大模型、开发框架、提示词、RAG、记忆、工具、网关、运行时、可观测、评估和安全。针对开发阶段的“模型黑盒”特性、结果可控性不足、幻觉频发,以及上线后的推理延迟、稳定性波动、排查困难、安全风险等痛点,白皮书提供了具体的解题思路和技术实践。

🛠️ **技术实践与工程落地**:白皮书聚焦于AI应用开发中的核心技术实践,如上下文工程(提示词、RAG、记忆)、AI工具(Function Calling、MCP)的集成与优化、AI网关在多模型代理、容灾、安全防护、成本控制等方面的重要作用,以及Agent运行时的选型与降本策略。这些内容为开发者提供了可操作的工程化指导。

📈 **可观测性、评估与安全**:针对AI应用特有的不可预测性、质量波动和成本复杂性,白皮书重点介绍了AI可观测性的重要性,强调端到端全链路追踪、全栈可观测和自动化评估。同时,深入探讨了AI评估体系(内在/外在、自动化/人工)和AI安全面临的系统、网络、身份、数据、模型、应用等风险,并提出了相应的防护框架和解决方案。

2025-09-27 10:01 浙江

本书由 15 位专家联名推荐、20w+ 字、40 位一线工程师、联合撰写,首次围绕 AI 原生应用的 DevOps 全生命周期,将概念和重难点进行系统的拆解,并提供解题思路。

不同于传统软件开发通过编程与算法构建的确定性逻辑,AI 时代的应用构建以面对自然语言编程、上下文工程为核心特征,将复杂业务逻辑与决策过程下沉至模型推理环节,从而实现业务的智能化自适应。

然而,AI 应用开发过程中仍面临诸多挑战,例如开发阶段强依赖模型黑盒特性,导致结果可控性不足、幻觉问题频发,从原型验证(PoC)到生产部署往往需要数月调优,核心痛点集中在调试效率与业务适配;上线后则面临推理延迟、稳定性波动、问题排查困难、安全风险凸显、输出不可靠及成本过高等问题,折射出企业级 AI 应用在稳定性、性能、安全与成本控制上的系统性挑战。

针对此,阿里云联合阿里巴巴爱橙科技,共同发布《AI 原生应用架构白皮书》,围绕 AI 原生应用的 DevOps 全生命周期,从架构设计、技术选型、工程实践到运维优化,对概念和重难点进行系统的拆解,并尝试提供一些解题思路。

进入链接或点击阅读原文即可下载:https://developer.aliyun.com/ebook/8479

白皮书覆盖 AI 原生应用的 11 大关键要素,获得 15 位业界专家联名推荐,来自 40 多位一线工程师实践心的,全书合计超 20w 字,分为 11 章。

第 1 章 AI 原生应用及其架构

Aliware

从大模型技术发展的回顾开始,正因为其技术上的突破,带来了应用上的繁荣,并对应用架构的演进历程进行了梳理,对 AI 原生应用需要具备的核心能力给出了解释,以及定义了 AI 原生应用架构成熟度,作为企业综合衡量 AI 原生应用在技术实现、业务融合与安全可信等方面所达到的水平的一个参考标准。

应用架构是指导如何系统性地构建应用。在 AI 原生应用架构下,其目标是在满足可扩展、可观测、安全合规的同时,最大化释放大模型的智能潜力。以下是典型的 AI 原生应用架构,涵盖了模型、应用开发框架、提示词、RAG、记忆、工具、网关、运行时、可观测、评估和安全等关键要素。

在此架构之上,构建的 AI 原生应用,是以大模型为认知基础,以 Agent 为编排和执行单元,以数据作为决策和个性化基础,通过工具感知和执行的智能应用。AI 原生应用的出现,标志着智能软件形态的根本性转变,其核心能力包括大模型推理决策、Agent 编排和执行、数据优化决策、工具调用与环境连接。

第 2 章 AI 原生应用的关键要素

Aliware

本章介绍了构建一个 AI 原生应用所需要的 11 个关键要素,并在每一节描述了各个要素所扮演的角色和功能,给读者提供一个全貌的了解。

第 3 章 AI 应用开发框架

Aliware

本章从开发一个简单的 Agent 开始,介绍了标准的智能体开发流程,以及业内主流的智能体开发范式,并围绕工作流模式、对话模式进行展开。随后,介绍了业内讨论较多的多智能体、A2A 协议,以及一些实践,我们认为多智能体是智能体发展的必然形态,这是由企业组织结构、业务需求、成本考量等多方面因素共同决定的。

以 Spring AI Alibaba 的多智能体类型为例,它和 Agent 定义与类继承关系可以分为以下3类:

以下是 LlmRoutingAgent 模式的基本架构图和工作原理,它的特点是通过模型决策下一个子智能体走向。

如上图所示,RoutingAgent 内置的 Prompt 定义如下,它会根据当前 RoutingAgent 的职责、所有可用子 Agent 的能力、当前用户的请求,来使用 LLM 智能决策下一个流程节点。

第 4 章 上下文工程

Aliware

上下文工程是提升输出效果的重要手段,白皮书介绍了提示词、RAG、Memory 的定义、功能和业内主流技术方案,以及未来的演进方向,同时,提供了我们的一线实践,例如提示词调优、RAG 检索构建和检索流程优化、多级记忆系统构建等。

上下文工程通过协同工作的一系列核心组件,为 LLM 构建其动态认知环境。

通过对这些关键组件的系统性设计与优化,上下文工程为构建高效、可靠且具备深度认知能力的 AI 原生应用提供了坚实的基础。

第 5 章 AI 工具

Aliware

工具是大模型向物理世界进行延伸的载体,也是上下文工程的一部分。我们单独成章,因为已经具备了相对较成熟的工程实践。这一章介绍了 Function Calling 和 MCP 这两个主流的技术实现方式,并重点围绕 MCP 介绍了从零构建和基于存量资源改造(即 HTTP 转 MCP)两种实践路径。

Function Calling 出现的更早,但因其规格碎片化、工程治理缺位、厂商锁定与迁移成本等问题,导致生态效应不强。而 MCP 因其使用统一协议取代碎片化集成,把大模型获取外部数据与工具的方式从 N×N 适配转为“一次对接、处处可用”,显著简化并提升可靠性,而广受开发者们欢迎。

但是,MCP 也遇到了新的问题,导致其热度有所降低。例如当 MCP 服务或工具的数量过多时,模型可能会出现选择困难症,因为大量的上下文输入让模型难以区分和回忆每个工具的能力,也就无法有效的选择与目标问题关联度最高的工具。而且,由于模型在每次对话中都需要接收全量的工具描述信息,对话内容很容易超出模型支持的上下文窗口的长度限制。更关键的是,过长的提示词信息也会加剧 Token 的消耗速度,尤其是在多轮对话中,工具列表被重复传递,造成 Token 资源的浪费,拉高调用成本。

我们在白皮书中提供了一些具备可行性的应对方案,例如:

第 6 章 AI 网关

Aliware

AI 网关是大模型最重要的集成能力之一。本章完整地介绍了网关的演进历程,并解释了为什么 AI 原生应用架构中,网关的地位如此重要。随后,介绍了基于 AI 网关来构建一个 AI 应用的实践,以及探讨了 API 和 Agent 货币化所需要的基础设施建设。

无论是 Single 模式还是 Sub Agent、甚至 Multi Agent,AI 网关作为入口中间件,都发挥着更关键的作用:

第 7 章 AI 应用运行时

Aliware

Agent 运行时具有丰富的资源供给形态,不同的供给形态各有优势,如何选型取决于具体的业务场景。本章详细介绍了 Serverless 运行时的演进历程,围绕智能体、工具、沙箱三类运行时方案,以及运行时降本的实践。

阿里云上已经落地了诸多企业级的 AI 业务场景,包括AI 开放平台 MCP Server 托管、交互式智能内容创作助手、个性化 AI 客服、通用 Agent 平台+病毒式传播的 AIGC 创意应用。从这些真实的用例中,我们可以清晰地勾勒出 AI 应用的共同画像:它们是会话式的、工具增强的、事件驱动的、精益成本的。这最终汇聚成了对理想运行时的 7 大核心诉求:

白皮书将详细描述 Serverless 运行时应对以上诉求时的一些解题思路。

第 8 章 AI 观测

Aliware

大模型驱动的 AI 应用,更加复杂。AI 应用可观测是一系列能够让工程师全面洞察基于大型语言模型构建的应用的实践与工具。本章全面介绍了 AI 应用可观测的挑战和应对方式,并围绕 Agent 可观测、AI 网关可观测、推理引擎可观测,以及架构端到端全链路追踪的技术实现方式和实践。

AI 应用面临着一系列传统软件所没有的独特挑战,总结来讲有 3 大类:

一个高效的 AI 可观测解决方案应具备端到端全链路追踪、全栈可观测和自动化评估功能。其中,端到端全链路追踪、全栈可观测将在第 8 章中展开,自动化评估将在第 9 章系统化的提供可行性方案。

第 9 章 AI 评估

Aliware

相比由代码决定软件运行逻辑的经典应用,大模型应用具有黑盒和不确定性的特征。因此 AI 评估成为构建 AI 原生应用中的必备要素之一。本章介绍了评估体系中的基础二分法,探讨从静态到动态评估的演进,并给出了自动化评估的一些实践。

AI 应用,其行为本质上是非确定性和概率性的,这意味着对于相同的输入,它们可能会产生不同的输出。尤其在医疗、金融等高风险领域,缺乏本地化评估可能导致模型失效或加剧不平等,带来严重后果。理解 AI 评估可以从两个基本的维度开始:评估的对象(内在与外在),评估的执行者(自动化与人工)。

在实践中,最佳的评估策略通常是自动化和人工评估的混合模式,利用自动化的效率进行大规模初步筛选,并结合人工的深度洞察力对关键或模糊的案例进行精细评估。

第 10 章 AI 安全

Aliware

AI 与生俱来的非预期行为以及输出的不可预测性风险,加剧了内部治理和合规的挑战。安全成为个人和企业采用 AI 的重要顾虑。本章介绍了常见的安全风险,包括:

白皮书将从应用、模型、数据、身份、系统和网络视角全方位的阐述防护思路、防护框架和解决方案。

第 11 章 通向 ASI 之路

Aliware

ASI 的到来不是一蹴而就的,而是技术、场景、治理、社会持续协同进化的结果。本章节从技术架构、应用场景、治理体系、社会形态 4 个视角总结了 AI 的发展历程,并对未来的发展趋势进行展望。以技术架构为例,其发展趋势分为:

写在最后

Aliware

我们曾经参与编写过《云原生应用架构白皮书2022》、《云原生应用架构白皮书2023》、《Nacos 架构与原理》、《微服务治理技术白皮书》等电子书,也参与编写过《面向 LLM 应用的可观测性能力要求》、《人工智能云 AI 网关能力要求》等标准,具有一定的编写经验。但是在发起这本《AI 原生应用架构白皮书》之初,便深刻感受到 AI 时代,产品创新的速度之快、架构的复杂度之高、学科的交叉度之广,都远超以往,技术成熟度也仍处于行业发展初期。单个团队已经很难系统、全面的去解构 AI 原生应用架构。因此,我们邀请了阿里云内的上下游兄弟团队、阿里巴巴爱橙科技等联合编写该白皮书,在此表示诚挚的谢意。编写过程中,我们借助 AI 提升了内容的结构化程度和完整度,并逐字进行了人工校对。

我们期望以抛砖引玉的姿态,为 AI 原生应用的标准化、体系化发展提供参考框架,并计划不定期对白皮书进行更新,持续呈现 AI 原生应用架构的前沿思考。我们非常欢迎业内各方一道,无论您是学者、开发者、或是用户等,参与进来共同更新白皮书,共同定义行业共识、破解技术瓶颈,加速推动 AI 从概念走向产业、从潜力转化为价值,让 AI 真正成为驱动全球产业升级与社会进步的核心力量。

若白皮书能对个人学习和企业落地 AI 原生应用架构起到一点点的促进作用,将是我们莫大的荣幸。

谨以此书,献给参与 AI 建设的所有同行者们。

点击阅读原文,下载《AI 原生应用架构白皮书》。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI原生应用 DevOps 架构白皮书 大模型 人工智能 AI-Native Applications DevOps Architecture Whitepaper Large Models Artificial Intelligence
相关文章