2025-09-27 10:01 浙江
本书由 15 位专家联名推荐、20w+ 字、40 位一线工程师、联合撰写,首次围绕 AI 原生应用的 DevOps 全生命周期,将概念和重难点进行系统的拆解,并提供解题思路。
进入链接或点击阅读原文即可下载:https://developer.aliyun.com/ebook/8479
白皮书覆盖 AI 原生应用的 11 大关键要素,获得 15 位业界专家联名推荐,来自 40 多位一线工程师实践心的,全书合计超 20w 字,分为 11 章。
第 1 章 AI 原生应用及其架构
Aliware
第 2 章 AI 原生应用的关键要素
Aliware
- 大模型:扮演着大脑的角色,负责核心的理解、推理与生成任务。大模型的引入,赋予了应用灵活的思考与决策能力,使其真正具备智能。AI 开发框架:天然就很难收敛,不同的框架都有自己的设计模式哲学,只要定位清晰,都能获得一部分开发者群体的青睐,一家独大的情况很难出现。提示词:在 AI 领域,有一句经典的话 “Garbage In, Garbage Out”(垃圾进,垃圾出)。这句话在提示词工程中也同样适用,Prompt 的质量直接决定了 AI 生成内容的质量、相关性和准确性。RAG:其价值正在从解决幻觉这一技术问题,向赋能业务的更高层面演进。例如,媒体娱乐领域,多模态 RAG 正帮助从海量音频视频内容中检索出特定的片段,从而服务于音视频内容分发以及新兴的 AI 视频创作场景。记忆:记忆实现了模型跨越会话的连贯性、高度自适应的个性化,以及基于历史信息的深度推理。但是长期记忆存储的通常是信息的摘要或切片,而非原始对话,因此必然存在一定程度的信息保真度损失,从而干扰模型的判断。同时,记忆的引入也带来了更高的系统复杂度和额外的处理延迟。工具:主流模型供应商都已经将工具调用能力作为其大模型的原生功能进行内置,并且在模型预训练阶段对工具调用进行了特定增强。但也面临着诸如工具调用时延、工具提取参数准确性、安全鉴权等问题。网关:AI 应用正在快速演进,企业需要在安全、合规、成本、效率四重约束下交付稳定业务。AI 网关解决了传统 API 网关无法处理的模型切换、Token 经济、语义缓存和内容风控等 AI 原生的需求,为整个系统带来秩序、可靠与安全。运行时:AI 应用的业务流程往往由大模型根据用户实时意图动态生成。这意味着运行时处理的是充满不确定性的执行计划。因此提出了新的要求,即不仅要能理解和执行模型生成的动态任务,还要为整个过程提供稳定、高效和安全的保障。可观测:传统监控主要关注基础设施的性能指标与日志,难以应对 AI 应用特有的行为不可预测、输出质量波动和成本结构复杂等挑战。AI 可观测需要具备端到端全链路追踪、全栈可观测和自动化评估的功能。评估:AI 应用的行为本质上是非确定性的概率输出,即使输入相同,模型的输出也可能因上下文、训练数据分布或随机性而千差万别。有必要引入全新的评估范式 LLM-as-a-Judge,并构建一个高效的自动化评估系统,以推动 AI 应用的持续优化与可靠性提升。安全:AI 原生应用的开放性、自主性和多模态交互特性显著扩大了系统的安全风险敞口,给应用安全防护体系带来了新的挑战。应从应用安全、模型安全、数据安全、身份安全、系统和网络安全 5 方面来构建全栈的安全保护框架。
第 3 章 AI 应用开发框架
Aliware
- ReactAgent:框架中对于 Agent 的基本定义,多智能体通常是指如何编排多个 ReactAgent 互相协作解决复杂问题。
FlowAgent:FlowAgent 中包含有多个 ReactAgent,它们按照特定的流程相互协作。
SequentialAgent,串行依次执行的多个智能体的流程
ParallelAgent,可并行执行的多个智能体的流程
LoopAgent,循环执行多个智能体的流程,直到满足某个特定条件退出
LlmRoutingAgent,由大模型决策的执行哪个智能体
- A2RemoteAgent:由于 A2ARemoteAgent 属于分布式 Agent 范畴,本章节会有独立段落展开。
第 4 章 上下文工程
Aliware
- 外部知识库的动态供给:为解决 LLM 知识陈旧和领域知识缺乏的问题,上下文工程的核心是为其接入外部知识库。通过检索增强生成 RAG 技术,系统能够在接收到用户请求时,首先从企业的私有数据库、实时信息流或互联网等外部来源检索相关信息,再将这些检索到的信息与提示词一同组合成最终的上下文,引导 LLM 基于准确、实时的知识进行回答。长期与短期记忆系统:为了实现连贯且个性化的交互,上下文工程引入了记忆系统。短期记忆负责管理当前对话的上下文,确保多轮对话的流畅性。长期记忆则负责存储跨对话周期的关键信息,如用户偏好、历史决策、重要事实等,使 AI 能够记住用户,提供真正个性化的服务。
运行时的上下文管理:面对有限且昂贵的上下文窗口,特别是在长对话或复杂任务中,如何高效管理上下文至关重要。这包括一系列运行时策略,如上下文压缩与摘要,用于在保留关键信息的同时减少 Token 消耗;以及上下文重排(Re-ranking),用于解决中间遗忘问题,将最重要的信息放置在模型最关注的位置,从而提升长上下文处理的可靠性。
第 5 章 AI 工具
Aliware
- 基于 Nacos MCP Registry,用户将已有的 MCP 服务统一注册到 Nacos 上,通过 Nacos MCP Router 根据用户任务的语义描述和关键词,从 MCP Registry 中筛选出最匹配的 MCP 服务,然后将这些服务提供给模型进行决策。模型请求在经过 AI 网关调用 LLM 时,携带含有大量工具的 tool_calls 数组,基于阿里云 AI 网关的工具精选能力后,将 tool_calls 的数量压缩至目标数量,提升模型响应速度与工具选择精确性。阿里云的 AI 网关通过创建一个"All-in-One" 的 MCP Server,将用户在网关实例中注册的所有 MCP 工具进行统一聚合和管理,并提供智能的语义化检索能力,实现统一、高效的工具发现和调用体验。
第 6 章 AI 网关
Aliware
- 多模型代理:AI 网关是流量的统一入口,用来接收用户端请求,并负载均衡到后端模型,还能实现同一个接口对接多种模型,这个代理层不仅解决了调用不同模型 API 的复杂性,还通过动态路由实现了成本与性能的最佳平衡,更是提升了模型服务的可用性。多模型回退/容灾:依赖单一模型存在单点故障风险,API 的不稳定或性能下降都可能导致服务中断。AI 网关能同时对接多个模型,当单个模型出现调用失败、超时或返回质量不佳的结果时,可以自动 Fallover 到备选模型多模型,以确保服务的连续性和高可用性。消费者认证:当一个代理服务需要为多个用户或应用提供支持时,身份认证变得至关重要。通过 AI 网关清晰地识别每一个请求的来源,以便进行后续的计费、权限管理和个性化服务,确保按权限分类提供服务。内容安全防护:不同的模型拥有各自的安全策略,标准不一。在一个多模型系统中,必须建立一个统一、前置的内容安全防护层。AI 网关能通过内容安全插件,在请求送达模型之前和模型返回结果之后,对内容进行审查,过滤有害信息,确保整个应用输出的内容始终符合安全规范和合规性。Token 限流:大模型调用按 Token 计费,且单位成本远高于 CPU 计费,因此有效控制成本是高优先级需求。AI 网关提供的 Token 限流机制可以从控制单个用户的调用频率和总量,以及对服务总流量进行调控两个维度进行管理,防止滥用导致费用激增,并保障服务的稳定性。语义缓存:AI 网关提供了扩展点,可接入 Redis 实现内容缓存。一能提高效率,如果相同的输入反复出现,缓存可以避免重复运行模型,从而加快响应速度,特别是在处理常见问题时。二是降低成本,大模型 API 计费因是否命中缓存,而有所不同,缓存机制可以减少模型调用次数,以节省计算资源。三是保持一致性,缓存可以确保相同输入产生相同输出,有助于测试和合规性场景。可观测性:在一个由多个开发平台、多个模型、多个组件构成的复杂系统中,统一的可观测性是运维和优化的基石。AI 网关能提供包括对每一次调用的详细日志记录(请求内容、选择的模型、响应结果、耗时)、关键性能指标(如延迟、Token 消耗、错误率)的监控,以及端到端的链路追踪。通过可观测性,企业可以快速定位问题、分析成本构成、洞察用户行为,并为模型的选择策略提供数据驱动的优化依据。MCP 代理:面向 MCP Server,提供 MCP Server 代理、安全认证,以及统一观测、限流等治理能力,同时支持将 REST API 直接转化成 MCP Server,提供协议卸载能力,将 SSE 转换为 Streamable HTTP,避免无状态应用也要使用 SSE。工具的动态组装和智能路由:当请求携带大量工具通过 AI 网关时,通过 Query 改写及Rerank 模型将大量工具进行压缩,再转发给 LLM,可大幅降低调用耗时,并在一定程度上增加工具选取的准确性。工具的智能路由:将用户注册在 AI 网关的大量 MCP Server、工具进行集合,以 MCP 或其他形态提供语义搜索能力,客户端只需要集成这个工具即可基于用户 Query,动态搜索出最符合需求的 N 个工具。
第 7 章 AI 应用运行时
Aliware
- 会话管理:支持会话亲和调度,能够低成本、高效率地管理长程会话和状态。流程编排:内建或无缝集成复杂任务流的编排能力。安全沙箱:默认提供轻量、快速、强隔离的安全执行环境,尤其是存储隔离。极致弹性:能对 CPU 和 GPU 等异构资源实现按需伸缩,尤其对于 CPU 有从零到万的瞬时弹性。应用管理:能够管理十万至百万级的应用,应用创建没有额外费用。一直在线:一种逻辑上的长时运行,上下文持久化,有请求时快速恢复执行,无请求时自动缩 0。
成本效益:能够完美匹配 AI 应用稀疏、不确定、脉冲式的调用模式,实现真正的按价值付费。
第 8 章 AI 观测
Aliware
- 性能与可靠性问题:大模型是资源密集型的,延迟峰值和瓶颈时有发生。可观测将所有组件的数据关联起来,使工程师能够精确定位延迟的根源,是模型本身、外部 API 调用还是数据库查询。它还能追踪多步骤流程中的每一步,简化了复杂系统中的调试过程。成本问题:许多大模型服务按 Token 使用量收费,若无控制,成本可能意外飙升。可观测工具追踪每个请求的 Token 数、每日总用量等指标,当使用量出现异常高峰时发出警报,帮助团队在收到天价账单前优化提示或设置限制。
质量问题:大模型的可能输出从训练数据中继承偏见或有害内容,也很有可能产生幻觉,导致输出的内容完全不符合预期,可观测通过提供评估等工具,针对采集的 AI 应用执行过程中各个阶段的输入输出,检测是否含有不当、不准确和危险的内容,通过自动分析和评分帮助工程师及时采取行动。
第 9 章 AI 评估
Aliware
- 内在评估:此方法侧重于孤立地评估模型输出的固有质量,而不考虑其在特定任务中的应用效果。评估的维度通常包括流畅性(Fluency)、连贯性(Coherence)、语法正确性以及事实准确性等。外在评估:与内在评估相反,外在评估通过衡量模型在特定下游任务或应用中的表现来评估其质量。例如,通过评估一个由AI驱动的邮件助手是否能有效提升用户的办公效率,来判断该 AI 模型的价值。
- 自动化评估:此方法利用计算指标(如用于机器翻译的 BLEU 分数或用于文本摘要的 ROUGE 分数)或利用其他 AI 模型(如 LLM-as-a-Judge)来对模型输出进行打分。
人工评估:此方法依赖人类评估员的判断来评估AI系统的输出质量,特别是在衡量帮助性、创造力、用户满意度等主观维度时。
第 10 章 AI 安全
Aliware
- 系统风险:AI 模型软件的供应链风险、暴露面风险以及算力劫持风险。网络风险:面向公网的入侵攻击,以及内网的隔离风险。身份风险:对非人类身份(NHI)的管控,越权访问,身份冒充等。数据风险:Agent 模型训练时的数据投毒,以及输入/输出阶段的敏感信息泄漏等。模型风险:Agent 模型输入输出内容的恶意诱导、提示词攻击等风险。
应用风险:当 AI 在线上提供服务时,会面面临 Web 入侵、DDoS 攻击导致服务不可用等风险。
第 11 章 通向 ASI 之路
Aliware
- 模型能力进化:从大语言模型到世界模型,AI 模型将突破静态训练的局限,通过强化学习和动态反馈机制实现持续进化,逐步构建对物理世界的完整感知和理解能力,能够模拟复杂环境。数据飞轮升级:从静态积累到动态进化,包括上下文工程的突破和合成数据的广泛应用。AI 原生应用架构:从通用 Agent 发展到多 Agent 协同,复杂任务由大模型主导,简单重复任务由小模型执行,AI 中台沉淀基础模型能力和 Agent 服务。
写在最后
Aliware
