谢小呆 2025-09-13 08:03 广东
在现有的DevOps实践上+AI,并不是真正的技术升级。
写在前面
你的平台,为谁而建?
AI将成为你的“头号客户”
人类开发者关心什么? 精美的UI、清晰的文档、顺滑的工作流。他们希望平台像个贴心的管家。
AI代理关心什么? 机器能看懂的API契约(比如OpenAPI规范)、毫秒级的响应延迟、结构化的错误信息、不需要图形界面的认证流程。它希望平台是个精准、高效的武器库。承认并服务好这位新客户,是平台工程迈向2.0的起点。这意味着,我们必须把面向 AI 的交互设计,放到和面向人类同等重要的战略高度。从“自动化”到“授权”:不止是文字游戏
自动化,就像是给机器一本详细的操作手册,上面写着“第一步,拧螺丝A;第二步,拧螺丝B”。机器是老实的执行者,但手册上没写的,它一概不会。
授权,则是告诉机器一个目标:“把这台宜家椅子装好”。机器需要自己看懂说明书(API契约),规划步骤,发现螺丝拧反了能自己纠正,甚至发现少了零件会主动报告。在授权模式下,AI不再是被动的工具,而是能干活、能思考、能解决问题的“智能系统”。这能把我们从大量重复的、确定性的工作中解放出来,真正聚焦在高阶设计、产品创新这些更有价值的事情上。这两种模式的区别,决定了平台的一切:搭建授权式平台的四大支柱
告别“黄金路径”,拥抱“动态策略”
API的未来:Agent优先和“工具市场”
封装现有工具:把公司里成熟的CI/CD、测试、监控等工具,用MCP包装一下,放上货架。
开放接入:让业务团队也能把他们开发的工具、甚至是业务系统上架,供所有AI使用。这样一来,平台就从一个封闭的工厂,变成了一个繁荣的、可扩展的“AI工具应用商店”。高级安全:从“护栏”到“隔离舱”
独立的AI服务账户:为每个AI代理建立专用的服务账户。这能将AI的操作日志与人类的日志彻底分离,确保问题发生时能够清晰追溯、快速定位,并在AI失控时及时封锁账户。
M2M认证与动态令牌:杜绝使用长期有效的静态密码,必须通过OAuth 2.0这类M2M认证标准,为AI提供动态生成、用完即毁且权限最小化的临时令牌。“护栏”的目的是防止好人犯错,而“隔离舱”的目的是让“坏人”或“失控的人”无法作恶。这是两种完全不同的安全哲学。深度可观测性:看穿AI的“心思”
是谁(什么事件)触发了AI?
它为了达成目标,调用了哪些工具?它调用工具时,传入的参数是什么?返回的结果又是什么?最关键的:它当时是怎么“想”的?(把AI的推理过程作为追踪日志的一部分)只有看清了AI的“心思”,我们才能真正地调试、评估和优化它。你的平台AI友好吗?
一份拿来即用的体检表
AI友好度成熟度:从L1到L5
L1 - 基础自动化 (Foundational Automation):平台刚脱离手工作坊模式。有一些零散的自动化脚本,例如用于构建或部署,但AI基本只能执行预设好的简单任务,没人看着就会出乱子。
L2 - 标准化与辅助增强 (Standardized & AI-Augmented):有了一条标准化的CI/CD流水线,流程和门禁都已明确。AI开始在特定环节“打辅助”,例如用AI Code 扫描提供建议,但它仍是一个被动的工具。L3 - AI协同与端到端打通 (AI Collaboration & End-to-End):这是一个关键的跃升。AI不再只是个辅助工具,而是实现了端到端的打通。AI生成的代码或配置,能够自动触发并无缝调用系统完成后续的集成、测试和部署,实现了“智能化的软件交付黄金之路”。L4 - AI自主驱动与智能编排 (AI-Driven & Intelligent Orchestration):平台的设计优先考虑AI(Agent-First)。AI具备了自主驱动能力,能够理解系统的复杂关系,基于高层目标(例如“提升欧洲区服务的稳定性”)自动编排和执行一系列复杂的DevOps活动。API、安全和日志都是为AI量身定做的。L5 - AI原生与完全自治 (AI-Native & Fully Autonomous):这是平台的终极形态。整个生命周期高度智能化,AI能够理解模糊的需求,自主规划、设计、执行和优化整个DevTCOps流程,甚至能够自我进化。人类的角色转变为最终价值的验收者和最高目标的设定者。AI友好度度评估模型(精简版)
评估维度 | L0 级:手工与孤岛 | L1 级:基础自动化 | L2 级:标准化、集成与辅助增强 | L3 级:AI 协同与端到端自动化 | L4 级:AI 自主驱动与智能编排 | L5 级:AI 完全自治 |
| 目标状态描述 | 依赖人工,环节孤立 | 引入点状自动化 | 实现 CI/CD 自动化,AI 辅助 | AI 触发并完成交付流程 | AI 自主编排 DevOps 活动 | AI 全生命周期智能交付 |
| 接口可程序化程度 | 依赖 GUI,无 API | 有 CLI,API 有限 | 有核心 API,缺 AI 优化 | API 全面,支持 AI 协议 | API 为 AI 设计,可自发现 | 接口为 AI 深度优化 |
| 配置与管理的自动化水平 | 纯手动 | CLI 执行部分任务 | 核心配置可 API 操作 | 支持 “配置即代码” | AI 管理策略,优化配置 | 配置与 AI 融合,AI 自主优化 |
| 状态透明性与可观测性 | 状态仅 GUI 可见 | CLI 输出有限信息 | API 可访问基本信息 | 系统状态全可查,供 AI 决策 | 深层信息对 AI 透明 | AI 有 “上帝视角”,闭环决策 |
| 错误处理与韧性 | 错误模糊,无恢复 | CLI 有退出码,难解析 | API 返回结构化错误,难恢复 | 错误信息详细,AI 可修复 | AI 设计复杂修复流程 | 工具自愈或助 AI 修复 |
| 安全性与合规性 | 无 AI 安全考虑 | AI 共享权限,无审计 | 基础认证,日志缺关联 | AI 独立认证,考虑合规 | 基于策略控制,监控 AI | AI 维护安全合规 |
| 文档与开发者体验 | 无文档或仅面向用户 | CLI 有文档,API 简陋 | 有核心 API 文档,缺 AI 需求 | API 文档全,有模拟环境 | 文档含高级模式,有仿真环境 | 接口自解释,AI 自主学习 |
| 生态系统与集成性 | 孤立系统,无集成 | 简单导入导出,难自动化 | 有 API,集成需定制 | 遵循标准,支持 AI 集成 | 拥抱标准,有官方连接器 | 工具是开放服务,AI 自主集成 |
怎么用这张表?
组个队:拉上工具平台建设相关的同事。
圈定范围:先从CI/CD、Kanban 这些核心工具开始。打分:诚实地给每个工具在每个维度上打分。找差距:看看离L4(AI自主驱动)这个关键节点还差多远,瓶颈在哪。定计划:针对瓶颈,制定改造计划,优先解决那些最卡脖子的问题。写在最后:给技术领袖的行动指南
接口层面:发起一场“Agent优先”的API文化运动。要求所有新API必须提供机器可读的OpenAPI契约。启动MCP协议的试点,为未来的“工具市场”播下种子。
工作流层面:投资“策略即代码”(Policy-as-Code)技术,逐步用动态、灵活的策略引擎,取代僵化、固定的“黄金路径”。安全层面:将安全理念从“护栏”升级到“遏制”。把为AI提供独立的、沙箱化的、最小权限的“隔离舱”作为平台的基础能力,而不是事后补丁。监控层面:投资深度可观测性,特别是遵循OpenTelemetry GenAI标准。我们的目标不应满足于看到系统的表象,而是要能清晰地“看穿”AI的思考过程。5、从一个最小可行平台(MVP)开始:不要试图一步建成终极平台。选择一个高价值的场景(例如,一个自主的故障诊断Agent),围绕它构建一个端到端的“授权式”平台MVP。用这个MVP的成功,来验证理念、积累经验、赢得支持。AI正从个人的AI Copilot,进化到协同的Team AI,其终局必然是驱动核心流程的Company AI。在这样的未来,平台的用户何必是人?我们今天构建的应用,未来就是为了增强另一个AI的能力。 平台工程2.0的使命,不仅要承载传统的软件1.0,更要支撑起企业软件2.0(以数据为中心)和软件3.0(以模型为中心)的工程化落地。若想真正实现AI驱动的研发价值流,这条路,是必经之路。作者丨谢小呆
来源丨公众号:谢小呆的碎碎念(ID:gh_91ed637d917c)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
