特工宇宙 09月11日
AI 测试验收新范式:MetaGPT 用户智能体引领全链路自主化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI 生成电商网站的功能测试难题,MetaGPT 用户智能体应运而生。这款具备产品经理和 AI 测试工程师双重身份的智能体,严格验收产品设计,并 7x24 小时进行全面测试,杜绝“能跑就行”的平庸方案。RealDevWorld 框架结合 RealDevBench 数据集和 AppEvalPilot 评估系统,实现端到端自动化评测,专为生产级代码提供自动化端到端交互测试,标志着 AI 软件测试迎来范式级突破。

🔍 MetaGPT 用户智能体具备产品经理和 AI 测试工程师的双重身份,能够严格按照产品设计和场景边界进行验收,并进行 7x24 小时的全面测试,从源头杜绝低质量的 AI 生成方案。

🌐 RealDevWorld 框架包含 RealDevBench 数据集和 AppEvalPilot 评估系统,提供端到端自动化评测,专为生产级代码的自动化端到端交互测试,是 AI 软件测试的范式级突破。

📊 RealDevBench 数据集包含 194 个开放式软件工程任务,覆盖显示、分析、游戏和数据四大领域,支持图像、音频、文本、表格等多模态输入,涵盖从视觉组件到动态交互的多层次功能。

🤖 AppEvalPilot 评估系统采用 Agent-as-a-Judge 范式,模拟用户验收与评估流程,通过测试用例生成、测试用例执行和结果评估三个阶段,实现自动化、端到端的软件交互测试。

🚀 AI 代码生成爆发式增长,传统评估方式难以胜任,自主评估为大规模落地应用提供了新范式,引领开发者从繁重的手动测试中解放出来,专注于创新功能开发和架构优化。

原创 特工少女 2025-09-03 18:45 浙江

测试精准度突破 92%,评估一致性全面超越 Claude,告别手动测试时代。

当你刚用 AI 生成了一个精美的电商网站,却在演示时购物车结账功能存在隐藏 Bug?

AI 能在数分钟内生成完整的电商网站,开发者却像“数字农民工”花几小时甚至几天手动测试每个功能、验收每个模块。每次面对新的界面布局,都要重新编写测试脚本,整个流程既低效又容易出错。

这正是当前 AI 软件领域的核心矛盾:代码生成智能化狂飙突进,测试验收却仍停留在“手工时代”。

针对这一痛点,MetaGPT 推出用户智能体,具备“双重身份”设计:既是一位资深的产品经理,严格按照产品设计和场景边界进行验收;也是一位不知疲倦的 AI 测试工程师,7×24 小时进行全面测试,从源头杜绝“能跑就行”的平庸方案,真正实现从代码生成到质量保障的全链路自主化。

用户智能体技术报告现已正式发布。

由来自 DeepWisdom、复旦大学、香港科技大学(广州)、斯坦福大学、耶鲁大学和新加坡国立大学等顶尖机构组成的研究团队,发布 RealDevWorld 框架,通过 AppEvalPilot 实现端到端自动化评测,专为生产级代码提供自动化端到端交互测试,标志着 AI 软件测试迎来范式级突破。

论文地址:https://arxiv.org/pdf/2508.14104

开源代码:https://github.com/tanghaom/AppEvalPilot

项目主页:https://realdevworld.metadl.com/

开源数据集:https://huggingface.co/datasets/stellaHsr-mm/RealDevBench

测试轨迹对比: https://appevalpilot.realdev.world/

研究背景

AI 的快速发展,尤其是 LLM 和编程智能体的崛起,正在重塑软件开发格局。AI 已从最初生成简单代码片段,发展到能够自主构建包含图形界面和复杂交互逻辑的完整应用程序。

然而,随着能力的提升,如何建立高效全面的评估体系来衡量这类复杂软件的质量,特别是包含图形用户界面(GUI)和用户交互的应用,成为亟待解决的挑战。

现有评估方法主要依赖静态代码分析和单元测试,局限于函数级别的功能验证,依赖人工编写测试代码,主要适用于基础逻辑功能检测。

然而,对于需要通过复杂操作交互(如绘图、拖拽操作)和动态反馈机制(如实时搜索、游戏操作)进行的功能测评,传统方法缺乏有效的评估能力

当前 AI 生成的软件,如博客网站、工具应用、游戏等,包含丰富的交互操作和功能逻辑,你无法通过单一的代码审查或者静态评估,知道应用程序是否真正“能用”,直到你亲自去点击它、与它互动,并观察它如何响应,才能全面评估软件的表现。

因此,能够模拟人类交互、持续进行动态测试的智能化评估方法至关重要,它不仅能全面验证功能完整性和可用性,还能推动 AI 生成软件的质量评估迈向生产级水准。

如图 1 所示,软件开发测评基准不断演进:评估方式越来越智能、自主,评估对象也从简单的函数代码,逐渐扩展到完整仓库,最终迈向生产级别的代码质量评估。

RealDevWorld:全新的评估框架

我们提出了基于“Agent-as-a-Judge”的评估框架 RealDevWorld,包含软件开发任务数据集 RealDevBench 和评估智能体 AppEvalPilot

RealDevBench:多领域开放软件任务数据集

RealDevBench 包含 194 个开放式软件工程任务,覆盖显示、分析、游戏和数据四大领域,具有三大特点:

1. 从零构建完整仓库;

2. 支持图像、音频、文本、表格等多模态输入;

3. 涵盖从视觉组件到动态交互的多层次功能。

如下图所示,RealDevBench 中的每个任务由三个部分构成,以模拟真实的软件开发场景:

1. 需求描述 (Requirement Description):简要的文本说明,用于概括项目的目的与背景;

2. 功能列表 (Feature List):结构化的功能目标清单,明确系统需要实现的功能并作为成功判定的标准;

3. 补充材料 (Supplementary Materials):与任务相关的额外资源,如图像、音频或数据集,引入更贴近现实的复杂性;

AppEvalPilot:基于 Agent 的自动化评估系统

为实现自动化、端到端的软件交互测试,我们提出了具备 GUI 能力的评估智能体 AppEvalPilot,采用 Agent-as-a-Judge 范式,模拟用户验收与评估流程,完成从需求到测试的全链路过程。其评估流程分为三阶段(如下图所示):

1. 测试用例生成:结合少样本学习与领域知识(如游戏机制、数据安全协议),自动生成 15–20 个高质量上下文相关用例,并通过结构化提示模拟专业测试工程师。

2. 测试用例执行:Agent 基于 GUI 多模态交互能力操作软件,结合 A11yTree 文本信息(XML)与视觉信息(OCR、图标、截图等)实现页面解析和元素定位。Agent基于四类原子动作:Open(启动应用程序)、Run(鼠标键盘模拟,如Type、Click、Scroll等)、Tell(输出结果)、Stop(结束流程),将测试用例转换为有序多步骤执行序列,通过动作组合自主完成表单填写、网页导航、多级菜单操作等复杂交互。Agent 采用 Plan-Act 执行框架,集成反思机制实现规划动态调整,结合记忆机制优化关键任务状态记录,提升长程任务中的稳定性和自适应能力。

3. 结果评估:根据 RealDevBench 的功能目标,将执行结果分类为 Pass / Fail / Uncertain,生成结构化报告,并量化计算功能列表级或测试用例级分数。

评估效果

针对软件质量自动评估能力,研究者们首先对 AppEvalPilot 进行了全面的测评,围绕两个关键研究问题:

1. AppEvalPilot 能否作为可靠的自动化评估方法用于 LLM 生成的软件的基准测评?

2. 与现有评估方法相比,AppEvalPilot 评估软件质量的效果如何?

(1)AppEvalPilot 能力验证

研究团队从 RealDevBench 中选取 49 个任务,分别进行测试用例级别和功能需求级别的标注,然后分别用 AppEvalPilot 和多个先进多模态大模型及 GUI 智能体进行对比,并采用准确性和人工评分一致性进行评估。

结果如下表所示,AppEvalPilot 表现优异,在测试用例级别准确性上达到 0.92,和人工评分一致性达到 0.81,超过 Claude、WebVoyager 等基线;在功能需求级别的评估一致性达到 0.85,远超 Browser-Use 的 0.58。同时,AppEvalPilot 的单应用的平均评估耗时为 9min,平均成本约为 0.26 美金。

(2)对比评估分析

研究团队在 49 个软件项目对比了动态评估方法(AppEvalPilot)和两种静态评估方法:代码质量评估(Code Quality)和视觉质量评估(Visual Quality)。

如图所示,实验结果表明,传统静态评估方法存在显著局限性:代码质量评估和视觉质量评估的偏差分别比 AppEvalPilot 高出 2.79 倍和 3.34 倍,而 AppEvalPilot 与人工评估的重合率达到 0.96,凸显了动态交互评估的优越性。

(3)RealDevBench 测评分析

研究团队基于 RealDevBench-Test 对多种先进 LLM、Agent 系统的代码生成能力进行了全面测评(见下图)。结果表明,单一 LLM 在真实软件开发场景中表现有限,即便是最新的 Kimi-K2、Claude-3.7-Sonnet 等先进模型,软件质量评分仍低于 0.4,普遍存在交互不完整、功能缺失和可部署性差等问题,而纯视觉和静态代码评估无法充分量化这些局限性。

相比之下,Agent 系统在复杂的软件开发任务上具备优势,在 Agent Quality 上相比于 LLM 平均提升 0.27,这主要是由于 Agent 系统能够结合设计、开发、执行验证等来提升代码可用性。

开启全自主质控新时代

面对 AI 代码生成爆发式增长,传统评估方式难以胜任,自主评估为大规模落地应用提供了新范式。RealDevWorld 通过 AppEvalPilot 实现端到端自动化评测,全面覆盖软件功能完成度、交互可用性和动态运行表现。

这不仅仅是评测工具的改进,更是自主评估范式的变革。 当 AI 系统能够像资深工程师一样自主思考软件质量,像产品经理一样自发反馈用户体验,像测试专家一样自动识别潜在问题时,我们正在见证从人工把关到智能自治质控的跨越。

“我们要让测试验收像代码生成一样智能高效,彻底告别手动测试时代”,项目负责人表示。这一突破意味着从个人开发者到大型科技公司,都将告别“AI 生成代码、人工手动测试”的低效模式,将开发者从繁重的手动测试中解放出来,专注于创新功能开发和架构优化,真正迎来端到端智能化开发新时代。

图片

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 测试 MetaGPT RealDevWorld AppEvalPilot 自动化评估 软件开发
相关文章