PaperWeekly 08月27日
通义实验室发布GUI-Owl与Mobile-Agent-v3,引领GUI自动化新时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义实验室近日发布了GUI-Owl和基于它的Mobile-Agent-v3智能体协同框架。GUI-Owl在手机、电脑和Web端均实现了开源SOTA(State-of-the-Art)性能,尤其在AndroidWorld和OSworld-verified榜单上表现突出。GUI-Owl不仅能独立完成复杂的GUI任务,还能在多智能体框架中扮演问答、描述、定位等不同角色。Mobile-Agent-v3在此基础上构建了四大专业智能体协同框架,进一步提升了移动端任务处理的效率和流畅性。该框架还引入了自进化GUI轨迹生产技术,通过云端基础设施实现全自动化高质量数据采集,并首创了轨迹感知强化学习策略,显著提升了成功率和稳定性。GUI-Owl与Mobile-Agent-v3的全面开源,为GUI自动化领域的研究与应用注入了新的活力。

🌟 **全平台GUI操作能力**:GUI-Owl框架实现了对移动端、PC端和Web端三大平台的全面覆盖,并在十大核心榜单上取得了开源SOTA(State-of-the-Art)的领先成绩,展示了其在跨平台GUI自动化领域的强大实力和广泛适用性。

🤖 **多功能智能体与协同框架**:GUI-Owl本身可独立完成复杂GUI任务,同时在Mobile-Agent-v3框架下,可作为问答、描述、定位等不同角色的专业智能体。Mobile-Agent-v3通过四大专业智能体的协同,实现了任务的高效分工与无缝协作,显著提升了移动端任务处理的流畅度与智能化水平。

🚀 **自进化数据生产与性能优化**:该框架引入了基于云的多操作系统基础设施,构建了“自进化GUI轨迹生产流水线”,实现了全自动化高质量数据采集。此外,首创的轨迹感知相对策略优化(TRPO)技术,有效提升了模型在真实交互环境中的成功率和稳定性,为GUI智能体的持续进化奠定了基础。

💡 **多模态理解与执行闭环**:GUI-Owl基于Qwen2.5-VL构建,统一集成了感知、规划、决策和定位等核心能力,并将GUI交互建模为多轮决策过程。其模型输出可直接转换为ADB命令或pyautogui代码等实际设备操作,形成了从感知到执行的完整闭环智能交互系统,展现了强大的端到端能力。

📊 **卓越的评估表现**:在多个关键基准测试中,GUI-Owl均取得了优异的成绩。例如,在MMBench-GUI-L1测试中,其在不同难度级别上的准确率均大幅超越现有模型;在AndroidWorld和OSWorld等真实交互环境中,GUI-Owl及其集成框架Mobile-Agent-v3也展现出领先的端到端智能体能力,证明了其在复杂GUI任务解决方面的卓越性能。

原创 让你更懂AI的 2025-08-27 13:08 北京

一专多能的GUI大脑

近日,通义实验室发布了 GUI-Owl 和基于 GUI-Owl 的强大多智能体协同框架 Mobile-Agent-v3它不仅能独立完成复杂的 GUI 任务,同时可以单独负责不同的角色,如问答、描述、定位。

GUI-Owl&Mobile-Agent-v3 在手机端和电脑端的涵盖定位、GUI 理解、在线环境的 GUI 能力等多个核心榜单上均取得开源 SOTA。

GUI-Owl-7B 实现 AndroidWorld 66.4,  OSworld-verified 29.4 的水平,Mobile-Agent-v3 能进一步提升:AndroidWorld 达到 73.3,OSworld-verified 达到 37.7。

亮点速览:

论文标题:

Mobile-Agent-v3: Foundamental Agents for GUI Automation

论文链接:

https://arxiv.org/abs/2508.15144

项目主页:

https://github.com/X-PLUG/MobileAgent

视频展示:

https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file#demo

▲ 走进Mobile-Agent-v3,一览其核心能力与协同框架

▲ PC端演示:在桌面端新建一份空白PPT,并在首页插入艺术字,内容为「Alibaba」。

▲ Web端演示:在Skyscanner上查询9月18日北京飞往巴黎、9月21日返程的往返机票。

▲ 手机端演示在小红书搜索「济南旅游攻略」,按收藏量排序,并保存第一篇笔记。

GUI-Owl & Mobile-Agent-v3总览

GUI-Owl

基于 Qwen2.5-VL 构建的革命性 GUI-Owl 统一集成感知、规划、决策和定位等核心能力,通过广泛多样化数据集后训练实现跨移动端、PC 端和 Web 平台的无缝 GUI 交互!

工作流程创新性地将 GUI 交互建模为多轮决策过程,采用灵活的 Qwen 函数调用格式和"推理-决策-结论"交互流程设计,通过强化学习技术深度对齐多样化下游需求,不仅实现跨移动端、PC 端和 Web 平台的自主多轮交互,更支持问答、描述、规划等专业应用和多智能体协作。

模型输出可直接转换为 ADB 命令或 pyautogui 代码等实际设备操作,形成从感知到执行的完整闭环智能交互系统。

训练范式基于 Qwen2.5-VL 初始化的 GUI-Owl 采用创新三阶段训练流程,逐步强化 GUI 理解、推理和稳健执行能力。

Mobile-Agent-v3

基于 GUI-Owl 多智能体协作能力,研究团队重磅推出 Mobile-Agent-v3 框架,通过四大专业智能体协调实现稳健、自适应的长时序 GUI 任务自动化!

大规模多操作系统基建,实现自进化GUI轨迹自动生产

为提高 GUI 数据采集效率和质量,该工作构建了业界领先的大规模 GUI 交互环境基础设施,基于阿里云的云手机和云电脑技术,打造一个强大的跨移动端、PC 端和 Web 端动态虚拟环境

基于该强大的虚拟环境,改工作构建了一个"自进化 GUI 轨迹生产流水线"(Self-Evolving GUI Trajectory Production pipeline)——通过高质量查询生成、GUI-Owl 与 Mobile-Agent-v3 模型交互、严格正确性判断和针对性指导生成,形成持续改进的闭环系统。

这一突破性架构不仅大幅提升了数据集质量和模型能力,更实现了高效可扩展的模型开发,显著减少了人工标注需求,为 GUI 智能体的产业化应用奠定了坚实基础!

另外,清洗后的优质数据直接用于强化微调,形成模型能力持续提升的正向循环,真正实现了减少人工标注自我进化改进智能化训练新范式

高质量query生成(High-Quality Query Generation)

轨迹正确性评估(Trajectory Correctness Judgment Module)创新步骤级+轨迹级双重评判架构,这一综合性评估体系完美结合了细粒度步骤洞察和整体轨迹评估,为 GUI-Owl 模型提供高质量训练数据保障!

针对性指令指南生成(Query-specific Guidance Generation):利用成功轨迹自动生成针对性指导,通过 VLM 动作描述、质量控制(过滤次优动作)和 LLM 指导归总合成三步流程,大幅提升模型处理复杂查询的能力,同时减少大量推演和人工标注需求!

自我进化(Self-Evolving):利用产出的高质量数据对 GUI-Owl 进行强化训练,然后再进行数据产出,形成自我进化的正向循环。

丰富多样的基础Agent能力构建

为突破 GUI-Owl 不仅是单独的智能体,更是能作为多智能体框架单独组建的强大基础能力引擎!研究团队精心构建涵盖定位 (grounding)描述 (caption) 和规划 (planning) 等核心能力的多样化数据集,与通用指令数据巧妙融合训练。

令人惊喜的是,GUI-Owl 展现出卓越的零样本 GUI 问答能力面向未见任务的通用指令遵循能力,真正实现了从单一功能到全栈能力的华丽蜕变,为下游应用和多智能体集成提供了前所未有的灵活性和扩展性!

定位(Grounding)

为实现 GUI-Owl 的对 GUI 界面的精准定位以及予以理解能力,研究团队提出从多个来源的数据源构建 2 种定位任务数据。

UI 元素定位(UI element grounding)为构建 UI 元素基于功能以及外表布局双重定位能力,融合三大数据源进行构造定位数据。

1. 开源数据集整合 UI-Vision 和 GUI-R1 等公开资源;

2. 基于 A11y tree 的定位数据合成,提取移动端和 PC 端 UI 元素边界框和功能描述,并结合 Qwen2.5VL 生成外观布局描述;

3. 针对 PC 定位数据稀缺问题,从 Google Images 爬取多样化截图,利用 SAM 分割复杂 UI 组件实现密集定位。另外针对该数据还利用 Omniparser V2 检测结果清洗标注噪声,并利用大语言模型将原始指令重写为更自然的任务导向描述。

细粒度单词/字符文本定位(fine-grained words and characters grounding):构建文档图像数据集,结合 OCR 工具提取文本内容和空间位置,实现单词和字符级别的精准定位能力,为复杂 GUI 交互奠定坚实基础!

任务规划(Task Planning)

针对长时序复杂任务执行需求,研究团队创新构建双重视角的任务规划数据集,全面提升模型的背景知识和规划能力。

历史轨迹知识蒸馏(Distilling from Historical Trajectories)从成功轨迹数据中提取精细化页面转换描述,结合模型历史动作通过 LLM 组织成任务执行手册,并通过 GUI-Owl 验证手册质量,以任务完成率变化为评估标准实现闭环优化。

大规模预训练 LLM 知识蒸馏(Distilling from Large-scale Pretrained LLM)收集主流应用清单,通过人工标注或模型合成设计跨多功能甚至多应用的复杂任务,严格过滤明显错误的任务规范,利用 Qwen3-235B 等大模型生成规划方案并进一步整合清洗,产出高质量任务特定规划数据。

动作语义理解(Action Semantic)

研究团队深度洞察到模型感知动作对页面状态变化影响的关键重要性,创新构建双层动作语义数据集。

动作及对应语义生成第一层要求模型基于前后截图直接预测中间动作的类型和参数,充分利用离线收集的轨迹数据。第二层进一步要求模型生成涵盖执行动作及其效果的自然语言描述。

数据筛选为确保标注质量,团队设计了精巧的工作流程:利用 Qwen-VL-Max 等多模态模型从动作前截图和参数生成动作描述(坐标类动作特别标注目标位置),随后分析前后图像的页面变化并评估语义一致性,通过多轮投票机制筛选高质量动作描述。这一创新架构显著提升了模型对 GUI 交互因果关系的深度理解能力。

稳健推理与反思(Enhance Robust Reasoning)

研究团队深度认识到推理能力是基础智能体的核心,使模型超越简单动作模仿,真正掌握底层逻辑规律。创新提出多样化数据合成策略丰富推理模式,结合强化学习与真实环境动态深度对齐。

离线提示引导拒绝采样(Offline Hint-Guided Rejection Sampling)基于收集轨迹进行推理数据合成,利用 VLM 为每步生成推理内容并独立用于动作预测,通过预测动作与真实动作匹配度验证推理有效性。

采用多样化提示风格(固定思维链模板、最简推理过程等)鼓励推理模式多样性,对 LM 难以获得一致动作的步骤进行人工验证并反馈指导。

多智能体框架知识蒸馏(Distillation from Multi-Agent Framework)突破单一模型固有偏见限制,利用 Mobile-Agent-v3 多专业角色协作的优势,收集各智能体输出并通过大语言模型整合多元推理内容,形成统一端到端推理输出,与动作序列配对构建高质量推理训练数据集。

迭代在线拒绝采样(Iterative Online Rejection Sampling)构建推理能力与任务完成能力相互促进的正向循环,采用端到端生成和 Mobile-Agent-v3 集成双模式轨迹推演,持续利用新生成轨迹数据进行模型训练,实现推理能力的螺旋式提升。

规模化的多任务融合RL

基础设施构建

在丰富轨迹和推理数据扩展模型知识库和推理能力基础上,研究团队创新引入强化学习技术,显著降低模型不确定性并提升实际应用稳定性。为支持高效灵活的环境多轮交互训练,团队开发了通用基础设施架构:

统一多任务训练接口(Unified Interface for multi-task training)基于统一任务插件接口构建,标准化单轮推理和复杂多轮智能体任务交互,模块化设计实现多样化新环境和任务的无缝集成,无需修改核心基础设施。

解耦可控推演机制(Decoupled, Controllable Rollout)创新性地将经验生成(rollout)阶段与策略更新解耦,为操作者提供数据供应链的精确控制。

支持从严格同步的 on-policy 模式到异步略 off-policy 模式的策略遵循度调节,实现推理优化硬件上的资源部署以最大化吞吐量,通过细粒度控制在优化保证、速度和成本间达到最优平衡。

任务融合

研究团队创新应用 GRPO 训练静态任务,并推出轨迹感知相对策略优化(TRPO)策略应对在线环境挑战。针对不同下游强化学习任务精心设计数据准备方法:

精准定位任务优化基于 GUI-R1 和 UI-Vision 构建基础数据集,特别融入高难度细粒度定位样本(目标 UI 区域占截图面积<0.1%),通过 8 轮采样迭代筛选部分失败案例作为 RL 优化训练语料。

单轮强化学习增强直接从高质量离线交互轨迹的单步数据中提取训练数据,构建单步动作能力基础,并在虚拟环境中进行在线强化学习,使用基于规则或评判器的奖励信号。

轨迹感知 TRPO 创新算法针对长序列稀疏奖励挑战,采用轨迹级整体评估策略,通过标准化优势估计提供稳定学习信号,将轨迹级优势均匀分配给每个动作步骤,有效解决信用分配问题。大幅提升在线 GUI 任务的能力。

全面测评

强大的定位能力

利用 ScreenSpot V2, ScreenSpot Pro, OSWorld-G 以及 MMBench-GUI L2 四个测试集全面评测 GUI-Owl 的定位能力,GUI-Owl-7B 达到了所有开源 7B 模型的 SOTA 水平。

全面的GUI理解能力

为全面评估 GUI 模型的界面状态理解和响应生成能力,采用 MMBench-GUI-L1 和 Android Control 两个关键基准进行测试。

MMBench-GUI-L1 通过问答格式评估模型的 UI 理解和单步决策能力,GUI-Owl 在简单、中等和困难级别上分别取得了 84.5、86.9 和 90.9 的优异成绩,大幅超越所有现有模型。

在 Android Control 基准上,GUI-Owl 达到 72.8 分,在所有 7B 模型中表现最佳,而 GUI-Owl-32B 更是以 76.6 分的成绩超越了当前最先进的 UI-TARS-72B 模型。充分体现了 GUI-Owl 更加全面和充足的 GUI 知识储备优势。

在线环境下的轨迹级别GUI Agent能力

为克服单步决策评估中错误不累积和真值序列偏好性的局限,采用 AndroidWorld 和 OSWorld 两个真实交互环境进行端到端智能体能力的综合评估。

实验结果显示,GUI-Owl-7B 在 AndroidWorld 上超越了 UITARS 1.5;在 OSWorld 上,GUI-Owl-7B 同样优于开源的 OpenCUA-7B 模型。

进一步地,GUI-Owl-32B 集成到 Mobile-Agent-v3 后在 OSWorld-Verified 和 AndroidWorld 上分别达到 37.7 和 73.3 的优异成绩,充分证明了 GUI-Owl 不仅具备独立任务解决能力,更适合集成到多智能体协作框架中发挥协同优势。

GUI-Owl在不同智能体框架上的适配性

在 Mobile-Agent-E 和 Agent-S2 两大多智能体框架中整合不同的 VLMs,GUI-Owl 在其中分别选用 Mobile-Agent-E 以及 Agent-S2 作为 AndroidWorld 以及 OSWorld 的评测框架进行评测,GUI-Owl 全面超过 UI-TARS-1.5、Qwen2.5-VL 等知名开源模型甚至闭源模型 Seed-1.5-VL。

GUI-Owl-32B 创造性地达到 AndroidWorld 62.1 分和 OSWorld-Verified 子集 48.4 分的最高成绩,凭借卓越的指令遵循能力和精准的视觉元素定位,显著减少多步骤任务中的错误累积,成为 GUI 智能体最稳健高效的"智慧大脑"。

结语

GUI-Owl,一个原生端到端多模态智能体模型,在单一可扩展框架内统一了感知、定位、推理、规划和动作执行能力,专门用于 GUI 自动化任务。GUI-Owl 的成功验证了端到端多模态架构在复杂 GUI 任务中的有效性,为未来智能交互系统的发展奠定了重要基础。

另外,Mobile-Agent-v3 通过精准分工、无缝协作,进一步提升 GUI-Owl 的能力上限,使任务处理更加高效顺畅!

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GUI-Owl Mobile-Agent-v3 AI GUI自动化 智能体 通义实验室 SOTA Reinforcement Learning Multimodal AI
相关文章