原创 让你更懂AI的 2025-08-27 13:08 北京
一专多能的GUI大脑
近日,通义实验室发布了 GUI-Owl 和基于 GUI-Owl 的强大多智能体协同框架 Mobile-Agent-v3。它不仅能独立完成复杂的 GUI 任务,同时可以单独负责不同的角色,如问答、描述、定位。
GUI-Owl&Mobile-Agent-v3 在手机端和电脑端的涵盖定位、GUI 理解、在线环境的 GUI 能力等多个核心榜单上均取得开源 SOTA。
GUI-Owl-7B 实现 AndroidWorld 66.4, OSworld-verified 29.4 的水平,Mobile-Agent-v3 能进一步提升:AndroidWorld 达到 73.3,OSworld-verified 达到 37.7。
亮点速览:
🏆全平台制霸:mobile+web+pc 全平台界面操作全覆盖,核心十大榜单开源 SOTA。
💪一专多能:GUI-Owl 既能独立完成一个复杂任务,又是全能助手-在多智能体框架中可扮演不同角色,问答/描述/定位样样精通。
🤖多智能体协同框架:以 GUI-Owl 为核心,Mobile-Agent-v3 构建四大专业智能体协同框架——既能精准分工又能无缝协作,让移动端任务处理高效流畅。
🔧自进化数据生产黑科技:引入基于云的多操作系统基础设施,提出自进化 GUI 轨迹生产框架,全自动化高质量数据采集利器。
🚀轨迹感知强化:首创轨迹感知相对策略优化(TRPO),OSWorld-Verified 成功率狂飙 8 个百分点。
🎁全面开源:GUI-Owl & Mobile-Agent-v3 框架同步开源。
论文标题:
Mobile-Agent-v3: Foundamental Agents for GUI Automation
论文链接:
https://arxiv.org/abs/2508.15144
项目主页:
https://github.com/X-PLUG/MobileAgent
视频展示:
https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file#demo
▲ 走进Mobile-Agent-v3,一览其核心能力与协同框架
▲ PC端演示:在桌面端新建一份空白PPT,并在首页插入艺术字,内容为「Alibaba」。
▲ Web端演示:在Skyscanner上查询9月18日北京飞往巴黎、9月21日返程的往返机票。
▲ 手机端演示在小红书搜索「济南旅游攻略」,按收藏量排序,并保存第一篇笔记。
GUI-Owl
基于 Qwen2.5-VL 构建的革命性 GUI-Owl 统一集成感知、规划、决策和定位等核心能力,通过广泛多样化数据集后训练实现跨移动端、PC 端和 Web 平台的无缝 GUI 交互!
工作流程:创新性地将 GUI 交互建模为多轮决策过程,采用灵活的 Qwen 函数调用格式和"推理-决策-结论"交互流程设计,通过强化学习技术深度对齐多样化下游需求,不仅实现跨移动端、PC 端和 Web 平台的自主多轮交互,更支持问答、描述、规划等专业应用和多智能体协作。
模型输出可直接转换为 ADB 命令或 pyautogui 代码等实际设备操作,形成从感知到执行的完整闭环智能交互系统。
训练范式:基于 Qwen2.5-VL 初始化的 GUI-Owl 采用创新三阶段训练流程,逐步强化 GUI 理解、推理和稳健执行能力。
预训练阶段:构建涵盖基础 UI 理解、交互轨迹数据和通用推理数据的大规模预训练语料库,持续预训练 Qwen2.5-VL 强化 GUI 元素识别、动作预测和通用推理基础能力,为后续交互导向训练奠定坚实根基。
迭代调优阶段:在桌面和移动设备等真实环境中部署模型执行大规模任务,对生成轨迹进行清洗评分并转化为多样化推理数据集用于离线训练,通过迭代调优积累跨场景有效推理模式,显著提升复杂 UI 任务的适应性和决策能力。
强化学习阶段:开发异步 RL 框架实现模型与真实环境的高效直接交互学习,专注于强化成功行为并提升执行一致性,全面改善 GUI-Owl 在实际部署中的成功率和稳定性表现!
Mobile-Agent-v3
基于 GUI-Owl 多智能体协作能力,研究团队重磅推出 Mobile-Agent-v3 框架,通过四大专业智能体协调实现稳健、自适应的长时序 GUI 任务自动化!
管理智能体(M):战略规划核心,初始化时利用外部知识将高级指令分解为有序子目标列表,执行过程中基于结果和反馈动态更新计划,重新排序、修改或插入纠正性子目标。
工作智能体(W):战术执行引擎,根据当前 GUI 状态、先前反馈和累积笔记选择执行最相关的可操作子目标,生成包含推理、动作和意图的完整动作元组。
反思智能体(R):自我纠错机制,比较工作智能体预期结果与实际状态转换,分类为成功或失败并生成详细因果反馈供管理智能体参考。
记录智能体(C):持久化上下文记忆,仅在成功时触发提取关键屏幕元素(代码、凭证等)存储为笔记,累积记忆支持未来规划和执行。
大规模多操作系统基建,实现自进化GUI轨迹自动生产
为提高 GUI 数据采集效率和质量,该工作构建了业界领先的大规模 GUI 交互环境基础设施,基于阿里云的云手机和云电脑技术,打造一个强大的跨移动端、PC 端和 Web 端的动态虚拟环境。
基于该强大的虚拟环境,改工作构建了一个"自进化 GUI 轨迹生产流水线"(Self-Evolving GUI Trajectory Production pipeline)——通过高质量查询生成、GUI-Owl 与 Mobile-Agent-v3 模型交互、严格正确性判断和针对性指导生成,形成持续改进的闭环系统。
这一突破性架构不仅大幅提升了数据集质量和模型能力,更实现了高效可扩展的模型开发,显著减少了人工标注需求,为 GUI 智能体的产业化应用奠定了坚实基础!
另外,清洗后的优质数据直接用于强化微调,形成模型能力持续提升的正向循环,真正实现了减少人工标注、自我进化改进的智能化训练新范式!
高质量query生成(High-Quality Query Generation):
Mobile端:利用 DAG(Directed Acyclic Graph)建模真实导航流程:构造路径采样、元数据提取、LLM 指令合成、少样本提示优化和网络爬虫接口验证的完整流程,有效减少 LLM 幻觉问题,确保查询生成的真实性和可控性;
PC端:结合手动标注与 LLM 辅助生成,创建涵盖原子操作(点击、滚动、拖拽)和复杂软件交互的多样化查询,通过 Accessability(A11y)trees 和深度搜索链获取操作路径,通过多模态大模型基于截图和示例输入生成可执行命令。
轨迹正确性评估(Trajectory Correctness Judgment Module):创新步骤级+轨迹级双重评判架构,这一综合性评估体系完美结合了细粒度步骤洞察和整体轨迹评估,为 GUI-Owl 模型提供高质量训练数据保障!
步骤级(step-level):通过分析单步骤前后的动作以及截屏,来利用多模态大模型判断正确性。
轨迹级(trajectory-level):结合文本推理与多模态推理双通道,通过共识机制确保高质量训练数据。
针对性指令指南生成(Query-specific Guidance Generation):利用成功轨迹自动生成针对性指导,通过 VLM 动作描述、质量控制(过滤次优动作)和 LLM 指导归总合成三步流程,大幅提升模型处理复杂查询的能力,同时减少大量推演和人工标注需求!
自我进化(Self-Evolving):利用产出的高质量数据对 GUI-Owl 进行强化训练,然后再进行数据产出,形成自我进化的正向循环。
丰富多样的基础Agent能力构建
为突破 GUI-Owl 不仅是单独的智能体,更是能作为多智能体框架单独组建的强大基础能力引擎!研究团队精心构建涵盖定位 (grounding)、描述 (caption) 和规划 (planning) 等核心能力的多样化数据集,与通用指令数据巧妙融合训练。
令人惊喜的是,GUI-Owl 展现出卓越的零样本 GUI 问答能力和面向未见任务的通用指令遵循能力,真正实现了从单一功能到全栈能力的华丽蜕变,为下游应用和多智能体集成提供了前所未有的灵活性和扩展性!
定位(Grounding)
为实现 GUI-Owl 的对 GUI 界面的精准定位以及予以理解能力,研究团队提出从多个来源的数据源构建 2 种定位任务数据。
UI 元素定位(UI element grounding):为构建 UI 元素基于功能以及外表布局双重定位能力,融合三大数据源进行构造定位数据。
1. 开源数据集整合 UI-Vision 和 GUI-R1 等公开资源;
2. 基于 A11y tree 的定位数据合成,提取移动端和 PC 端 UI 元素边界框和功能描述,并结合 Qwen2.5VL 生成外观布局描述;
3. 针对 PC 定位数据稀缺问题,从 Google Images 爬取多样化截图,利用 SAM 分割复杂 UI 组件实现密集定位。另外针对该数据还利用 Omniparser V2 检测结果清洗标注噪声,并利用大语言模型将原始指令重写为更自然的任务导向描述。
细粒度单词/字符文本定位(fine-grained words and characters grounding):构建文档图像数据集,结合 OCR 工具提取文本内容和空间位置,实现单词和字符级别的精准定位能力,为复杂 GUI 交互奠定坚实基础!
任务规划(Task Planning)
针对长时序复杂任务执行需求,研究团队创新构建双重视角的任务规划数据集,全面提升模型的背景知识和规划能力。
历史轨迹知识蒸馏(Distilling from Historical Trajectories):从成功轨迹数据中提取精细化页面转换描述,结合模型历史动作通过 LLM 组织成任务执行手册,并通过 GUI-Owl 验证手册质量,以任务完成率变化为评估标准实现闭环优化。
大规模预训练 LLM 知识蒸馏(Distilling from Large-scale Pretrained LLM):收集主流应用清单,通过人工标注或模型合成设计跨多功能甚至多应用的复杂任务,严格过滤明显错误的任务规范,利用 Qwen3-235B 等大模型生成规划方案并进一步整合清洗,产出高质量任务特定规划数据。
动作语义理解(Action Semantic)
研究团队深度洞察到模型感知动作对页面状态变化影响的关键重要性,创新构建双层动作语义数据集。
动作及对应语义生成:第一层要求模型基于前后截图直接预测中间动作的类型和参数,充分利用离线收集的轨迹数据。第二层进一步要求模型生成涵盖执行动作及其效果的自然语言描述。
数据筛选:为确保标注质量,团队设计了精巧的工作流程:利用 Qwen-VL-Max 等多模态模型从动作前截图和参数生成动作描述(坐标类动作特别标注目标位置),随后分析前后图像的页面变化并评估语义一致性,通过多轮投票机制筛选高质量动作描述。这一创新架构显著提升了模型对 GUI 交互因果关系的深度理解能力。
稳健推理与反思(Enhance Robust Reasoning)
研究团队深度认识到推理能力是基础智能体的核心,使模型超越简单动作模仿,真正掌握底层逻辑规律。创新提出多样化数据合成策略丰富推理模式,结合强化学习与真实环境动态深度对齐。
离线提示引导拒绝采样(Offline Hint-Guided Rejection Sampling):基于收集轨迹进行推理数据合成,利用 VLM 为每步生成推理内容并独立用于动作预测,通过预测动作与真实动作匹配度验证推理有效性。
采用多样化提示风格(固定思维链模板、最简推理过程等)鼓励推理模式多样性,对 LM 难以获得一致动作的步骤进行人工验证并反馈指导。
多智能体框架知识蒸馏(Distillation from Multi-Agent Framework):突破单一模型固有偏见限制,利用 Mobile-Agent-v3 多专业角色协作的优势,收集各智能体输出并通过大语言模型整合多元推理内容,形成统一端到端推理输出,与动作序列配对构建高质量推理训练数据集。
迭代在线拒绝采样(Iterative Online Rejection Sampling):构建推理能力与任务完成能力相互促进的正向循环,采用端到端生成和 Mobile-Agent-v3 集成双模式轨迹推演,持续利用新生成轨迹数据进行模型训练,实现推理能力的螺旋式提升。
规模化的多任务融合RL
基础设施构建
在丰富轨迹和推理数据扩展模型知识库和推理能力基础上,研究团队创新引入强化学习技术,显著降低模型不确定性并提升实际应用稳定性。为支持高效灵活的环境多轮交互训练,团队开发了通用基础设施架构:
统一多任务训练接口(Unified Interface for multi-task training):基于统一任务插件接口构建,标准化单轮推理和复杂多轮智能体任务交互,模块化设计实现多样化新环境和任务的无缝集成,无需修改核心基础设施。
解耦可控推演机制(Decoupled, Controllable Rollout):创新性地将经验生成(rollout)阶段与策略更新解耦,为操作者提供数据供应链的精确控制。
支持从严格同步的 on-policy 模式到异步略 off-policy 模式的策略遵循度调节,实现推理优化硬件上的资源部署以最大化吞吐量,通过细粒度控制在优化保证、速度和成本间达到最优平衡。
任务融合
研究团队创新应用 GRPO 训练静态任务,并推出轨迹感知相对策略优化(TRPO)策略应对在线环境挑战。针对不同下游强化学习任务精心设计数据准备方法:
精准定位任务优化:基于 GUI-R1 和 UI-Vision 构建基础数据集,特别融入高难度细粒度定位样本(目标 UI 区域占截图面积<0.1%),通过 8 轮采样迭代筛选部分失败案例作为 RL 优化训练语料。
单轮强化学习增强:直接从高质量离线交互轨迹的单步数据中提取训练数据,构建单步动作能力基础,并在虚拟环境中进行在线强化学习,使用基于规则或评判器的奖励信号。
轨迹感知 TRPO 创新算法:针对长序列稀疏奖励挑战,采用轨迹级整体评估策略,通过标准化优势估计提供稳定学习信号,将轨迹级优势均匀分配给每个动作步骤,有效解决信用分配问题。大幅提升在线 GUI 任务的能力。
全面测评
强大的定位能力
利用 ScreenSpot V2, ScreenSpot Pro, OSWorld-G 以及 MMBench-GUI L2 四个测试集全面评测 GUI-Owl 的定位能力,GUI-Owl-7B 达到了所有开源 7B 模型的 SOTA 水平。
全面的GUI理解能力
为全面评估 GUI 模型的界面状态理解和响应生成能力,采用 MMBench-GUI-L1 和 Android Control 两个关键基准进行测试。
MMBench-GUI-L1 通过问答格式评估模型的 UI 理解和单步决策能力,GUI-Owl 在简单、中等和困难级别上分别取得了 84.5、86.9 和 90.9 的优异成绩,大幅超越所有现有模型。
在 Android Control 基准上,GUI-Owl 达到 72.8 分,在所有 7B 模型中表现最佳,而 GUI-Owl-32B 更是以 76.6 分的成绩超越了当前最先进的 UI-TARS-72B 模型。充分体现了 GUI-Owl 更加全面和充足的 GUI 知识储备优势。
在线环境下的轨迹级别GUI Agent能力
为克服单步决策评估中错误不累积和真值序列偏好性的局限,采用 AndroidWorld 和 OSWorld 两个真实交互环境进行端到端智能体能力的综合评估。
实验结果显示,GUI-Owl-7B 在 AndroidWorld 上超越了 UITARS 1.5;在 OSWorld 上,GUI-Owl-7B 同样优于开源的 OpenCUA-7B 模型。
进一步地,GUI-Owl-32B 集成到 Mobile-Agent-v3 后在 OSWorld-Verified 和 AndroidWorld 上分别达到 37.7 和 73.3 的优异成绩,充分证明了 GUI-Owl 不仅具备独立任务解决能力,更适合集成到多智能体协作框架中发挥协同优势。
GUI-Owl在不同智能体框架上的适配性
在 Mobile-Agent-E 和 Agent-S2 两大多智能体框架中整合不同的 VLMs,GUI-Owl 在其中分别选用 Mobile-Agent-E 以及 Agent-S2 作为 AndroidWorld 以及 OSWorld 的评测框架进行评测,GUI-Owl 全面超过 UI-TARS-1.5、Qwen2.5-VL 等知名开源模型甚至闭源模型 Seed-1.5-VL。
GUI-Owl-32B 创造性地达到 AndroidWorld 62.1 分和 OSWorld-Verified 子集 48.4 分的最高成绩,凭借卓越的指令遵循能力和精准的视觉元素定位,显著减少多步骤任务中的错误累积,成为 GUI 智能体最稳健高效的"智慧大脑"。
结语
GUI-Owl,一个原生端到端多模态智能体模型,在单一可扩展框架内统一了感知、定位、推理、规划和动作执行能力,专门用于 GUI 自动化任务。GUI-Owl 的成功验证了端到端多模态架构在复杂 GUI 任务中的有效性,为未来智能交互系统的发展奠定了重要基础。
另外,Mobile-Agent-v3 通过精准分工、无缝协作,进一步提升 GUI-Owl 的能力上限,使任务处理更加高效顺畅!
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
