(本文阅读时间:8分钟)
编者按:随着多模态和推理模型的快速发展,能够自主理解并操作计算机界面的智能体(Computer Use Agent, CUA)正逐渐成为现实。其中,图形界面定位(GUI Grounding)是实现这一能力的核心环节,它决定了智能体能否准确地完成点击、输入等具体操作。然而,现有模型在关键基准测试中的准确率仍较低,距离实际应用尚有差距。对此,微软亚洲研究院近期发布了技术报告系统分析了 GUI Grounding 模型的训练过程,并提出了 Phi-Ground 系列模型。在五个主流基准上,Phi-Ground 模型都取得了同类规模模型的最佳表现,为推动可用智能体的发展提供了坚实的基础。
在如今的日常操作以及数字化办公的过程中,人们常常希望计算机不仅仅是被动执行命令,而能像人类助手一样主动协助我们完成任务。在多模态 AI 和智能体技术不断增强的背景下,计算机使用智能体(Computer Use Agent,CUA)应运而生,让这一愿景逐步成为现实。
如果说在现实世界中,我们期待人形机器人能帮助我们搬运重物,那么虚拟世界中,基于图形界面(GUI)的 CUA 则是我们具有“动手能力”的数字分身。这些 CUA 可以直接与操作系统交互,不依赖特定应用的 API,同时还便于人类监督。这就是人形机器人和 CUA,相比于传统机械臂和网页/应用智能体具有更广阔上限的原因。而图形界面定位(GUI Grounding)如同 CUA 的手足,承担着直接与现实交互、影响系统成败的责任,决定了智能体“看得懂”和“点得准”的能力。
在最新的研究中,微软亚洲研究院的研究员们考察了 GUI Grounding 从数据收集到模型训练的各个细节,提出了 Phi-Ground 系列模型,能够根据用户指令准确地在电脑屏幕中定位到所需位置。
在技术报告 Phi-Ground Tech Report: Advancing Perception in GUI Grounding 中,研究员们系统性地介绍了这一模型的算法设计与工程实现。
Phi-Ground Tech Report: Advancing Perception in GUI Grounding
论文链接:
https://arxiv.org/abs/2507.23779GitHub链接:
https://github.com/microsoft/Phi-Ground
Hugging Face链接:
https://huggingface.co/microsoft/Phi-Ground
细节决定成败:训练GUI定位模型的详细配方
研究员们从数据、架构到训练、评测,构建了一整套可复现、可扩展的 GUI Grounding 方案,以提升“看-定位-点选”的可靠性。
在数据层面,研究员们构建并均衡采样了大规模训练集。对此,团队设计了从 CommonCrawl 数据中自动爬取与渲染网页的流程和算法,从26亿个网页中层层筛选,得到了1000万个高质量且有助于训练 GUI Grounding 模型的网页,并将其渲染成数据集。此外,研究员们还综合利用了三类额外的数据来源:开源数据集、网页截图(基于图像搜索)和人工标注的目标场景(Windows 场景)截图,最终形成了4000万条训练数据。而且,团队还设计了专门的重采样策略,来改善点击位置分布,从数据上保证了高分辨率场景的泛化能力。其中大部分步骤和细节都已经过对比实验与调优。
在任务结构上,研究员们将整体任务拆分为两个层次:规划(Planner):将自然语言指令转换为更精确的参考描述(Reference Expression, RE);定位 / 落地(Grounding):利用专门训练的模型根据 RE 生成或回归点击坐标。
这种分层方式有效解耦了规划与定位,让大模型的规划和知识能力得以充分利用,从而显著降低了规划遗漏所带来的操作错误。
在训练策略上,研究员们也探索了多种技巧,如坐标的表示方式、基于强化学习的后训练(比如 DPO)等,并由此发现了一些简单、有效的方法。例如,仅仅调整模型输入时图像和文本(参考描述)的顺序,就能大大影响模型的感知和定位能力。分析认为,文本先、图像后的好处可能来源于 GPT 的因果掩码,后者使得文本(蕴含了任务描述)可以促进图像的针对性建模。因此,改变输入顺序就会在评测集上体现出显著的差距。
此外,研究员们还讨论了在输入图像分辨率限制下的缩放定律(scaling law)。研究指出,现有很多工作在比较点数时往往只聚焦于参数量,并没有注意到不同图像分辨率对感知任务的强烈影响。根据此,研究员们把图像 tokens 数量也纳入了考虑范围,训练了6个不同配置下的模型,得到了如下缩放曲线:
上述结果可以指导开发者在实际应用时采取更高效的配置选择,为后续研究与应用提供了实践参考。
让评测更全面,让模型更高效
在多项公开与内部的评测中,Phi-Ground 系列在 agent 设定下表现出色:在 ScreenSpot-pro、UI-Vision 等关键基准上分别取得约55.0与36.2的高分;在端到端设定下获得行业最优(如 ScreenSpot-pro ≈ 43.2,UI-Vision ≈ 27.2)。
此外,研究员们还考察了性能与计算成本之间的折中,结果显示 Phi-Ground 达到近似 Pareto 最前沿的效率/效果权衡。该表现说明其在保证精度的同时也具备实用部署的潜力。
除了测试结果,研究员们还进行了大量的人工样例学习。通过对 ScreenSpot-pro 数据集中错误的样本进行分类,研究员们发现:模型在纯定位任务中表现较优,而主要错误集中在知识性或者规划层面。这说明,现在的评测集可能偏向于规划层面。如果模型不熟悉某个软件(如 MATLAB)中某个按钮的含义,那么它自然无法定位。
这一现象反映了 ScreenSpot-pro 更接近智能体实际需求的特质,但同时也增加了定位模型过拟合的风险,即更高的点数代表模型在训练过程中学习过更多的目标软件知识,从而掩盖了对定位准确度的影响。
让Copilot看得懂屏幕
Phi-Ground模型的核心技术现已集成到 Windows Copilot 产品的 Vision Highlighting 功能中。如下图所示,Copilot 可以逐步引导用户完成可视化任务,比如帮助用户构建一个对话气泡图形。
未来,随着 GUI Grounding 等关键能力的持续突破,我们离那个能理解、能操作、能协作的智能助手,或许不再遥远。
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文
