微软发布Phi-Ground模型，提升计算机界面理解与操作能力

（本文阅读时间：8分钟）

编者按：随着多模态和推理模型的快速发展，能够自主理解并操作计算机界面的智能体（Computer Use Agent, CUA）正逐渐成为现实。其中，图形界面定位（GUI Grounding）是实现这一能力的核心环节，它决定了智能体能否准确地完成点击、输入等具体操作。然而，现有模型在关键基准测试中的准确率仍较低，距离实际应用尚有差距。对此，微软亚洲研究院近期发布了技术报告系统分析了 GUI Grounding 模型的训练过程，并提出了 Phi-Ground 系列模型。在五个主流基准上，Phi-Ground 模型都取得了同类规模模型的最佳表现，为推动可用智能体的发展提供了坚实的基础。
在如今的日常操作以及数字化办公的过程中，人们常常希望计算机不仅仅是被动执行命令，而能像人类助手一样主动协助我们完成任务。在多模态 AI 和智能体技术不断增强的背景下，计算机使用智能体（Computer Use Agent，CUA）应运而生，让这一愿景逐步成为现实。

如果说在现实世界中，我们期待人形机器人能帮助我们搬运重物，那么虚拟世界中，基于图形界面（GUI）的 CUA 则是我们具有“动手能力”的数字分身。这些 CUA 可以直接与操作系统交互，不依赖特定应用的 API，同时还便于人类监督。这就是人形机器人和 CUA，相比于传统机械臂和网页/应用智能体具有更广阔上限的原因。而图形界面定位（GUI Grounding）如同 CUA 的手足，承担着直接与现实交互、影响系统成败的责任，决定了智能体“看得懂”和“点得准”的能力。

图1：智能体在物理世界和虚拟世界的发展

在最新的研究中，微软亚洲研究院的研究员们考察了 GUI Grounding 从数据收集到模型训练的各个细节，提出了 Phi-Ground 系列模型，能够根据用户指令准确地在电脑屏幕中定位到所需位置。

在技术报告 Phi-Ground Tech Report: Advancing Perception in GUI Grounding 中，研究员们系统性地介绍了这一模型的算法设计与工程实现。

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

论文链接：

https://arxiv.org/abs/2507.23779

GitHub链接：

https://github.com/microsoft/Phi-Ground

Hugging Face链接：

https://huggingface.co/microsoft/Phi-Ground

细节决定成败：训练GUI定位模型的详细配方

研究员们从数据、架构到训练、评测，构建了一整套可复现、可扩展的 GUI Grounding 方案，以提升“看-定位-点选”的可靠性。

在数据层面，研究员们构建并均衡采样了大规模训练集。对此，团队设计了从 CommonCrawl 数据中自动爬取与渲染网页的流程和算法，从26亿个网页中层层筛选，得到了1000万个高质量且有助于训练 GUI Grounding 模型的网页，并将其渲染成数据集。此外，研究员们还综合利用了三类额外的数据来源：开源数据集、网页截图（基于图像搜索）和人工标注的目标场景（Windows 场景）截图，最终形成了4000万条训练数据。而且，团队还设计了专门的重采样策略，来改善点击位置分布，从数据上保证了高分辨率场景的泛化能力。其中大部分步骤和细节都已经过对比实验与调优。

图2：CommonCrawl 数据的处理流程

在任务结构上，研究员们将整体任务拆分为两个层次：

规划（Planner）：将自然语言指令转换为更精确的参考描述（Reference Expression, RE）；

定位 / 落地（Grounding）：利用专门训练的模型根据 RE 生成或回归点击坐标。

这种分层方式有效解耦了规划与定位，让大模型的规划和知识能力得以充分利用，从而显著降低了规划遗漏所带来的操作错误。

在训练策略上，研究员们也探索了多种技巧，如坐标的表示方式、基于强化学习的后训练（比如 DPO）等，并由此发现了一些简单、有效的方法。例如，仅仅调整模型输入时图像和文本（参考描述）的顺序，就能大大影响模型的感知和定位能力。分析认为，文本先、图像后的好处可能来源于 GPT 的因果掩码，后者使得文本（蕴含了任务描述）可以促进图像的针对性建模。因此，改变输入顺序就会在评测集上体现出显著的差距。

此外，研究员们还讨论了在输入图像分辨率限制下的缩放定律（scaling law）。研究指出，现有很多工作在比较点数时往往只聚焦于参数量，并没有注意到不同图像分辨率对感知任务的强烈影响。根据此，研究员们把图像 tokens 数量也纳入了考虑范围，训练了6个不同配置下的模型，得到了如下缩放曲线：

图3：训练样本的计算量和准确率的关系

上述结果可以指导开发者在实际应用时采取更高效的配置选择，为后续研究与应用提供了实践参考。

让评测更全面，让模型更高效

在多项公开与内部的评测中，Phi-Ground 系列在 agent 设定下表现出色：在 ScreenSpot-pro、UI-Vision 等关键基准上分别取得约55.0与36.2的高分；在端到端设定下获得行业最优（如 ScreenSpot-pro ≈ 43.2，UI-Vision ≈ 27.2）。

图4：Phi-Ground 模型在多个评测集上的性能表现

此外，研究员们还考察了性能与计算成本之间的折中，结果显示 Phi-Ground 达到近似 Pareto 最前沿的效率/效果权衡。该表现说明其在保证精度的同时也具备实用部署的潜力。

图5：模型在 ScreenSpot-pro 上的错误样本类型和比例

除了测试结果，研究员们还进行了大量的人工样例学习。通过对 ScreenSpot-pro 数据集中错误的样本进行分类，研究员们发现：模型在纯定位任务中表现较优，而主要错误集中在知识性或者规划层面。这说明，现在的评测集可能偏向于规划层面。如果模型不熟悉某个软件（如 MATLAB）中某个按钮的含义，那么它自然无法定位。

这一现象反映了 ScreenSpot-pro 更接近智能体实际需求的特质，但同时也增加了定位模型过拟合的风险，即更高的点数代表模型在训练过程中学习过更多的目标软件知识，从而掩盖了对定位准确度的影响。

让Copilot看得懂屏幕

Phi-Ground模型的核心技术现已集成到 Windows Copilot 产品的 Vision Highlighting 功能中。如下图所示，Copilot 可以逐步引导用户完成可视化任务，比如帮助用户构建一个对话气泡图形。

未来，随着 GUI Grounding 等关键能力的持续突破，我们离那个能理解、能操作、能协作的智能助手，或许不再遥远。

微软亚洲研究院新书《无界》上市

当面对集体性的难题时，思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书，正是献给这个时代的探索指南。

包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作，他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展，分享了前沿的展望、观点以及宝贵的科研经验。

本书已获得十余位全球顶尖学者的推荐，其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者，以及微软亚洲研究院的杰出院友。

现在，《无界——透视微软创新研究之境》已全平台火爆开售！首批读者将获得限量版微软50周年书签，书签上的文章作者亲笔签名将随机呈现，盲盒式惊喜等你开启！

立即点击下方链接，开启你的专属阅读之旅！

你也许还想看：

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签