微软研究院AI头条 前天 03:54
微软发布Phi-Ground模型,提升计算机界面理解与操作能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软亚洲研究院发布了Phi-Ground系列模型,旨在解决计算机使用智能体(CUA)中的核心难题——图形界面定位(GUI Grounding)。该技术报告系统分析了GUI Grounding模型的训练过程,并提出了新的模型。Phi-Ground模型在五个主流基准测试中均取得了同类规模模型的最佳表现,显著提升了智能体理解和操作计算机界面的能力。研究深入探讨了数据收集、模型架构、训练策略和评估方法,并将其技术集成到Windows Copilot产品中,为实现更智能的数字助手奠定了基础。

💡 **GUI Grounding是智能体操作界面的关键:** 图形界面定位(GUI Grounding)是计算机使用智能体(CUA)实现自主理解和操作计算机界面的核心技术,决定了智能体能否准确执行点击、输入等操作。微软亚洲研究院提出的Phi-Ground系列模型,专注于提升这一能力,弥补了现有模型在关键基准测试中的不足。

📊 **大规模数据构建与优化训练:** Phi-Ground模型的研究团队构建了一个包含4000万条训练数据的大规模数据集,通过自动化流程从CommonCrawl数据中爬取和渲染网页,并综合利用了开源数据集、网页截图和人工标注数据。同时,采用了专门的重采样策略来改善点击位置分布,并探索了多种训练技巧,如调整输入顺序和考虑图像分辨率的影响,以提升模型的泛化能力和感知能力。

⚙️ **分层任务结构与高效评估:** 该模型将GUI Grounding任务拆分为“规划”(将自然语言指令转化为精确描述)和“定位/落地”(根据描述生成点击坐标)两个层次,有效解耦了不同模块的功能,降低了操作错误。在多个主流基准测试中,Phi-Ground系列模型均取得了行业领先的性能,并在效率与效果之间实现了优秀的权衡,具备实际部署潜力。

🚀 **技术落地与未来展望:** Phi-Ground的核心技术已集成到Windows Copilot产品的Vision Highlighting功能中,能够帮助用户完成可视化任务。这标志着理解和操作计算机界面的智能体正逐步走向现实,预示着未来人机协作将更加紧密和高效。


(本文阅读时间:8分钟)


编者按:随着多模态和推理模型的快速发展,能够自主理解并操作计算机界面的智能体(Computer Use Agent, CUA)正逐渐成为现实。其中,图形界面定位(GUI Grounding)是实现这一能力的核心环节,它决定了智能体能否准确地完成点击、输入等具体操作。然而,现有模型在关键基准测试中的准确率仍较低,距离实际应用尚有差距。对此,微软亚洲研究院近期发布了技术报告系统分析了 GUI Grounding 模型的训练过程,并提出了 Phi-Ground 系列模型。在五个主流基准上,Phi-Ground 模型都取得了同类规模模型的最佳表现,为推动可用智能体的发展提供了坚实的基础。
在如今的日常操作以及数字化办公的过程中,人们常常希望计算机不仅仅是被动执行命令,而能像人类助手一样主动协助我们完成任务。在多模态 AI 和智能体技术不断增强的背景下,计算机使用智能体(Computer Use Agent,CUA)应运而生,让这一愿景逐步成为现实。


如果说在现实世界中,我们期待人形机器人能帮助我们搬运重物,那么虚拟世界中,基于图形界面(GUI)的 CUA 则是我们具有“动手能力”的数字分身。这些 CUA 可以直接与操作系统交互,不依赖特定应用的 API,同时还便于人类监督。这就是人形机器人和 CUA,相比于传统机械臂和网页/应用智能体具有更广阔上限的原因。而图形界面定位(GUI Grounding)如同 CUA 的手足,承担着直接与现实交互、影响系统成败的责任,决定了智能体“看得懂”和“点得准”的能力。


图1:智能体在物理世界和虚拟世界的发展


在最新的研究中,微软亚洲研究院的研究员们考察了 GUI Grounding 从数据收集到模型训练的各个细节,提出了 Phi-Ground 系列模型,能够根据用户指令准确地在电脑屏幕中定位到所需位置。


在技术报告 Phi-Ground Tech Report: Advancing Perception in GUI Grounding 中,研究员们系统性地介绍了这一模型的算法设计与工程实现。


Phi-Ground Tech Report: Advancing Perception in GUI Grounding


论文链接:

https://arxiv.org/abs/2507.23779

GitHub链接:

https://github.com/microsoft/Phi-Ground

Hugging Face链接:

https://huggingface.co/microsoft/Phi-Ground





细节决定成败:训练GUI定位模型的详细配方


研究员们从数据、架构到训练、评测,构建了一整套可复现、可扩展的 GUI Grounding 方案,以提升“看-定位-点选”的可靠性。


在数据层面,研究员们构建并均衡采样了大规模训练集。对此,团队设计了从 CommonCrawl 数据中自动爬取与渲染网页的流程和算法,从26亿个网页中层层筛选,得到了1000万个高质量且有助于训练 GUI Grounding 模型的网页,并将其渲染成数据集。此外,研究员们还综合利用了三类额外的数据来源:开源数据集、网页截图(基于图像搜索)和人工标注的目标场景(Windows 场景)截图,最终形成了4000万条训练数据。而且,团队还设计了专门的重采样策略,来改善点击位置分布,从数据上保证了高分辨率场景的泛化能力。其中大部分步骤和细节都已经过对比实验与调优。


图2:CommonCrawl 数据的处理流程


在任务结构上,研究员们将整体任务拆分为两个层次:

规划(Planner):将自然语言指令转换为更精确的参考描述(Reference Expression, RE);

定位 / 落地(Grounding):利用专门训练的模型根据 RE 生成或回归点击坐标。


这种分层方式有效解耦了规划与定位,让大模型的规划和知识能力得以充分利用,从而显著降低了规划遗漏所带来的操作错误。


在训练策略上,研究员们也探索了多种技巧,如坐标的表示方式、基于强化学习的后训练(比如 DPO)等,并由此发现了一些简单、有效的方法。例如,仅仅调整模型输入时图像和文本(参考描述)的顺序,就能大大影响模型的感知和定位能力。分析认为,文本先、图像后的好处可能来源于 GPT 的因果掩码,后者使得文本(蕴含了任务描述)可以促进图像的针对性建模。因此,改变输入顺序就会在评测集上体现出显著的差距。


此外,研究员们还讨论了在输入图像分辨率限制下的缩放定律(scaling law)。研究指出,现有很多工作在比较点数时往往只聚焦于参数量,并没有注意到不同图像分辨率对感知任务的强烈影响。根据此,研究员们把图像 tokens 数量也纳入了考虑范围,训练了6个不同配置下的模型,得到了如下缩放曲线:


图3:训练样本的计算量和准确率的关系


上述结果可以指导开发者在实际应用时采取更高效的配置选择,为后续研究与应用提供了实践参考。


让评测更全面,让模型更高效


在多项公开与内部的评测中,Phi-Ground 系列在 agent 设定下表现出色:在 ScreenSpot-pro、UI-Vision 等关键基准上分别取得约55.0与36.2的高分;在端到端设定下获得行业最优(如 ScreenSpot-pro ≈ 43.2,UI-Vision ≈ 27.2)。


图4:Phi-Ground 模型在多个评测集上的性能表现


此外,研究员们还考察了性能与计算成本之间的折中,结果显示 Phi-Ground 达到近似 Pareto 最前沿的效率/效果权衡。该表现说明其在保证精度的同时也具备实用部署的潜力。


图5:模型在 ScreenSpot-pro 上的错误样本类型和比例


除了测试结果,研究员们还进行了大量的人工样例学习。通过对 ScreenSpot-pro 数据集中错误的样本进行分类,研究员们发现:模型在纯定位任务中表现较优,而主要错误集中在知识性或者规划层面。这说明,现在的评测集可能偏向于规划层面。如果模型不熟悉某个软件(如 MATLAB)中某个按钮的含义,那么它自然无法定位。


这一现象反映了 ScreenSpot-pro 更接近智能体实际需求的特质,但同时也增加了定位模型过拟合的风险,即更高的点数代表模型在训练过程中学习过更多的目标软件知识,从而掩盖了对定位准确度的影响。


让Copilot看得懂屏幕


Phi-Ground模型的核心技术现已集成到 Windows Copilot 产品的 Vision Highlighting 功能中。如下图所示,Copilot 可以逐步引导用户完成可视化任务,比如帮助用户构建一个对话气泡图形。



未来,随着 GUI Grounding 等关键能力的持续突破,我们离那个能理解、能操作、能协作的智能助手,或许不再遥远。





微软亚洲研究院新书《无界》上市


当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。


包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。


本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。


现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!


立即点击下方链接,开启你的专属阅读之旅!













你也许还想看:




文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Phi-Ground GUI Grounding Computer Use Agent CUA 人工智能 AI 微软亚洲研究院 Windows Copilot 人机交互 自然语言处理 多模态AI
相关文章