多模态大语言模型（MLLM）的崛起，正驱动能理解并操作图形用户界面（GUI）的自主智能体走向现实。然而，要让智能体真正像人一样“看懂”并“会用”无穷无尽的应用程序，一个核心挑战必须被攻克：GUI视觉定位（GUI Grounding），即将用户的自然语言指令精确地映射到屏幕上正确的交互元素。近期，来自浙大和港理工等机构的研究者们发表了一项新研究，深入剖析了当前方法在这一任务上的核心瓶颈，并提出了一种名为自适应探索策略优化（Adaptive Exploration Policy Optimization, AEPO）的新型训练框架。该方法通过一种理论驱动的探索机制，有效解决了强化学习（RL）在训练GUI智能体时普遍存在的“探索效率低下”问题，显著提升了模型对复杂指令的语义理解与对齐能力。基于该方法训练的InfiGUI-G1模型，即便是在3B/7B这样语义理解能力本是弱项的小参数量规模下，其在ScreenSpot-Pro等权威基准上所展现的语义对齐能力，也足以媲美甚至超越32B、72B等大型GUI专有模型及部分领先的闭源模型（如GPT-4o，Claude 3.7 Sonnet等），达到了同量级SOTA水平。

论文信息卡片

论文标题： InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

论文链接： https://arxiv.org/abs/2508.05731

项目链接： https://github.com/InfiXAI/InfiGUI-G1, 3B/7B模型和训练评测代码均已开源

一、研究背景与动机：从“点得准”到“点得对”的挑战

GUI定位任务的成功，依赖于两个维度的对齐：空间对齐（Spatial Alignment）与语义对齐（Semantic Alignment）。

空间对齐：要求智能体能精准地点击它所意图的图标，而不会因为定位不准而“点歪”。

语义对齐：要求智能体能够正确理解指令的意图，并将其与界面上功能最匹配的元素关联起来，即“点得对”。

一个典型的例子是：当指令为“用相机搜索物体”时，一个语义理解有偏差的模型，可能会准确地点击普通“相机”图标，而非功能更匹配的“视觉搜索”图标。在这里，模型“点得准”（空间对齐成功），但没有“点得对”（语义对齐失败）。对于构建强大的GUI智能体而言，后一种失败显然是更致命的瓶颈。

虽然强化学习与可验证奖励（RLVR）方法已被证明能有效提升GUI定位的性能，但其优势更多地集中在优化空间对齐上。随着空间定位日益精准，一个更深层次的挑战浮出水面：如何提升模型的语义对齐能力。研究发现，标准RLVR方法依赖于模型自身的策略进行探索，这种机制在面对需要深度推理的复杂指令时，会因探索效率低下而难以发现正确的语义关联，从而限制了模型性能的进一步提升。

二、AEPO：核心方法详述

为了从根本上解决上述探索瓶颈，作者们提出了自适应探索策略优化（AEPO）框架。该框架并非对现有RL的简单修补，而是通过引入三大环环相扣的核心组件，构建了一套全新的、能进行高效、智能探索的策略优化范式。

2.1 强制探索：多答案生成机制

AEPO的第一步，是打破标准RL在单次探索轨迹中只生成一个动作的局限。它通过多答案生成（Multi-Answer Generation）机制，允许并激励模型在单次前向传播中，生成一个包含N个候选坐标点的集合A = {p₁, p₂, ..., pₙ}。

这一设计简单而关键，它鼓励模型必须超越其最自信的单一预测，去审视其他可能性。这极大地增加了从策略分布的“长尾”中采样到正确答案的概率，为学习那些语义上具有挑战性的困难样本创造了可能。

2.2 理论指导：自适应探索奖励（AER）

仅仅允许多元探索是不够的，还需要一个智能的奖励信号来引导这一过程，避免盲目猜测。为此，AEPO的核心——自适应探索奖励（Adaptive Exploration Reward, AER）——被设计出来。AER并非一个启发式的工程技巧，而是从“效率=效用/成本”（η = U/C）这一第一性原理推导而出的。

效用 (U)：定义为探索任务的最终结果。若N个候选点中至少有一个是正确的，则探索成功，U = +1；反之则失败，U = -1。

成本 (C)：被建模为提议成本（生成N个答案的消耗）和验证成本（从N个答案中找到正确项的消耗）的几何平均值。在成功的情况下，验证成本为第一个正确答案的排名k，总成本为 C_success = sqrt(N·k)。在失败的情况下，需验证所有N个答案，总成本为 C_failure = sqrt(N·N) = N。

由此，最终的AER函数被定义为：

R_accuracy = 1/sqrt(N·k) （若成功）

R_accuracy = -1/N （若失败）

这个奖励函数能够动态地平衡探索与利用：

当探索失败时，惩罚会随着探索范围N的增大而减小（-1/N的绝对值变小），温和地鼓励模型进行更广泛的探索。

当探索成功时，奖励会同时激励模型提高效率（用更少的候选N）和提升置信度（让正确答案的排名k更靠前）。

2.3 质量保障：共线惩罚

为了防止模型通过“作弊”式的低质量探索（例如，沿着一条直线密集采样大量点）来骗取奖励，AEPO还引入了共线惩罚（Collinear Penalty）。如果生成的N个点在屏幕上近似构成一条直线，无论其中是否包含正确答案，模型都将受到一个巨大的负奖励（-1）。这一机制确保了“多答案生成”是在进行有意义、多样化的空间探索，而非无效的线性扫描。

三、实验与结果分析

作者们基于AEPO框架，在Qwen2.5-VL-3B和7B模型的基础上训练出了InfiGUI-G1-3B和InfiGUI-G1-7B。实验结果有力地证明了AEPO的有效性。

3.1 关键基准上的SOTA表现

实验部分对模型的性能进行了全面的评估。研究者们在包括 MMBench-GUI, ScreenSpot-Pro, UI-Vision, UI-I2E-Bench, 和 ScreenSpot-V2 在内的五大GUI定位基准上进行了测试。结果显示，基于AEPO训练的InfiGUI-G1模型（包括3B和7B版本）性能强劲，在同等规模的开源模型对比中全面取得了SOTA。更引人注目的是，InfiGUI-G1展现了卓越的越级挑战能力，其性能在多个任务上甚至超越了一些参数量远大于自身的（如72B）专用GUI模型，充分证明了AEPO框架的高效性。

3.2 消融实验：验证AEPO各组件的必要性

消融实验清晰地揭示了AEPO框架设计的内在逻辑。如表所示，移除“多答案生成”机制、将AER替换为朴素的+1/-1奖励、或移除“共线惩罚”，都会导致模型性能显著下降。这证明了AEPO的每一个组件都是不可或缺、相辅相成的。

3.3 深度分析：AEPO如何解决探索瓶颈

为了验证AEPO解决了“探索困难”这一核心问题，作者们进行了一项深刻的分析。他们首先使用原始模型对测试集进行多次（16次）随机采样，并将那些一次都未能答对的样本定义为“困难样本”。这些样本代表了标准RL方法几乎“不可学习”的盲区。

结果如上表所示，相较于基线模型，InfiGUI-G1在所有类型上均有提升，但其最大的性能增益正来自于这些“困难样本”。在7B模型上，相对提升幅度高达61.1%。这一结果无可辩驳地证明，AEPO的核心价值在于它成功地为那些先前因探索不足而无法学习的样本创造了有效的学习信号，从根本上解决了语义对齐的瓶颈。

四、总结与展望

该研究精准地指出了当前GUI智能体领域的一个关键瓶颈：在标准强化学习方法已将空间对齐能力推向新高后，由低效探索导致的语义对齐能力不足问题愈发凸显。为此，作者们提出了一套新颖且具备坚实理论基础的自适应探索策略优化框架。通过一个允许并激励多答案生成的探索范式，并结合理论驱动的自适应探索奖励，AEPO有效解决了模型的“置信陷阱”问题，显著提升了其在复杂、模糊指令下的语义理解能力。

这项工作不仅为GUI智能体领域贡献了SOTA模型InfiGUI-G1，更重要的是，它为如何解决复杂感知任务中普遍存在的“探索-利用”难题，提供了一个优雅、高效且可推广的解决方案，为构建更通用、更鲁棒的人工智能交互系统铺平了道路。