量子位 09月25日
UI-S1让AI更会操作手机电脑界面
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

浙江大学与通义实验室Mobile-Agent团队推出全新研究成果UI-S1,提出了一种名为半在线强化学习的创新训练范式。该方法融合了离线训练的稳定性与在线学习的长程优化能力,在不依赖真实环境交互的前提下,显著提升了模型在动态多轮任务中的表现。UI-S1通过模拟在线学习过程,并引入补丁机制和长程奖励建模等核心技术,有效解决了传统GUI Agent训练方法的局限性。实验结果表明,UI-S1在多个主流GUI自动化基准上展现出卓越性能,接近顶尖闭源模型,并实现了“长短兼顾”的双重优化。

🤖 UI-S1采用半在线强化学习范式,融合离线训练的稳定性和在线学习的长程优化能力,在不依赖真实环境交互的情况下提升模型在动态多轮任务中的表现。

🔧 UI-S1引入补丁机制,允许系统在检测到操作偏差时对历史动作或思维链进行有限次数的修正,以恢复被中断的操作流,并维持训练稳定性。

📈 UI-S1采用长程奖励建模,通过折扣因子的未来奖励传播机制,弥补传统离线RL无法捕获未来收益的缺陷,提升策略的全局一致性与任务完成率。

📊 UI-S1提出新的评测指标SOP(Semi-online Performance),保留模型每一轮的真实输出,一旦出现错误即终止任务,更贴近真实使用场景下的连续交互过程。

🔍 UI-S1在多个主流GUI自动化基准上展现出卓越性能,接近顶尖闭源模型,并实现了“长短兼顾”的双重优化,在单轮和长程任务上均有提升。

关注前沿科技 2025-09-23 18:58 北京

让AI更会“玩手机”

UI-S1 团队 投稿量子位 | 公众号 QbitAI

如何让AI更聪明地操作手机、电脑界面?

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上,推出全新研究成果——UI-S1,提出了一种名为半在线强化学习(Semi-online Reinforcement Learning)的创新训练范式。

该工作融合了离线训练的稳定性与在线学习的长程优化能力,在不依赖真实环境交互的前提下,显著提升了模型在动态多轮任务中的表现。

也就是说,这种方法用的还是离线学习的现成操作数据,但会模拟在线学习的过程。

下面来看看是怎么做到的。

用“离线”数据,模拟“在线”过程

核心问题:传统方法的局限性

现有的GUI Agent训练主要依赖两类强化学习范式:

因此,如何在无需频繁真实交互的前提下,赋予模型类似在线学习的上下文连贯性和长程推理能力,成为突破瓶颈的关键。

解决方案:三大核心技术构建半在线学习框架

为解决上述矛盾,研究团队提出了三项关键技术,共同构成UI-S1的核心架构:

半在线机制:在离线数据中模拟在线交互

离线学习的轨迹是固定的,只能将专家轨迹的动作(*表示)作为历史:

而在线学习的轨迹是可以动态变化的,将模型自己的原始输出(π表示)作为历史:

UI-S1首次提出半在线强化学习范式,其核心思想是在固定离线轨迹的基础上,在每次rollout过程中保留模型自身的原始输出(包括动作选择与思维链),而非仅使用专家动作作为历史输入。

这一设计使得模型能够在训练中体验“自我行为带来的上下文变化”,从而增强策略的一致性和多轮连贯性。

换言之,即使没有真实环境反馈,模型也能“感知”自己过去的行为,并据此调整后续决策,实现了对在线学习过程的有效模拟。

补丁机制(Patching Module):自适应修复采样偏差

由于模型在rollout中可能偏离专家路径,导致后续状态无法匹配原始轨迹,研究者引入了可配置的补丁机制,以恢复被中断的操作流。具体包含三种策略:

此外,提高补丁次数上限可显著提升模型访问完整轨迹的能力,进而增强对后期步骤的学习效果。

分析显示,更高的补丁阈值有助于维持策略熵,防止过早收敛,促进探索多样性。

长程奖励建模:从步骤级到轨迹级的优势估计

为了弥补传统离线RL无法捕获未来收益的缺陷,UI-S1引入了带折扣因子的未来奖励传播机制。对于每个中间步骤,系统不仅计算其即时规则奖励还结合未来步骤的潜在价值(按衰减因子γ加权)形成综合奖励:有了这个步骤级别奖励,研究者们用其估计同一个步骤组内的步骤级别优势,最后一步的优势被当作轨迹级别优势,用于评估轨迹是否完成:研究者将两个级别的优势加权后(),采用动态采样的方式优化策略模型:

评测革新:SOP——更贴近真实表现的动态评估指标

针对传统静态评测(如AC-High)无法反映多轮容错能力的问题,研究团队提出了新的评测——SOP(Semi-online Performance)

该协议保留模型每一轮的真实输出,一旦出现错误即终止任务,全面模拟真实使用场景下的连续交互过程。结果表明,SOP与真实在线性能高度对齐,且支持更高任务多样性和更快评估速度,填补了现有评测体系在动态性与实用性之间的空白。

实验结果:全面超越基线,逼近顶尖闭源模型

在多个主流GUI自动化基准上的测试中,UI-S1-7B展现出卓越性能:

实验结果

特别是在AndroidWorld任务中,UI-S1-7B取得了34.0%的任务成功率,接近GPT-4o(34.5%)与UI-TARS-7B(33.0%),显著优于纯SFT或离线RL方法。

值得注意的是,部分基线方法在动态评测中甚至不如基础模型,反映出其在多轮泛化方面的根本缺陷。

同时,在单轮任务(如GUI Odyssey)上,UI-S1-7B仍保持+7.1%的增益,说明半在线训练并未牺牲局部精度,实现了“长短兼顾”的双重优化。

在常规的GUI单轮评测上,UI-S1-7B相比于base模型也有一定程度的提升(比如GUI Odyssey +7.1),证明了半在线方法并没有牺牲单轮预测能力。

深入分析:机制有效性与可扩展性验证

补丁机制显著提升数据利用率

作为UI-S1框架的核心组件之一,补丁模块(Patch Module)在维持训练稳定性与提升策略泛化能力方面发挥了不可替代的作用。

其设计初衷在于解决半在线强化学习中一个根本性矛盾:模型在rollout过程中不可避免地会偏离原始专家轨迹,导致后续状态无法对齐真实数据,从而中断整个轨迹的学习进程。

为缓解这一问题,研究团队引入了可调节的补丁机制,允许系统在检测到操作偏差时,以有限次数对历史动作或思维链进行修正。通过设置超参数阈值控制每条轨迹最多可修补的次数,研究人员系统评估了不同配置下的性能变化。

实验结果表明,提高补丁阈值显著提升了模型在SOP和AndroidWorld两个动态评测基准上的表现

在具体修补策略的选择上,研究对比了三种典型方案,揭示了性能与效率之间的深层权衡:

    On-Policy Thought Patch

    由目标策略模型自身重新生成正确的推理过程,在语义风格和推理节奏上与原输出高度一致,因此能提供最自然的上下文衔接,带来最优性能。然而,该方法需额外执行完整的前向推理,计算开销较大,不利于大规模训练。

    Thought-Free Patch

    仅修正错误的动作标签,保留原有的思维链不变。尽管未修复潜在的逻辑缺陷,但由于GUI动作空间相对结构化且可通过规则校验,该方式在实践中表现出接近最优的性能,同时几乎不引入额外计算成本,具备极高的工程实用性。

    Off-Policy Thought Patch

    借助外部更强的大模型(如GPT-4)重写错误的思考过程。虽然理论上可提供更高质量的推理指导,但因生成风格、术语使用与目标模型存在分布偏移,反而可能导致上下文断裂或误导训练方向,实际效果不如预期。

更进一步分析发现,较大的补丁阈值有助于在训练过程中维持较高的策略熵(policy entropy),即模型在动作选择上的不确定性水平。

较高的熵值反映了更丰富的探索行为,避免策略过早收敛于少数高频路径。

这说明补丁机制不仅是误差纠正工具,更是促进策略多样性和防止模式坍缩的重要手段。

数据缩放规律揭示高效学习潜力

研究表明,UI-S1的性能增长符合指数型数据规模律。

随着补丁阈值从0增至无穷,指数系数k从−1.13提升至−0.73,表明单位数据带来的边际收益明显改善。

这意味着即使在有限数据条件下,该方法也能更充分挖掘非完美轨迹中的监督信号,具备良好的小样本适应能力。

消融实验确认关键组件贡献

消融实验进一步验证了多个核心组件的技术贡献。

首先,在未来奖励建模方面,折扣因子γ的设置对多轮任务表现具有决定性影响:当γ=0(完全忽略未来奖励)时,模型性能最低;而在 γ=0.5时达到峰值,说明适度纳入长程优化信号可显著提升策略的全局一致性与任务完成率,凸显了半在线范式在捕获跨步依赖关系上的优势。

其次,在训练范式组合上,联合使用监督微调(SFT)与半在线强化学习(Semi-online RL)的效果明显优于任一单独方法——在AndroidWorld基准上,组合方案取得34.0%的任务成功率,分别高出仅用Semi-online RL(30.4%)和仅用SFT(21.7%)的配置,且平均任务完成步数更少,表明其具备更强的路径规划与执行效率。

最后,同时引入轨迹级与步骤级优势函数计算,并保留多帧历史观测信息(包括动作、思考链与界面状态),均被证实对最终性能有正向增益,去除任一组件均会导致性能下降,说明这些设计共同支撑了模型在复杂GUI交互中的稳健决策能力。

样例分析

研究者们展示了一项复杂的跨应用任务,该任务要求在多个操作步骤中持续保留关键信息:从Simple Gallery中查看一张包含交易信息的图片,并在Markor应用中创建文件记录该信息。

实验表明,基础模型和离线强化学习(Offline RL)模型在执行过程中出现了思维与动作不一致的问题。

例如,Offline RL模型在规划完切换至下一应用后便提前终止操作,可能因其过度拟合局部奖励,未能统筹后续任务目标。而经过监督微调(SFT)的模型则在流程中遗失了关键信息,导致执行冗余操作,如尝试创建一个已存在的文件。

相比之下,基于半在线强化学习(Semi-Online RL)框架的UI-S1模型在整个12步操作序列中保持了稳定的上下文连贯性,成功将交易信息“2023-03-23, Monitor Stand, $33.22”准确以CSV格式写入文件。

这一表现验证了该方法在学习多轮复杂行为方面的优势,实现了推理过程与动作执行的高度对齐。

研究者认为,该成果体现了半在线范式在提升GUI智能体长程规划能力与任务鲁棒性方面的关键作用。

感兴趣的朋友可戳下方点链接获取更多内容~

论文地址:https://arxiv.org/abs/2509.11543项目代码:https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1模型地址:https://huggingface.co/mPLUG/UI-S1-7B

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UI-S1 人工智能 强化学习 GUI自动化 长程任务
相关文章