Gemini 2.5 推出，赋能代理与用户界面交互

cnBeta全文版 10月08日 14:47

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Google发布了Gemini 2.5计算机使用模型，专为能够与用户界面（UI）交互的代理设计。该模型在Web和移动端基准测试中表现出色，通过分析屏幕截图和操作历史来执行UI操作，如点击或输入。当模型不确定时，会请求用户确认。此过程循环进行，直至完成主要任务。Gemini 2.5 优化了网页浏览器交互，并在移动UI控制方面表现良好，目前已进入公开预览阶段。

✨ **Gemini 2.5 计算机使用模型发布**：Google推出了全新的Gemini 2.5模型，专门用于支持能够与用户界面（UI）进行交互的代理。该模型旨在提升代理在执行网页和移动端任务时的效率和准确性。

⚙️ **工作原理与交互流程**：开发者将用户请求、环境截图和操作历史输入模型。模型分析后生成UI操作指令，如点击或输入。若模型不确定，会请求用户确认。操作执行后，新的GUI截图和URL会反馈给模型，循环往复直至任务完成。

🚀 **性能与优化方向**：Gemini 2.5 在多个Web和移动端控制基准测试中均表现优于同类模型。虽然其重点是网页浏览器交互，但在移动UI控制方面也表现出色，但尚未针对桌面操作系统级别控制进行优化。

💡 **可访问性与可用性**：Gemini 2.5 计算机使用模型目前已进入公开预览阶段，开发者可以通过 Google AI Studio 和 Vertex AI 上的 Gemini API 进行访问和使用。

在今年早些时候的 Google I/O 开发者大会上，Google宣布将为 Gemini API 引入计算机使用功能。今天，Google发布了 Gemini 2.5 计算机使用模型，这是一个全新的专用模型，旨在为能够与用户界面 (UI) 交互的代理提供支持。Google声称，该新模型在多个 Web 和移动控制基准测试中均优于其他同类模型。

Gemini API computer_use 工具的工作原理如下：

开发人员需要将用户请求作为输入发送给工具，其中包括环境的屏幕截图和最近操作的历史记录。

除了输入之外，开发人员还可以指定是否从支持的完整 UI 操作列表中排除功能，或者是否需要包含任何其他自定义功能。

该模型将分析接收到的输入并生成响应，这将是 UI 操作之一，例如单击或键入。

如果模型不确定，它甚至可能会请求最终用户确认。例如，如果该操作与购买商品有关，则需要用户确认。

然后，客户端代码执行接收到的操作，例如单击按钮或显示最终用户确认。

一旦操作完成，当前 GUI 的新屏幕截图和当前 URL 将作为函数响应发送回计算机使用模型，重新开始循环。

重复上述步骤，直至达到主要任务目标。

虽然 Gemini 2.5 计算机使用模型针对网页浏览器进行了优化，但 Google 声称该模型在移动 UI 控制任务中也表现出色。Google特别提到，该模型尚未针对桌面操作系统级别的控制进行优化。正如您在下面的基准测试中看到的，Gemini 2.5 计算机使用模型在几个关键基准测试中都取得了最佳结果。

Gemini 2.5 计算机使用模型现已公开预览，开发人员可以通过 Google AI Studio 和 Vertex AI 上的 Gemini API 访问它。

查看评论

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签