cnBeta全文版 10月08日 14:47
Gemini 2.5 推出,赋能代理与用户界面交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google发布了Gemini 2.5计算机使用模型,专为能够与用户界面(UI)交互的代理设计。该模型在Web和移动端基准测试中表现出色,通过分析屏幕截图和操作历史来执行UI操作,如点击或输入。当模型不确定时,会请求用户确认。此过程循环进行,直至完成主要任务。Gemini 2.5 优化了网页浏览器交互,并在移动UI控制方面表现良好,目前已进入公开预览阶段。

✨ **Gemini 2.5 计算机使用模型发布**:Google推出了全新的Gemini 2.5模型,专门用于支持能够与用户界面(UI)进行交互的代理。该模型旨在提升代理在执行网页和移动端任务时的效率和准确性。

⚙️ **工作原理与交互流程**:开发者将用户请求、环境截图和操作历史输入模型。模型分析后生成UI操作指令,如点击或输入。若模型不确定,会请求用户确认。操作执行后,新的GUI截图和URL会反馈给模型,循环往复直至任务完成。

🚀 **性能与优化方向**:Gemini 2.5 在多个Web和移动端控制基准测试中均表现优于同类模型。虽然其重点是网页浏览器交互,但在移动UI控制方面也表现出色,但尚未针对桌面操作系统级别控制进行优化。

💡 **可访问性与可用性**:Gemini 2.5 计算机使用模型目前已进入公开预览阶段,开发者可以通过 Google AI Studio 和 Vertex AI 上的 Gemini API 进行访问和使用。

在今年早些时候的 Google I/O 开发者大会上,Google宣布将为 Gemini API 引入计算机使用功能。今天,Google发布了 Gemini 2.5 计算机使用模型,这是一个全新的专用模型,旨在为能够与用户界面 (UI) 交互的代理提供支持。Google声称,该新模型在多个 Web 和移动控制基准测试中均优于其他同类模型 。

Gemini API computer_use 工具的工作原理如下:

虽然 Gemini 2.5 计算机使用模型针对网页浏览器进行了优化,但 Google 声称该模型在移动 UI 控制任务中也表现出色。Google特别提到 ,该模型尚未针对桌面操作系统级别的控制进行优化。正如您在下面的基准测试中看到的,Gemini 2.5 计算机使用模型在几个关键基准测试中都取得了最佳结果。

Gemini 2.5 计算机使用模型现已公开预览,开发人员可以通过 Google AI Studio 和 Vertex AI 上的 Gemini API 访问它。

查看评论

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 AI 代理 用户界面 Google Gemini 2.5 AI Agents User Interface Google
相关文章