IT之家 10月08日 07:19
谷歌推出Gemini 2.5计算机使用模型,AI可与网页交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌发布了Gemini 2.5计算机使用模型,该模型具备视觉理解与推理能力,能够分析用户请求并在浏览器界面中执行任务,如填写表单。此技术可用于用户界面测试,或操作无API的系统。此前,类似技术已应用于谷歌AI模式和研究项目Mariner。该模型在网页和移动端基准测试中表现优于现有方案,但目前仅限于浏览器环境,不支持桌面操作系统层级的控制。该模型已对开发者开放,并提供在线演示。

🧠 **Gemini 2.5计算机使用模型:AI智能体的新突破** 谷歌预览的Gemini 2.5计算机使用模型,核心在于其“视觉理解与推理能力”,使AI智能体能够理解并操作为人类设计的用户界面。这标志着AI在无需专门API的情况下,能够更自然地与网络内容进行交互,例如自动填写和提交网页表单,从而扩展了AI的应用场景,尤其是在用户界面测试和自动化操作那些缺乏直接接口的系统方面。

🌐 **浏览器环境下的自主操作与局限性** 该模型专注于在浏览器环境中执行任务,支持包括打开浏览器、输入文本和拖放元素在内的13种操作。与OpenAI的ChatGPT智能体和Anthropic的Claude AI模型不同,Gemini 2.5计算机使用模型目前不支持对整个计算机系统的控制,也未针对桌面操作系统层级进行优化。这一明确的界限突显了其在特定应用场景下的专业性。

🚀 **开放与演示:加速AI应用落地** 谷歌将Gemini 2.5计算机使用模型通过Google AI Studio和Vertex AI向开发者开放,并提供了Browserbase平台的在线演示。这使得开发者能够直观地体验AI在实际网页任务中的表现,如玩游戏或浏览热门讨论,旨在加速AI智能体技术的普及和应用落地,推动相关领域的研究与创新。

IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉理解与推理能力”分析用户的请求,并完成相应任务,例如填写并提交表单。

该模型可用于用户界面测试,或用于操作那些仅面向人类用户、未提供 API 或其他直接接口的系统。此前,此类模型已应用于谷歌 AI 模式(AI Mode)中的智能体功能,以及研究原型项目“Mariner”,该项目利用 AI 智能体在浏览器中自主执行任务,例如根据食材清单自动将商品添加到购物车。

谷歌此次发布恰逢 OpenAI 在其年度开发者日(Dev Day)宣布推出 ChatGPT 新应用的次日。OpenAI 正持续聚焦其“ChatGPT 智能体”(ChatGPT Agent)功能,该功能可代表用户完成复杂任务。与此同时,Anthropic 公司已于去年发布了其 Claude AI 模型的“计算机使用”(computer use)版本。

IT之家注意到,谷歌发布了一些演示视频,展示了“计算机使用”工具的实际运行效果,并注明视频播放速度已加快至 3 倍。谷歌表示,其计算机使用模型“在多个网页和移动端基准测试中优于现有领先方案”。与 ChatGPT 智能体和 Anthropic 的计算机使用工具不同,谷歌的新 AI 模型仅限于访问浏览器环境,无法操控整个计算机系统。谷歌特别指出,该模型“尚未针对桌面操作系统层级的控制进行优化”,目前支持 13 种操作,包括打开网页浏览器、输入文本,以及拖放页面元素等。

Gemini 2.5 计算机使用模型现已通过 Google AI Studio 和 Vertex AI 向开发者开放。此外,Browserbase 平台也提供了在线演示,用户可实时观看该模型完成诸如“玩一局 2048 游戏”或“浏览 Hacker News 上的热门讨论”等任务。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 AI模型 人工智能 计算机使用 浏览器交互 AI Agent Google AI Gemini 2.5 AI Model Artificial Intelligence Computer Use Browser Interaction AI Agent Google AI
相关文章