AI & Big Data 05月07日
Hugging Face公開AI代理人Open Computer Agent,能使用模型生成圖片
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face发布Open Computer Agent,一款能使用工具的AI代理人。它结合了smolagents函数库、Qwen2-VL-72B语言模型和E2B Desktop虚拟桌机,类似OpenAI的Operator代理人。用户可以通过自然语言文字提示,让它执行任务,例如查询Google Maps、维基百科或生成图片。该代理人具备视觉模型,能识别图片元素位置并互动,实现自动化。但目前存在反应慢、可能被CAPTCHA阻挡等问题,需要人工干预。

🗺️ Open Computer Agent能够利用Google Maps查询公司位置,或者查询从瑞士伯恩到巴塞尔的火车所需时间,为用户提供便捷的信息查询服务。

🎨 它可以到Hugging Face Space寻找图片生成模型Flux 1,并根据用户输入的提示生成GPU图片,实现图像的自动生成。

🖱️ Qwen-VL模型支持内建grounding功能,可以辨识图片中任何元素的位置坐标,进而做到点击屏幕截图中的任何项目,实现与图片的互动操作。

⚙️ 用户可以选择是否存储活动记录,Hugging Face提醒用户,Open Computer Agent会存储用户活动,若不希望被记录,可以取消勾选左边栏的“store task and agent trace?”选项。

Hugging Face昨(6)日公布會使用工具的AI代理人Open Computer Agent,能幫用戶查詢Google Map、維基百科或生成圖片。

Open Computer Agent是結合函式庫smolagents、語言模型Qwen2-VL-72B及虛擬桌機E2B Desktop開發而成。Open Computer Agent類似OpenAI的Operator代理人,目前為一Web服務,允許用戶輸入自然語言文字提示,代用戶執行任務。例如利用Google Maps查詢某公司位置、從瑞士伯恩搭火車到巴塞爾所需時間,或是到Hugging Face Space尋找圖片生成模型Flux 1,再輸入提示讓它生成GPU圖片。

Hugging Face的代理人部門主管Aymeric Roucher說明,日愈強大的視覺模型可用於複雜的代理人工作流程,而且Qwen-VL支援內建grounding功能,可辨識出圖片中任一元素的位置(座標),進而做到點擊螢幕截圖中的任何項目,好比人用滑鼠點選畫面上的按鈕或圖示。這代表模型不只是「看得懂圖片內容」,還能對圖片進行互動,這也實現Open Computer Agent自動化代理人的能力。

Hugging Face提醒,Open Computer Agent會儲存用戶活動,若不想被紀錄,用戶可以在左邊欄的「store task and agent trace?」取消勾選。而且Open Computer Agent使用的VM會被前往的網頁偵測而以CAPTCHA阻擋,這時需要人力解決。此外,目前Open Computer Agent反應時間有點慢,可能要等上數秒,有時還會卡住不動,重刷網頁即可重新啟動。

其他主要AI公司也都推出能使用工具的代理人。OpenAI的Operator開放付費用戶使用,Google Gemini則有Project Astra,能在混合及多種語言環境下轉換語言,以多種語言解決複雜主題的問題、或使用Circle to Search翻譯菜單文字。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Hugging Face Open Computer Agent AI代理人
相关文章