赛博禅心 09月12日
AutoGLM 2.0:AI 赋能云手机,破解中文互联网操作壁垒
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱发布 AutoGLM 2.0,通过云手机技术为 AI 赋予操作能力,解决中文互联网生态中 APP 互操作性问题。AutoGLM 模拟真实手机环境,让 AI 可以自主执行任务,如在线购物、订餐、预订酒店等,无需用户直接操作 APP。该技术基于智谱「从 Agent 到 AGI 的 3A 原则」,旨在实现 AI 全时、自主、全域连接,跨越设备界限,操作物理世界。

📱 AutoGLM 2.0 通过云手机技术为 AI 赋予操作能力,模拟真实手机环境,让 AI 可以自主执行任务,如在线购物、订餐、预订酒店等,无需用户直接操作 APP。

🔗 该技术旨在解决中文互联网生态中 APP 互操作性问题,实现 AI 跨越设备界限,操作物理世界。

⏰ 基于「全时 (Around-the-clock)」原则,AutoGLM 2.0 实现 24 小时运行,即使用户离线,Agent 依然在执行任务。

🤖 「自主零干扰 (Autonomy without interference)」原则,Agent 独立运行,不占用用户屏幕与算力,平行世界的搭子。

🌐 「全域连接 (Affinity)」原则,Agent 跳出浏览器对话框,跨越手机、电脑、手表、眼镜、家电等设备,操作物理世界。

📈 目前 AutoGLM 支持 40 多个高频应用,最擅长路径明确的任务,如点外卖、查航班、找租房等。

🤔 涉及复杂判断的任务,如导出购物发票,AutoGLM 还无法完美执行,仍处于早期产品阶段,表现不稳定。

原创 金色传说大聪明 2025-08-20 12:59 北京

对「中文互联网」的破壁

长话短说:

智谱发布了 AutoGLM 2.0,给 AI 配了部手机,物理破壁互联网


让我们从一个简单的任务开始:查看我的自动续费项目

AutoGLM 打开了云端的支付宝,依次点击「我的」-「设置」-「支付设置」,再点「免密支付/自动扣款」,几秒钟后,它列出了所有的自动续费项目

中国特色的 APP 生态兼容 APP 这件事,在中国有特殊意义,我们跨越了 PC 时代,跑步进入移动互联网,习惯了在 APP 里完成一切

上线一个网站,需要进行很多备案

同时,网站需要备案,接入支付需要资质,小程序/公众号/平台网店反而更方便——于是所有服务都向超级平台聚集

最终形成了中国特色的互联网生态:全特么是大而全的超级 APP

我们的生活被深度绑定在这些 APP 里。电子发票在购物平台,审批流程在飞书,流水在微信/支付宝/银行 APP,公积金社保各有各的入口。这些 APP 的网页版要么功能残缺,要么根本不存在

12306 电子发票

以出差报销为例,需要从航司 APP 下载行程单、发票,在 12306 查询火车票,切换到飞书提交审批,最后可能还要到财务系统查看进度,每个环节都需要人工操作

理论上,我们可以等待所有 APP 开放 API,实现互联互通。

但...我们都知道:这不现实

AutoGLM 选择了另一条路:既然 APP 不愿意为 AI 开门,那就让 AI 学会敲门

AI 解法:云手机AutoGLM 的方案很巧妙:给 AI 配一部它自己的手机,让它操作

戴着智能眼镜,说一句「帮我点杯拿铁」,AI 就会在云端打开外卖 APP,定位到你的位置,下单,支付

打印机墨水快用完了?它能自动在京东下单新墨盒

车载系统里说一句话,就能预订今晚的酒店,查询沿途餐厅评价并下单,生成会议 PPT 并同步到邮箱。你无需分心操作手机,AutoGLM 在云端自动执行。智谱将这种能力封装成 API,任何设备都能接入

从 AI 眼镜到传统家电,它们首次具备了完整的「手机操作能力」

AutoGLM 让 AI 成为所有设备的「手」

云手机:巧妙的设计AutoGLM 弄了一个云手机,以解决关键问题:

不占屏幕:你可以一边让 AI 干活,一边继续刷抖音全天候运行:即使你睡着了,它也能继续执行任务跨设备接入:通过 API,任何设备都能调用这个能力

具体上,还有很多小巧思,比如需要扫码时,他会调用你的摄像头

扫描登陆公众号后台

执行任务时,在云端独立运行

吩咐他就好

然后...这里有个细节:云手机会模拟真实的系统状态,包括电池电量和充电状态。有些 APP 会检测运行环境,这种「拟真」让一切更顺畅。

你可以看到电量的降低

这里补充说一下,AutoGLM 的背后,是智谱「从 Agent 到 AGI 的 3A 原则」:

Around-the-clock(全时): 24 小时运行,即使用户离线,Agent 依然在执行任务Autonomy without interference(自主零干扰): 独立运行,不占用用户屏幕与算力,平行世界的搭子Affinity(全域连接): 跳出浏览器对话框,跨越手机、电脑、手表、眼镜、家电等设备,操作物理世界

在 Device Use 基准测试(涵盖手机、电脑和网页操作)中,AutoGLM 整体表现优于 ChatGPT Agent、UI-TARS-1.5 和 Claude 4 Sonnet

现在能做什么目前 AutoGLM 支持 40 多个高频应用,最擅长的是那些路径明确的任务

它能帮你完成日常琐事:比如“帮我在美团点杯瑞幸咖啡”、“查查明天北京到上海最早的航班”、“在贝壳找北京朝阳区 2500-3500 的合租房”,这些任务有明确的操作路径,AI 执行起来得心应手

但涉及复杂判断就会卡壳。比如「导出近三个月京东购物发票」这种需要精确筛选的任务,它还做不到。测试中还会遇到卡在登录页、理解错指令、重复执行同一操作的情况

这是早期产品的正常状态,很有突破,但不稳定

最后被迫的,我们在手机上处理越来越多的任务:报销、填表、查账...

上图都是体验最好的了,但还是很复杂

老年人会更难过,银行要求用 APP,医院要求线上挂号,政务要求扫码办理,然后各种 app 交互设计的良莠不齐(甚至说绝大多数一塌糊涂),让人抓狂

在这里,AutoGLM 把「人必须适应 APP」变成了「AI 帮人操作 APP」,让我不用戳来戳去找功能,真的很对

「万物互联」还遥遥无期时,让 AI 学会敲门,比等 APP 主动开门更现实


再最后,对于开发者来说,AutoGLM 移动端 API 申请渠道现已正式开放,支持在云端设备上完成复杂操作,允许多步任务与定制化智能工作流的构建

在这里申请:https://autoglm.zhipuai.cn/misc/developer-apply

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AutoGLM 2.0 AI 云手机 中文互联网 智谱AI APP互操作 3A原则
相关文章