index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文通过两个实际案例,测试了AutoGLM在大型规划任务和日常生活场景中的表现,并分析了其背后的产品技术。文章探讨了AutoGLM如何理解复杂指令、跨App协同执行任务、进行大规模信息搜集与整合分析、进行逻辑推理与规划生成,以及提供个性化决策支持。文章还介绍了AutoGLM的进化历程,以及其对未来AGI发展的期待。
📌 AutoGLM能够理解复杂的自然语言指令,并将其拆解成多个可执行的子任务。例如,在大型规划任务中,它可以理解多个角色、偏好和限制条件,并自主进行跨App协同执行任务,包括信息搜集、数据验证和执行预订。
🔍 AutoGLM具备大规模信息搜集与整合分析的能力。它可以根据不同偏好进行主题式搜集,并从海量结果中筛选出优质信息。例如,在搜索北京最佳移动办公咖啡馆的案例中,它可以精准地提取出咖啡馆名称,并计算每个咖啡馆到用户家的距离。
🤔 AutoGLM能够进行逻辑推理与规划生成。它可以设计出合理的路线和行程安排,并考虑地理位置的远近、时间的合理分配等因素。例如,在规划乌兰察布旅游行程的案例中,它可以生成一个满足所有成员偏好的3日游路线。
🎯 AutoGLM提供个性化决策支持。它可以精准地应用筛选条件,并最终呈现给用户符合所有条件的具体解决方案,减轻用户的决策负担。例如,在寻找乌兰察布住宿的案例中,它可以找到位于市中心、交通方便、能住九人的套房或家庭房。
🚀 AutoGLM经历了不断进化,从最初的安卓端发展到支持iOS端,并能够更好地融合Deep Research和Browser-Use Agent。未来,它还计划加入定时任务功能,进一步提升用户体验。
原创 AI产品黄叔 2025-08-20 15:37 北京

从Manus和Claude Code之后,黄叔就特别注重一个单词:AHPU什么意思呢?AHPU展开是Agentic Hours Per User的缩写,相当于你能占用多少Agent时长。“每个人每天的时间就24小时,这个事情已经被锁死了”周末参加AutoGLM的闭门交流会,刘潇这句话又触动了我。于是我想好好测试下,AutoGLM能否提高我的AHPU!这篇文章,我会用两个实测案例、拆解AutoGLM背后的产品技术,再聊聊他们的进化以及黄叔期待的未来。01 两个真实的CaseCase1:大型规划任务第一个是这周末媳妇又安排了乌兰察布,每次旅游都是她从头到尾的各种翻小红书、大众点评、携程,来安排一堆人的行程,包括景点、路线、餐饮、住宿,然后写一个非常详细的飞书云文档。真的,经常半夜突然醒来,都看到她手机亮着。这种大量信息的搜集判断加工整理,特别费神,相信每个做过自由行攻略的朋友都有感受。提示词:我们九个人想去乌兰察布玩3天,从本周五到周日。我喜欢看当地风景,我媳妇Z是个吃货,只想吃遍本地美食,小朋友喜欢去网红打卡地和游戏。请你设计一个九个人都能满意的行程。先用小红书和大众点评分别列出符合我们仨喜好的Top 5地点/餐厅,然后规划一个每天都能兼顾至少两种偏好的3日游路线,并用高德地图计算出每天景点间的交通时间。最后,在携程上找一个位于市中心、交通方便、能住九个人的套房或家庭房,给我看看价格。
打开AutoGLM,把上面这段需求描述发给它,AutoGLM会自己梳理需求,然后启动云手机,在首次登陆的时候,会要求我们接管,之后就不需要了,整个流程跑了11分钟,最终给出了一份详细的报告: 尽管我媳妇已经做完了攻略,但她看完后,说有不少是重合的,给了好评。Case2:日常生活场景黄叔之前有探索过一些北京适合移动办公的咖啡馆,后来断了很长一段时间,正好可以拿来测测AutoGLM:提示词:打开小红书,搜索‘北京最佳移动办公的咖啡馆’,找到点赞最高的图文里推荐的5个地点
这种小红书搜集信息的任务,已经非常相信它了,1分多钟全部搞定。但没完,能不能帮我挨个搜索一下,离我家有多远?提示词:根据你总结的咖啡馆,帮我打开高德地图,逐个查看从宝星园驾车过去的时间,并罗列出来给我
这也确实可以,为了节约大家时间,上面的录屏我开了两倍速。可以看到,具体的车程信息,确实是每一次单独在高德地图上跑了之后给出的,精确到分钟。02 拆解AutoGLM背后的产品技术我们逐一来看看每个Case的背后第一个Case非常复杂,还有大量的个性化需求,也是很大型的规划任务。首先,复杂自然语言理解与意图拆解AutoGLM需要理解,这一段提示词里,包含了多个角色 (我、媳妇、小朋友)、多偏好 (风景、美食、网红打卡)、多限制 (9个人、3天、周五到周日) 的长指令。它必须能将这个复杂的“项目需求”拆解成多个可以执行的子任务。其次,跨App协同的长链路执行任务流无缝地贯穿了小红书/大众点评 (信息搜集) → 高德地图 (数据验证) → 携程 (执行预订) 四个不同的App。整个任务流持续执行了12分钟。。。接着,大规模信息搜集与整合分析它不只是搜集信息,更是要根据不同偏好进行主题式搜集 (风景/美食/网红),并从海量结果中筛选出 Top 5!所以黄叔发现了AutoGLM用了个小技巧,预先出一份初步的报告,然后每次搜集任务完成后,更新报告。还有,逻辑推理与规划生成这是从“工具”到“智能体”质变的一步。AutoGLM不能只是简单罗列景点,它需要设计出一条合理的3日游路线。这意味着它要考虑地理位置的远近、时间的合理分配,并确保每天的行程都能满足至少两种偏好。这背后是强大的逻辑推理能力。最后,个性化决策支持在携程上寻找住宿,它需要精准应用筛选条件(市中心、交通方便、能住九人),最终呈现给用户的不是一堆链接,而是经过筛选、符合所有条件的具体解决方案,极大地减轻了用户的决策负担。这个案例展现了AutoGLM从理解复杂、个性化的项目需求,到自主进行跨平台调研、逻辑规划,并最终交付完整解决方案的“项目经理”级能力。Case2主要是日常生活中更高频、更实用的场景。首先是精准信息提取 AutoGLM需要在非结构化的图文笔记中(小红书),精准地识别并提取出5个咖啡馆的名称。这考验的是它对文本和图像内容的深度理解能力,而不是简单的关键词搜索。其次是任务上下文记忆与传递 在Case2里面,我是分两步完成的测试,这意味着AutoGLM必须要记住”在上一个App(小红书)里找到的5个咖啡馆列表,然后将这个列表作为输入”,传递给下一个App(高德地图)去执行后续任务。确实是可行的。接着还有循环与批量化执行每个咖啡馆到我家的距离,需要逐个循环的将5个咖啡馆作为目的地进行查询,这种之前需要咱们自己操作5次的任务,用一条指令就能完成。总结对比下:Case 1 像是在写一篇论文:需要广泛调研、深度思考、组织架构、最终形成完整观点。它展示了AutoGLM的“智慧上限”。Case 2 像是在做一道应用题:步骤清晰、逻辑明确、需要精准计算并得出最终答案。它展示了AutoGLM的“效率下限”。03 AutoGLM的进化其实AutoGLM去年10月份就发布了,黄叔也参加了发布会,但那时只有安卓,没有iOS,也是只能看着AutoGLM操作自己的手机,就很不Make Sense。到今年3月,AutoGLM沉思进一步完成了进化,可以更好地搞定Deep Research(深度研究)和Browser-Use Agent(网页智能体)的融合。一直到今天,黄叔觉得AutoGLM进入到可用的阶段。并且智谱宣布每1-2周会更新一次,下一个功能就是期待已久的定时任务。OK,我已经替追星的媳妇想好场景了:每天定时自动云手机跑一遍任务:去微博给任嘉伦超话和帖子点赞,检查微博热搜,如果有任嘉伦的信息,提醒一下等等。。。很多Dirty Work完全可以交给Agent,人类充分享受那有限的时间吧。期待持续进化闭门会上,刘潇表达了智谱对于AGI下限的理解,Agent的自主稳定运行,能完成一整天的工作和生活任务!AutoGLM非常坚决的走在这条路上,我们也看到了更多的信息:从AutoGLM的评分来看,在上述场景都能超过Claude 4 Sonnet了,这个很让人振奋。然后单次任务的成本已经非常低了,并且仍然有大幅下降的空间!除了Phone-Use,AutoGLM也一直有网页端,能支持云电脑,可以操作更加复杂的工作流:甚至还能连接AI硬件:黄叔看到还有非常多的亮点,没法一一呈现,看完很激动,也很期待AutoGLM的持续进化。当然,在测试中也发现了一些问题,比如,还是需要用户做大量的相对精准提示词的表达,实际上老百姓现在还没有这种习惯。比如,还是会有一些Case跑失败。比如,我需要在云手机上登录各种账号,出现过保持登录状态不太久的情况。这些我相信随着AutoGLM的进化相信这也会逐渐减少,整体来说,AutoGLM已经开始接近我心目中,拉长Agentic Hours Per User的产品形态了!阅读原文
跳转微信打开