虎嗅 07月18日
OpenAI发布Agent,我们想让它“自己报道自己”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI近期发布ChatGPT Agent,标志着其在Agent化道路上的又一关键进展。当前AI Agent领域呈现两大流派:OpenAI、Claude等“基座派”将Agent能力融入底层模型;Manus、Genspark、Flowith、Fellou等“应用派”则专注于具体应用场景和工具调用。新发布后,Genspark和Manus等已公开“叫板”,对ChatGPT Agent的表现提出质疑。文章通过对比Manus、Genspark、Flowith、Fellou在婚礼策划、贴纸制作等实际案例中的表现,揭示了当前AI Agent在执行复杂任务、完成“最后一公里”操作(如在线订购)方面仍存在挑战,但激烈的市场竞争正推动Agent能力的快速发展,预示着更强大的AI Agent将更快地进入人们的生活。

🚀 AI Agent领域出现“基座派”与“应用派”两大阵营:以OpenAI、Claude为代表的“基座派”致力于将Agent能力深度整合进底层模型;而Manus、Genspark、Flowith、Fellou等“应用派”则更侧重于具体应用场景和灵活的工具调用,形成了多样化的竞争格局。

💡 行业竞争加剧,新玩家涌现并挑战现有领导者:自Manus推出以来,通用Agent市场热度不断攀升,Genspark、Flowith、Fellou等新锐玩家快速切入不同应用场景,并在OpenAI发布ChatGPT Agent后,Genspark和Manus等已直接“叫板”,对OpenAI的Agent能力提出对比和质疑,显示出市场竞争的激烈性。

🛠️ 当前AI Agent在执行“最后一公里”任务时仍面临挑战:通过婚礼策划和贴纸制作等实际案例对比发现,Manus、Flowith、Fellou、Genspark等AI Agent在完成如查找酒店、预订商品、在线下单等需要具体操作和支付环节的任务时,普遍存在无法直接执行或仅能提供指导的问题,与OpenAI展示的某些能力仍有差距。

⏳ AI Agent的任务执行时长与效果关系值得关注:Fellou在处理婚礼策划任务时耗时超过1小时,虽然最终输出格式设计感较强,但其长时间运行的特点引发了关于AI Agent任务时长与最终效果之间关系的讨论,这可能成为衡量Agent“靠谱度”的一个新维度。

📈 AI Agent市场“混沌期”预示着未来巨大潜力:尽管当前AI Agent在稳定性和执行力方面仍有待提升,但OpenAI的发布以及其他玩家的积极参与,表明AI Agent方向潜力巨大。激烈的竞争将加速该领域的发展,有望更快地出现能够稳定解决复杂人类任务的Agent。

7月18日凌晨,OpenAI发布了ChatGPT Agent,这是继1月份推出operator,2月份推出deep research之后,OpenAI在Agent化道路上又一关键举动。

当下,一个有趣的现象出现了:AI Agent领域正悄然分化为两大流派。一方是以OpenAI、Claude为代表的“基座派”,正在将Agent能力融入其底层模型;另一方则是“应用派”,强调自己在具体的应用场景和灵活的工具调用上的设计规划。

3月,Manus的横空出世,便已点燃了通用Agent的第一波市场狂潮,随后,Genspark、Flowith、Fellou等一众新锐玩家纷纷从不同应用场景切入,迅速在Agent赛道上形成了各自的阵营。

就在OpenAI发布ChatGPT Agent后不久,Genspark便在社交平台X上公开“叫板”,直言视频中演示的ChatGPT Agent能力“表现不够出色”。Manus也贴脸开大,对比了自己和OpenAI展示的案例的结果。

我们也想对比一下这些产品在ChatGPT Agent展示的一些案例上究竟表现有何不同。

你是一个成熟的Agent了,你该自己报道Agent的新闻了

首先,今天的AI Agent产品这么热闹,我们觉得它们也都是成熟的Agent了,应该来自己报道其他Agent的新闻了。

于是我们让几个备受关注的AI Agent产品来报道此次ChatGPT Agent的发布。我们并没有选择只是给一个很简单Prompt的方式,而是用类似深度报告的方式来要求它们,最终产出一个有些设计要素在的one pager。

结果如下。

Manus:

有意思的地方是,Manus的Agent自己分析之后,并没有像官方X账号那样“自信”,给了OpenAI更高的分数。

Genspark:

生成了一个更复杂的报告。这个报告里对OpenAI ChatGPT的信息捕捉更全。

并输出了一份非常详细的对比。

同样,与官方X的“自信”也不同,Genspark的Agent也对OpenAI的水平表达了高度认可。

Flowith:

Flowith算是对我们比较长的Prompt做了充分理解后,抓住了要做一个one pager这个重点,这让它的结果看起来设计感也最强,交出了一个格式上更好看的one pager。

比一比:从规划到执行的“最后一公里”

在报道完ChatGPT Agent后,我们让这些AI Agent也拿OpenAI视频展示的案例练了练手。互相比较一下。

OpenAI视频中提到了四个案例,主要是行程策划、图像设计类、资讯分析类,这也是自3月份Manus推出之后比较常见的场景。

我们先找了其中一个,婚礼规划的场景,把视频中展示的Prompt提交给了Manus、Genspark、Flowith、Fellou等,看看直接对比。

Prompt: Our friends are gettingmarried later this year! This is the wedding website:https://www.zola.com/wedding/minniaandsarahCan you help me find:- An outfit that matches the dress code for all the functions (mens)- Propose like five options. Something nice, mid luxury items which match the venue, and weather- Find me hotels with couple of days of buffer on either end_-Use booking.com for these, and make sure to check availability and current price-And also don't forget to pick a gift for them ideally under $500 (registry preferred if any, otherwisefind something nice)make a nice report!

Manus:

https://manus.im/share/iWutNt1yTVXu8ZUTuz6YVQ?replay=1

Manus输出了一个长文本页面,没有给到具体购买链接等涉及到下一步行动的结果,属于婚礼参加指南和建议

特别是着装要求上,没有具体的图片和款式。

Flowith:

同样给出了一份详细的婚礼参与指南,无法进行到下一步加购等动作,更关键的是,因为单开了一条任务线来挑选参加婚礼的服饰,该任务线出现bug,最终没能输出服饰结果。

Fellou:

Fellou居然为这个任务一口气跑了1小时14分钟。这是一个很有意思的不同,OpenAI此次发布后,它的研究员也提到,应该有一个榜单来比较AI Agent一次任务能够跑的时长。

当然,这个时长和最终效果之间的关系也需要进一步查看。但Fellou这个操作还是给用户带来某种微妙的“靠谱”感。

这个过程它非常认真地单开了很多浏览器,比较行程、路线、酒店事件和日期。

最终它把信息用一种经过简单设计的格式,提供给用户。

但是在具体推荐上,同样无法直接购买,没有具体链接,只能输出报告,更像是一个搜集信息的AI浏览器。

https://chat.fellou.ai/report/0d853b10-fcd0-4c22-a1f2-696556c8f277

第二个我们选了“做贴纸”的场景。

Prompt 2: Make some team swag for our launch of chatgpt agent - makesome anime-style art that'scute and quirky based on theattached photo of our teammascot. then, make them into.1x1 laptop stickers and order 500 to 575 Florida St in SF.I like StickerMule!

贴纸的设计在近三个月来各类Agent测试中算是非常简单的了,而且,很多产品,例如Genspark的任务,本身也是调取的GPT的生图能力。

不过同样的,和OpenAI展示的相比,多个产品在订购环节,因为没有调用能力,无法完成具体操作。

比如Genspark会提示:很抱歉,我无法直接为您完成在线订购,因为这需要您的个人信息、付款方式和账户验证。不过我可以为您提供详细的订购指导,让整个过程变得超级简单!

Flowith同样只能进行订购指引。

在这个任务中,Manus在流程中显示完成了购物车的添加,也是除了OpenAI以外唯一一个进行到这一步的Agent。

可以看到,今天的AI Agent依然是在一个“混沌期”,它能做到的事情,在不停让我们惊叹,而同时它也依然是不稳定的,哪怕OpenAI,今天发布的ChatGPT Agent更像是一个占位动作。但当我们把AI Agent视作一个潜力巨大,价值巨大的方向,这些新的重要玩家的加入和更激烈的竞争,都是好事——它最终会推动一个能稳定地解决人类面对的复杂任务的Agent更早出现在我们的生活里。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI Agent OpenAI ChatGPT Agent Agent化 人工智能
相关文章