Z Potentials 09月13日
AUI公司推出Apollo-1,提升AI智能体执行任务的可靠性
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

初创公司AUI发布了其“Agent语言模型”Apollo-1,旨在解决AI智能体在执行消费者任务(如购物、预订)时面临的可靠性难题。不同于现有的大型语言模型,Apollo-1结合了神经网络和符号推理技术,使其在理解和执行复杂指令方面更为精确。AUI通过收集大量分步骤任务完成数据来训练Apollo-1,以确保其响应的准确性和可控性。该模型在多项基准测试中表现优于竞品,成功率超过90%,有望为金融、航空、零售等行业提供更值得信赖的AI解决方案。AUI还与Google Cloud达成合作,进一步推广其技术应用。

🚀 AUI公司推出的Apollo-1是一种“Agent语言模型”,旨在解决AI智能体在执行购物、预订等消费者任务时面临的可靠性问题。通过结合神经网络和符号推理技术,Apollo-1能够比现有AI模型更可靠地完成指令。

💡 Apollo-1的研发得益于AUI公司在过去三年中收集的约6万人提供的分步骤任务完成数据。这些数据帮助驱动了模型的研究,解决了大型语言模型在响应内容和具体行动上的不确定性难题。

📈 AUI公司声称,Apollo-1在名为“τ‑Bench‑Airline”的基准测试中,任务完成成功率超过90%,显著优于其他基于大语言模型的智能体(如Claude 4,成功率为60%)。该模型在Google Flights预订和亚马逊商品选购等任务中也表现出色。

🤝 Apollo-1采用“神经符号推理”技术,融合了神经网络和传统AI的符号推理,能够将规则和指导原则纳入推理过程,使其对需要高可靠性的企业(如银行、航空公司)更具吸引力。AUI还宣布与Google Cloud达成战略合作,以推广其模型在聊天机器人和智能Agent中的应用。

bloomberg 2025-09-12 13:54 北京

图片来源:Replit 

过去几个月我多次提及初创公司和大科技企业都在试图解决"Agent型商务"的问题——这个花哨术语指的是代表消费者采取行动的"Agent"服务,具体到本文场景就是完成购物。

虽然 AI 搜索能有效帮助购物者锁定完美礼物或找到满足所有要求的理想酒店,但要让 AI Agent真正完成礼品购买或酒店预订则是另一回事。

如今,一家八年来持续攻关该问题的初创公司认为已找到解决方案。由企业家Ohad Elhelo 和 Ori Cohen 于 2017 年创立的 AUI 公司,正携其称为"Agent语言模型"的 Apollo-1 走出隐匿模式。AUI 表示,相比 OpenAIGoogle 和 Anthropic 等公司的Agent产品,Apollo-1 能更可靠地完成任务。

今年晚些时候,AUI 计划向公众开放 Apollo-1 的访问权限,该平台将作为基础模型供企业和开发者直接用于构建和部署自己的智能体。

已获得4500 万美元融资的 AUI,在前三年收集了约 万人提供的分步骤任务完成数据,这些数据记录了各种不同的任务执行方式。正是这些数据驱动了 Apollo-1 的研发。通过这种方式,Elhelo 和 Cohen 希望解决智能体面临的最大难题:难以确保大型语言模型对提示的响应内容或即将采取的具体行动。

以七月OpenAI 发布新款 ChatGPT 智能体为例:首席执行官 Sam Altman 及其他高管强调该技术仍处于实验阶段,提醒用户提交信用卡号等敏感信息前需慎重考虑。人工智能与支付公司都在努力开发防护机制,防止失控的智能体超额使用用户授权的支付信息或将数据泄露至公开场合。

然而,Apollo-1 采用了被称为 "神经符号推理的技术,该技术将驱动大语言模型的神经网络与被称为符号推理的传统 AI 技术相结合,后者通过逻辑理解数值间关系并用代码表达这些关系。

公司CEO Elhelo 表示,虽然大语言模型在生成聊天机器人回复等语言任务上很有用,但其不可预测性使得在与客户互动时难以确保Agent执行特定操作且保持准确性这一关键要求。他指出,由于神经符号推理模型能将规则和指导原则纳入推理过程,因此对企业更具吸引力。"生成式 AI 革命缺失的另一半是经济价值部分,"Elhelo 告诉我。

神经符号人工智能近年来开始受到关注,越来越多的开发者试图通过这种方式提升系统可靠性,以便向金融和政府等行业客户销售AI 服务。尽管这种方法获得 AI 研究员加里·马库斯等支持者的青睐,但 Yann LeCun 等几位知名 AI 专家却批评神经符号方法,认为其与作为大语言模型基础的深度学习 "不兼容"

AUI 表示,在名为 "τ‑BenchAirline" 的基准测试中,Apollo-1 的表现显著优于 Claude 4 等其他基于大语言模型的智能体。该测试改编自知名基准,用于评估智能体在现实世界复杂任务(例如更改航班预订或查询新航班选项等机票相关操作)中的表现。公司称 Apollo-1 任务完成成功率超过 90%,而 Claude 的成功率仅为 60%。 

AUI 称 Apollo-1 在其他基准测试中也表现更优,例如通过 Google Flights 成功预订航班,或使用其 Rufus 聊天机器人在亚马逊上完成商品选购。 

Elhelo 希望这项技术能吸引像银行、航空公司、保险公司和零售商这样需要确保可靠性的大型企业。Apollo-1 还会逐步分解其推理过程,以便开发人员和运营人员能够理解其行为背后的逻辑,并设定指导方针或规则,例如在批准退款前检查公司政策。

该公司还宣布与Google Cloud 达成战略合作,将允许 Google Cloud 客户使用 AUI 模型来驱动自己的聊天机器人和智能AgentElhelo 还预见了未来扩展该模型应用场景的可能性,例如语音模式。

“它能提供你所需的可见性,让公司真正可以依赖它,”他说道。

参考资料

https://www.theinformation.com/articles/startup-teaching-ai-agents-shop?rc=rpuplc

编译:ChatGPT

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI智能体 Apollo-1 AUI 神经符号推理 AI可靠性 大型语言模型 Agent型商务 AI Agents Apollo-1 AUI Neuro-symbolic Reasoning AI Reliability Large Language Models Agent-based Commerce
相关文章