AUI公司推出Apollo-1，提升AI智能体执行任务的可靠性

bloomberg 2025-09-12 13:54 北京

图片来源：Replit

过去几个月我多次提及初创公司和大科技企业都在试图解决"Agent型商务"的问题——这个花哨术语指的是代表消费者采取行动的"Agent"服务，具体到本文场景就是完成购物。

虽然 AI 搜索能有效帮助购物者锁定完美礼物或找到满足所有要求的理想酒店，但要让 AI Agent真正完成礼品购买或酒店预订则是另一回事。

如今，一家八年来持续攻关该问题的初创公司认为已找到解决方案。由企业家Ohad Elhelo 和 Ori Cohen 于 2017 年创立的 AUI 公司，正携其称为"Agent语言模型"的 Apollo-1 走出隐匿模式。AUI 表示，相比 OpenAI、Google 和 Anthropic 等公司的Agent产品，Apollo-1 能更可靠地完成任务。

今年晚些时候，AUI 计划向公众开放 Apollo-1 的访问权限，该平台将作为基础模型供企业和开发者直接用于构建和部署自己的智能体。

已获得4500 万美元融资的 AUI，在前三年收集了约 6 万人提供的分步骤任务完成数据，这些数据记录了各种不同的任务执行方式。正是这些数据驱动了 Apollo-1 的研发。通过这种方式，Elhelo 和 Cohen 希望解决智能体面临的最大难题：难以确保大型语言模型对提示的响应内容或即将采取的具体行动。

以七月OpenAI 发布新款 ChatGPT 智能体为例：首席执行官 Sam Altman 及其他高管强调该技术仍处于实验阶段，提醒用户提交信用卡号等敏感信息前需慎重考虑。人工智能与支付公司都在努力开发防护机制，防止失控的智能体超额使用用户授权的支付信息或将数据泄露至公开场合。

然而，Apollo-1 采用了被称为 "神经符号推理" 的技术，该技术将驱动大语言模型的神经网络与被称为符号推理的传统 AI 技术相结合，后者通过逻辑理解数值间关系并用代码表达这些关系。

公司CEO Elhelo 表示，虽然大语言模型在生成聊天机器人回复等语言任务上很有用，但其不可预测性使得在与客户互动时难以确保Agent执行特定操作且保持准确性这一关键要求。他指出，由于神经符号推理模型能将规则和指导原则纳入推理过程，因此对企业更具吸引力。"生成式 AI 革命缺失的另一半是经济价值部分，"Elhelo 告诉我。

神经符号人工智能近年来开始受到关注，越来越多的开发者试图通过这种方式提升系统可靠性，以便向金融和政府等行业客户销售AI 服务。尽管这种方法获得 AI 研究员加里·马库斯等支持者的青睐，但 Yann LeCun 等几位知名 AI 专家却批评神经符号方法，认为其与作为大语言模型基础的深度学习 "不兼容"。

AUI 表示，在名为 "τ‑Bench‑Airline" 的基准测试中，Apollo-1 的表现显著优于 Claude 4 等其他基于大语言模型的智能体。该测试改编自知名基准，用于评估智能体在现实世界复杂任务（例如更改航班预订或查询新航班选项等机票相关操作）中的表现。公司称 Apollo-1 任务完成成功率超过 90%，而 Claude 的成功率仅为 60%。