多智能体系统失效归因新框架 AgenTracer

原创让你更懂AI的 2025-09-10 13:41 北京

多智能体失效归因的“逆袭大戏”

在大模型的持续进化过程中，我们见证了单体模型（monolithic LLM/agents）逐渐让位于更复杂、更灵活的多智能体（multi-agent）系统。后者往往通过多个大模型协同运作，再配合工具调用、外部知识库与精细的编排协议，实现远超单一模型的能力。

这类系统在科研探索、数据工程、软件开发乃至科学发现中展现了惊人的潜力。

然而，越是复杂的系统，也越容易出现脆弱性。多智能体的执行链路往往长达数十甚至上百步，任何一个智能体的偏差都可能像骨牌一样，引发全局性的失败。

2025 年 2 月伯克利团队的最新实证 [1] 研究更是警示我们：流行的多智能体框架，如 MetaGPT、OpenHands，失败率最高可达 86.7%。在这种背景下，一个尖锐的问题浮现出来——系统失败时，到底是哪个环节、哪个智能体，真正引发了“崩塌”？

来自新加坡国立大学团队提出的 AgenTracer 框架首次为这个问题给出了答案。AgenTracer 首次实现了多智能体系统的自动化失效归因，以 8B 的参数量在多智能体错误故障判断领域反超 GPT-4.1，Gemeni-2.5-Pro 等巨头模型，为多智能体研究补上了至关重要的一环。

论文标题：

AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?

论文地址：

https://arxiv.org/abs/2509.03312

GitHub链接：

https://github.com/bingreeky/AgenTracer

失败归因：多智能体可靠的前提条件

在AI系统研究中，我们习惯关注“做得对”的部分：推理是否准确、规划是否高效、执行是否流畅。但在多智能体场景里，失败才是常态，归因（attribution）才是系统走向成熟的必修课。

所谓失效归因，指的是在系统给出错误答案后，能够精确锁定“哪个智能体在第几步”引入了致命错误。只有这样，我们才能谈得上：

高效调试：让系统具备自我排错与迭代改进的能力；

数据利用：将失败轨迹转化为高价值的训练样本，而不是废弃日志；

责任分配：在多智能体协作中，明确“谁该背锅”，避免模糊的集体错误。

但问题在于，哪怕是最强的推理大模型，如 GPT-4.1、Claude-4-Sonnet、DeepSeek-R1，面对失效归因任务时也力不从心。实验证据显示，它们的准确率常常低于 10%，甚至比随机猜测好不了多少。

更棘手的是，有些错误并非显而易见，而是埋藏在早期的步骤中，只有在几十步之后才显现。这使得传统的“逐步检查”方法几乎失效。

这也解释了为什么“失效归因”长期以来被忽视：它不仅需要深度理解整个轨迹，还要有能力穿透表象，找到真正的决定性错误（decisive error）——那个一旦被纠正，整个系统就能从失败转向成功的关键节点。

AgenTracer：自动化失效归因的大规模数据管线

针对这一难题，作者提出了 AgenTracer，这是首个针对多智能体系统的全自动失效归因框架。它包含两个互补的创新点：

第一，自动化数据生成管线。

过去，失效轨迹的标注需要专家手工分析，大量时间消耗在“逐行审计”上。AgenTracer 引入了两种核心机制：

反事实回放（Counterfactual Replay）：逐步替换失败轨迹中的动作，用“理想解”校正，直到找到能让系统转败为胜的那一步。这样，我们就能自动确定“致命错误”的准确位置。

程序化故障注入（Programmatic Fault Injection）：在成功的轨迹中，人为地插入一个“错误操作”，生成合成的失败样本。这样一来，我们不仅有真实失败案例，还能构建出覆盖性更强的数据集。

基于这套流程，AgenTracer 构建了 TracerTraj-2.5K 数据集，涵盖 2000+ 高保真失败轨迹，规模超越了现有的 MAST 和 Who&When 等手工标注集。

第二，轻量级追踪器 AgenTracer-8B。

在数据集基础上，作者使用 Qwen3-8B 作为基座，结合多粒度强化学习（Multi-granular RL）进行训练。它能在长时序轨迹中同时实现：

步骤级归因（step-level attribution）：精准定位到哪一步出错；

智能体级归因（agent-level attribution）：识别是哪个 Agent 导致问题。

最终得到的 AgenTracer-8B 不仅准确率高，而且推理速度快，真正具备落地价值。

实验结果：轻量模型击败巨型闭源大模型

本文采用两类主要度量：agent-level accuracy（能否定位到致命错误的智能体）与 step-level accuracy（能否定位到致命的执行步骤）。评测分为两种场景：

w/ G（鉴错 agent 可见 ground-truth）- w/o G（鉴错 agent 不可见 ground-truth，现实中更有代表性）。

评测集包括 Who&When（分 handcrafted 与 automated 两个子集）以及 TracerTraj 从 TracerTraj-2.5K 中抽取的三个领域子集：Code / MATH / Agentic。

在 Who&When 基准上，AgenTracer-8B 展现了“小模型逆袭”的亮眼表现。尽管参数量仅为 8B，它在 agent-level 归因上显著领先 GPT-4.1 与 Claude-4-Sonnet，并在 step-level 定位上同样稳居第一。

在某些场景下，AgenTracer-8B 相比闭源巨模的优势达到 18.18%，这说明其针对性优化比单纯依赖规模更有效。

研究者还进一步在自构建的 TracerTraj 数据集上进行评测，涵盖数学（MATH）、代码（Code）和复杂多智能体（Agentic）三类任务。

结果显示：在数学推理轨迹鉴错中，AgenTracer-8B 在 step-level 的准确率远超 DeepSeek-R1 与 GPT-4.1，优势尤为显著；在代码轨迹鉴错中，它比专门的 Qwen3-Coder 还要更准确地定位关键错误；而在复杂多智能体场景下，AgenTracer-8B 虽在 agent-level 上与 Claude 接近，但在 step-level 上明显更稳健。