PaperWeekly 09月11日
多智能体系统失效归因新框架 AgenTracer
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

多智能体系统在AI研究中日益重要,但其复杂性也带来了较高的失败率。新加坡国立大学团队提出的AgenTracer框架,首次实现了多智能体系统的自动化失效归因。该框架通过自动化数据生成管线(反事实回放和程序化故障注入)构建了大规模数据集TracerTraj-2.5K,并训练了一个轻量级追踪器AgenTracer-8B。实验表明,AgenTracer-8B在失效归因任务上超越了GPT-4.1、Gemini-2.5-Pro等巨头模型,准确率显著提升,为多智能体系统的调试、数据利用和责任分配提供了关键支持。此外,AgenTracer还能赋能系统实现自我进化,显著提升多智能体系统的整体性能。

💡 **自动化失效归因的突破:** AgenTracer框架是首个实现多智能体系统自动化失效归因的解决方案。它通过反事实回放和程序化故障注入等创新机制,自动化生成了规模庞大的失败轨迹数据集TracerTraj-2.5K,解决了以往手工标注效率低下、成本高昂的问题。这使得研究人员能够更高效地定位多智能体系统中的错误源头。

🚀 **轻量级模型实现高性能:** AgenTracer-8B模型,尽管参数量仅为8B,但在多智能体失效归因任务上取得了惊人的成果,其准确率超越了GPT-4.1、Claude-4-Sonnet和Gemini-2.5-Pro等大型闭源模型。这证明了针对性算法设计和数据构造在复杂系统诊断中的重要性,即“小模型”通过聪明的方法也能实现“大作为”。

🛠️ **赋能系统自我进化:** AgenTracer不仅能诊断问题,更能驱动系统的自我改进。通过将AgenTracer生成的反馈注入现有系统,可以显著提升其性能。实验表明,这种基于根因分析的反馈比传统的反思式方法更有效,能够推动智能体系统走向自适应和自演化,实现性能的持续提升。

🔍 **深层错误定位能力:** 案例分析揭示了AgenTracer在定位“隐形”或“早期”错误方面的强大能力。例如,在销售数据分析任务中,AgenTracer准确地将错误追溯到早期下载过期文件的根本原因,而非仅仅停留在表面现象,这对于理解和修复复杂系统中的深层问题至关重要。

原创 让你更懂AI的 2025-09-10 13:41 北京

多智能体失效归因的“逆袭大戏”

在大模型的持续进化过程中,我们见证了单体模型(monolithic LLM/agents)逐渐让位于更复杂、更灵活的多智能体(multi-agent)系统。后者往往通过多个大模型协同运作,再配合工具调用、外部知识库与精细的编排协议,实现远超单一模型的能力。

这类系统在科研探索、数据工程、软件开发乃至科学发现中展现了惊人的潜力。

然而,越是复杂的系统,也越容易出现脆弱性。多智能体的执行链路往往长达数十甚至上百步,任何一个智能体的偏差都可能像骨牌一样,引发全局性的失败。

2025 年 2 月伯克利团队的最新实证 [1] 研究更是警示我们:流行的多智能体框架,如 MetaGPT、OpenHands,失败率最高可达 86.7%。在这种背景下,一个尖锐的问题浮现出来——系统失败时,到底是哪个环节、哪个智能体,真正引发了“崩塌”?

来自新加坡国立大学团队提出的 AgenTracer 框架首次为这个问题给出了答案。AgenTracer 首次实现了多智能体系统的自动化失效归因,以 8B 的参数量在多智能体错误故障判断领域反超 GPT-4.1,Gemeni-2.5-Pro 等巨头模型,为多智能体研究补上了至关重要的一环。

论文标题:

AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?

论文地址:

https://arxiv.org/abs/2509.03312

GitHub链接:

https://github.com/bingreeky/AgenTracer

失败归因:多智能体可靠的前提条件

在AI系统研究中,我们习惯关注“做得对”的部分:推理是否准确、规划是否高效、执行是否流畅。但在多智能体场景里,失败才是常态,归因(attribution)才是系统走向成熟的必修课。

所谓失效归因,指的是在系统给出错误答案后,能够精确锁定“哪个智能体在第几步”引入了致命错误。只有这样,我们才能谈得上:

但问题在于,哪怕是最强的推理大模型,如 GPT-4.1、Claude-4-Sonnet、DeepSeek-R1,面对失效归因任务时也力不从心。实验证据显示,它们的准确率常常低于 10%,甚至比随机猜测好不了多少。

更棘手的是,有些错误并非显而易见,而是埋藏在早期的步骤中,只有在几十步之后才显现。这使得传统的“逐步检查”方法几乎失效。

这也解释了为什么“失效归因”长期以来被忽视:它不仅需要深度理解整个轨迹,还要有能力穿透表象,找到真正的决定性错误(decisive error)——那个一旦被纠正,整个系统就能从失败转向成功的关键节点。

AgenTracer:自动化失效归因的大规模数据管线

针对这一难题,作者提出了 AgenTracer,这是首个针对多智能体系统的全自动失效归因框架。它包含两个互补的创新点:

第一,自动化数据生成管线。

过去,失效轨迹的标注需要专家手工分析,大量时间消耗在“逐行审计”上。AgenTracer 引入了两种核心机制:

基于这套流程,AgenTracer 构建了 TracerTraj-2.5K 数据集,涵盖 2000+ 高保真失败轨迹,规模超越了现有的 MAST 和 Who&When 等手工标注集。

第二,轻量级追踪器 AgenTracer-8B。

在数据集基础上,作者使用 Qwen3-8B 作为基座,结合多粒度强化学习(Multi-granular RL)进行训练。它能在长时序轨迹中同时实现:

最终得到的 AgenTracer-8B 不仅准确率高,而且推理速度快,真正具备落地价值。

实验结果:轻量模型击败巨型闭源大模型

本文采用两类主要度量:agent-level accuracy(能否定位到致命错误的智能体)与 step-level accuracy(能否定位到致命的执行步骤)。评测分为两种场景:

评测集包括 Who&When(分 handcrafted 与 automated 两个子集)以及 TracerTraj 从 TracerTraj-2.5K 中抽取的三个领域子集:Code / MATH / Agentic。

在 Who&When 基准上,AgenTracer-8B 展现了“小模型逆袭”的亮眼表现。尽管参数量仅为 8B,它在 agent-level 归因上显著领先 GPT-4.1 与 Claude-4-Sonnet,并在 step-level 定位上同样稳居第一。

在某些场景下,AgenTracer-8B 相比闭源巨模的优势达到 18.18%,这说明其针对性优化比单纯依赖规模更有效。

研究者还进一步在自构建的 TracerTraj 数据集上进行评测,涵盖数学(MATH)、代码(Code)和复杂多智能体(Agentic)三类任务。

结果显示:在数学推理轨迹鉴错中,AgenTracer-8B 在 step-level 的准确率远超 DeepSeek-R1 与 GPT-4.1,优势尤为显著;在代码轨迹鉴错中,它比专门的 Qwen3-Coder 还要更准确地定位关键错误;而在复杂多智能体场景下,AgenTracer-8B 虽在 agent-level 上与 Claude 接近,但在 step-level 上明显更稳健。

综合来看,不同领域展现了不同的规律:在数学类任务中,清晰的逻辑链让 AgenTracer 充分发挥因果追踪能力;在代码任务中,尽管错误常被执行日志掩盖,它依旧保持领先;而在异质性更高的多智能体场景下,step-level 的优势表明其善于发现早期隐藏的致命错误。

这背后揭示出一个重要事实:在关键任务上,算法设计与数据构造的针对性优化,往往比一味追求更大规模更具价值。AgenTracer 用实验结果证明:通过更聪明的数据和训练方法,小模型也能在复杂系统诊断中展现出超越巨型模型的实力。

赋能系统:从诊断走向自我进化

定位错误只是第一步,更关键的问题是——能不能利用这些归因信息,让系统自己变得更好?

作者设计了一系列实验,将 AgenTracer-8B 生成的反馈注入现有多智能体系统,包括 MetaGPT、MaAS、OWL Workforce。结果表明,这些系统在迭代运行中性能显著提升:

相比之下,传统的反思式方法(如 Self-Refine、CRITIC),即便搭配 GPT-4.1,效果反而可能是负的——因为它们往往停留在表面修正,而缺乏对真正根因的把握。

因此,AgenTracer 不仅仅是“诊断师”,更是一个可靠的“改造教练”,推动智能体系统走向自适应与自演化。

案例剖析:隐形的真正元凶

论文还展示了一个典型案例,生动体现了归因的难度与价值:

在一项公司销售数据分析任务中,多个智能体协同完成查询。最终答案错误地指向 “North” 为销售冠军。Qwen3-8B 把问题归因于第 6 步的代码执行错误;Claude-4-Sonnet 则认为是管理 Agent 在第 7 步未做深入检查。

而 AgenTracer-8B 通过深入分析,发现真正的根因在第 2 步:Web Surfer 下载了一个过期文件。这一错误并没有立即显现,而是在第 11 步才被隐性放大,导致最终答案彻底偏离。

这一案例说明,真正的致命错误往往并不在“出问题的地方”,而在更早、更隐蔽的环节。而这,恰恰是AgenTracer展现价值的地方。

结语:迈向自进化的智能体社会

AgenTracer 的贡献,不仅是提出了一个新方法,更是在方法论层面填补了一个长期空白:

随着多智能体系统不断走向真实应用,如何保证它们“跑得稳”,将比“跑得快”更为关键。AgenTracer 提供了一条切实可行的路径,向着更可靠、更具韧性的群体智能迈出了关键一步。

参考文献

[1] Why Do Multi-Agent LLM Systems Fail?

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多智能体系统 失效归因 AgenTracer AI可靠性 自动化 模型性能 Multi-agent Systems Failure Attribution AI Reliability Automation Model Performance
相关文章