Agent 评测新标准：OdysseyBench 应对真实复杂办公场景

原创小鹿 2025-08-19 20:05 北京

作为大家的测评博主，我最近发现一个巨有意思的现象：

现在市面上大部分评估 Agent 的基准测试，倾向于考核“单项技能”，而非“综合任务”。比如，你让 AI 点份外卖，它能完成；但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴，它很可能就原地就 G 了。

这种“偏科”现象并非我的主观感受。

比如，清华大学之前提出的 AgentBench ，将智能体的能力拆解成八大维度，比如理解人类意图、编码能力、逻辑推理、自主探索等等。这些能力单拎出来都非常重要，但它们本质上仍是一系列独立的“单项技能”，离能策划一场晚宴的项目管理大师还差得很远。

一旦我们把 Agent 从这些精心设计的“考场”，拉回到真实的“打工人”办公室，就会发现完全是另一番景象。在真实的打工人的办公环境中，我们面对的任务往往是：

长周期：不是一蹴而就，可能持续几天甚至几周。

上下文依赖：今天做的决策，可能要基于上周的对话或某个文档里的信息。

多交互协调：你需要跟 AI 来回“拉扯”，逐步细化需求，它也得记住你每次的需求变更。

跨应用：一个任务可能需要 Word 写报告、Excel 做分析、邮件发通知、日历排时间。

而目前市面上这些的测试标准，完全无法映射这种真实世界的复杂性。因此，我们看到的众多 Agent，本质上还是“技术玩具”，而非“生产力工具”。

它们在短平快的任务上表现尚可，一旦投入到仿真真实打工人的工作流中，几乎立刻歇菜。

为了弥补现有评测体系的不足，微软与爱丁堡大学的研究人员携手推出了专门用于评估大型语言模型 Agent 在“长周期、复杂办公应用工作流”中真实表现的综合性基准- OdysseyBench。

论文标题：Odysseybench: Evaluating Llm Agents On Long-Horizon Complex Office Application Workflows
论文链接：https://arxiv.org/pdf/2508.09124

OdysseyBench 的理念是：将评测的重心从“原子任务”转向了“真实工作流”。

看下图所示对比，左侧的传统“原子任务”就像是一个孤立指令：“把这句话加到文档末尾”。

而右侧 OdysseyBench 所定义的“长周期任务”则高度模拟了现实：“请从一张合并了通知信息的图片中提取文本，按‘聚会’和‘会议’分类，分别整理成两个 PDF，并存入不同的文件夹。整个过程中，不仅穿插了无关的‘闲聊’作为干扰，任务指令本身也是在几天内分批给出的。”

这，才是真·打工人日常啊！

OdysseyBench 使用了 Word、Excel、PDF、电子邮件和日历 五大“打工人”搬砖应用，创作了两类任务：

OdysseyBench+ (300 个任务)：来源于真实案例，但经过“魔改”，加入了长对话历史和上下文依赖。

OdysseyBench-Neo (302 个任务：全新生成，复杂度更高，多样性更强！

每个任务都要求 Agent 像个侦探，从持续数天的、夹杂着闲聊的对话中拼凑出线索，进行多步推理，并在多个应用间协调操作。如果不理解长周期历史，任务根本无法完成！

让我们来看一个例子，直观感受一下 OdysseyBench 的“险恶”之处：

任务的最终目标很简单：

“将提取的文本内容拆分，一部分存为 party.pdf，另一部分存为 meeting.pdf。”

在一个原子任务基准中，Agent 收到的就是这句直接的指令，而在 OdysseyBench 中，Agent 收到的却是这样一段跨越多天的对话历史：

Day 1, 09:00, 用户 Bob: “你能把这张合并通知图片里的文本提取出来吗？”
Day 1, 09:01, 助手: “当然！”
Day 3, 11:05, 用户 Bob: “对了，你能把之前提取的文本分成两部分吗？一部分关于派对，一部分关于会议。” Day 3, 11:06, 助手: “好的，记下了。”
Day 5, 15:00, 用户 Bob: “现在，用关于派对的那部分文本创建一个名为 party.pdf 的 PDF 文件。”
Day 5, 15:01, 助手: “没问题。”
(对话中可能还夹杂着关于天气、午餐的闲聊)

Agent 需要完成的任务指令是隐藏在这段漫长、碎片化的对话中的，它必须回溯、整合、并理解上下文，才能将“提取文本”、“拆分文本”、“创建 PDF”这几个分散在不同时间的子任务串联起来，形成一个完整的工作流。

好了，到这里，这对话已经很贴近我与我老板的对话 hh 了，氮素这种复杂还带“闲聊”的任务，人工标注得标到猴年马月去？

OdysseyBench 构建一个能自动化生成复杂基准的多 Agent 框架——HomerAgents，当作考卷，分两条“生产线”：

HomerAgents+ : 把简单的任务“魔改”成复杂的长周期对话。

Generator：接收一个简单的原子任务，围绕它开始“编故事”。

Verifier：严格检查故事是否真实、任务是否对齐、上下文是否连贯。不满意就打回去重做，直到产出高质量考题。

HomerAgents-Neo : 全新的任务。

Orchestrator：制定总计划，管理整个流程。

Surfers：在模拟的办公环境里“冲浪”，探索各种应用功能，收集素材。

Task Generator：基于素材，设计全新的复杂任务和评估标准。

Dialogue Generator：编写长达多天、包含“闲聊”作为“噪音”的真实对话剧本。

通过这种多 Agent 协作，OdysseyBench 实现了大规模、多样化、上下文真实的基准生成，解决了人工出题的瓶颈

好了，考卷已经出好了，那尖子生们的表现如何呢？

研究团队采用了目前最顶尖 LLM Agent（包括 GPT-4o、DeepSeek 等多个先进模型）进行了测试：

首先，Agent 需要会的应用越多，表现就越差。如下表所示，当任务从单个应用增加到三个应用时，即便是最强的模型，成功率也近乎腰斩。

接着，关于上下文的发现是：并非越长、越多就越好！

过去，我们习惯将所有对话历史一股脑地喂给模型，虽然其任务成功率最高，但钱包会哭哭。随着多位科学家对上下文工程重要性的不断验证，为了探寻高效且经济的记忆机制，研究团队设计了一组关键实验，测试 Agent 如何调用过往对话记忆的效率最高：

长上下文：将完整、未经处理的全部对话历史作为上下文提供给 AI。

原始对话片段检索：从对话中检索出与当前任务相关的单句或简短交流片段。

摘要区块检索：先将对话按逻辑分成连贯的“区块”，然后用另一个大语言模型对每个区块进行总结，形成一份份高度浓缩的“会议纪要”

而实验结果，简直是意料之外，毕竟，不是所有的数据都值得记住。结果就是：“摘要区块”策略大获全胜：

在难度更高的 OdysseyBench-Neo 数据集上，该策略的任务成功率高达 56.29%，这不仅是对粗糙的“信息碎片”策略的压倒性胜利，甚至超越了看似提供了全部信息的“信息瀑布”基线（51.99%），而且，其 Token 消耗量却不到后者的 20%，真正实现了性能与效率的双赢。

论文还“贴心”地分析了 Agent 目前打工中经常失败的几种常见情况：、

文件找不到：对话里提到了文件名，结果 Agent 没能提取出来去读取。

操作忘了做：用户让“分析数据再总结”，结果 Agent 没分析，直接开始瞎写总结。

工具用错了：想生成 PDF，但错误地使用了直接创建的工具，而不是先用 Word 编辑再转换。

计划混乱：需要先读 PDF 再写 Word，结果它直接打开 Word，然后问：“我要写啥来着？”

（看完这些“错误”，我只想问，到底谁说 Agent 现在还不能打工，这些错误我也天天犯啊！）

今天之所以给大家介绍 OdysseyBench，是因为其评测理念与与我个人对 AI Agent 未来发展的期望高度契合：

我们所真正期待的 Agent，并非当下流行、能执行越来越“难”的特定指令的“智能工具人”，而应是一个能够深刻理解用户意图、自主管理复杂项目、跨应用域为你创造价值的“智能伙伴”。

只有当 Agent 真正具备这样的认知深度与广度，我们所描绘的、真正意义上的 AI 时代才能降临～

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签