原创 小鹿 2025-08-19 20:05 北京
论文标题:Odysseybench: Evaluating Llm Agents On Long-Horizon Complex Office Application Workflows论文链接:https://arxiv.org/pdf/2508.09124OdysseyBench 的理念是:将评测的重心从“原子任务”转向了“真实工作流”。看下图所示对比,左侧的传统“原子任务”就像是一个孤立指令:“把这句话加到文档末尾”。而右侧 OdysseyBench 所定义的“长周期任务”则高度模拟了现实:“请从一张合并了通知信息的图片中提取文本,按‘聚会’和‘会议’分类,分别整理成两个 PDF,并存入不同的文件夹。整个过程中,不仅穿插了无关的‘闲聊’作为干扰,任务指令本身也是在几天内分批给出的。”这,才是真·打工人日常啊!OdysseyBench 使用了 Word、Excel、PDF、电子邮件和日历 五大“打工人”搬砖应用,创作了两类任务:OdysseyBench+ (300 个任务):来源于真实案例,但经过“魔改”,加入了长对话历史和上下文依赖。OdysseyBench-Neo (302 个任务:全新生成,复杂度更高,多样性更强!每个任务都要求 Agent 像个侦探,从持续数天的、夹杂着闲聊的对话中拼凑出线索,进行多步推理,并在多个应用间协调操作。如果不理解长周期历史,任务根本无法完成!让我们来看一个例子,直观感受一下 OdysseyBench 的“险恶”之处:任务的最终目标很简单:
“将提取的文本内容拆分,一部分存为 party.pdf,另一部分存为 meeting.pdf。”在一个原子任务基准中,Agent 收到的就是这句直接的指令,而在 OdysseyBench 中,Agent 收到的却是这样一段跨越多天的对话历史:
Day 1, 09:00, 用户 Bob: “你能把这张合并通知图片里的文本提取出来吗?” Day 1, 09:01, 助手: “当然!” Day 3, 11:05, 用户 Bob: “对了,你能把之前提取的文本分成两部分吗?一部分关于派对,一部分关于会议。” Day 3, 11:06, 助手: “好的,记下了。” Day 5, 15:00, 用户 Bob: “现在,用关于派对的那部分文本创建一个名为 party.pdf 的 PDF 文件。” Day 5, 15:01, 助手: “没问题。” (对话中可能还夹杂着关于天气、午餐的闲聊)Agent 需要完成的任务指令是隐藏在这段漫长、碎片化的对话中的,它必须回溯、整合、并理解上下文,才能将“提取文本”、“拆分文本”、“创建 PDF”这几个分散在不同时间的子任务串联起来,形成一个完整的工作流。好了,到这里,这对话已经很贴近我与我老板的对话 hh 了,氮素这种复杂还带“闲聊”的任务,人工标注得标到猴年马月去?OdysseyBench 构建一个能自动化生成复杂基准的多 Agent 框架——HomerAgents,当作考卷,分两条“生产线”:HomerAgents+ : 把简单的任务“魔改”成复杂的长周期对话。Generator:接收一个简单的原子任务,围绕它开始“编故事”。Verifier:严格检查故事是否真实、任务是否对齐、上下文是否连贯。不满意就打回去重做,直到产出高质量考题。HomerAgents-Neo : 全新的任务。Orchestrator:制定总计划,管理整个流程。Surfers:在模拟的办公环境里“冲浪”,探索各种应用功能,收集素材。Task Generator:基于素材,设计全新的复杂任务和评估标准。Dialogue Generator:编写长达多天、包含“闲聊”作为“噪音”的真实对话剧本。通过这种多 Agent 协作,OdysseyBench 实现了大规模、多样化、上下文真实的基准生成,解决了人工出题的瓶颈好了,考卷已经出好了,那尖子生们的表现如何呢?研究团队采用了目前最顶尖 LLM Agent(包括 GPT-4o、DeepSeek 等多个先进模型)进行了测试:首先,Agent 需要会的应用越多,表现就越差。如下表所示,当任务从单个应用增加到三个应用时,即便是最强的模型,成功率也近乎腰斩。接着,关于上下文的发现是:并非越长、越多就越好!过去,我们习惯将所有对话历史一股脑地喂给模型,虽然其任务成功率最高,但钱包会哭哭。随着多位科学家对上下文工程重要性的不断验证,为了探寻高效且经济的记忆机制,研究团队设计了一组关键实验,测试 Agent 如何调用过往对话记忆的效率最高:长上下文:将完整、未经处理的全部对话历史作为上下文提供给 AI。原始对话片段检索:从对话中检索出与当前任务相关的单句或简短交流片段。摘要区块检索:先将对话按逻辑分成连贯的“区块”,然后用另一个大语言模型对每个区块进行总结,形成一份份高度浓缩的“会议纪要”而实验结果,简直是意料之外,毕竟,不是所有的数据都值得记住。结果就是:“摘要区块”策略大获全胜:在难度更高的 OdysseyBench-Neo 数据集上,该策略的任务成功率高达 56.29%,这不仅是对粗糙的“信息碎片”策略的压倒性胜利,甚至超越了看似提供了全部信息的“信息瀑布”基线(51.99%),而且,其 Token 消耗量却不到后者的 20%,真正实现了性能与效率的双赢。论文还“贴心”地分析了 Agent 目前打工中经常失败的几种常见情况:、文件找不到:对话里提到了文件名,结果 Agent 没能提取出来去读取。操作忘了做:用户让“分析数据再总结”,结果 Agent 没分析,直接开始瞎写总结。工具用错了:想生成 PDF,但错误地使用了直接创建的工具,而不是先用 Word 编辑再转换。计划混乱:需要先读 PDF 再写 Word,结果它直接打开 Word,然后问:“我要写啥来着?”(看完这些“错误”,我只想问,到底谁说 Agent 现在还不能打工,这些错误我也天天犯啊!)
