该文章探讨了在每日总结大量邮件(约3000封)生成日报时,特别是当邮件内容本身就是日报形式时,容易出现的“张冠李戴”现象。作者指出,即使在对GPT-5、Claude-Sonnet-4.5、Kimi k2、Gemini-2.5-pro等大模型进行详细Prompt优化后,仍然无法完全避免将一封邮件中的成就错误地归属给另一位工作者。文章描述了具体案例,如将“李四与xx公司达成战略合作协议”误归于“张三”。作者分享了其当前的批量处理方法(每50封邮件总结一次,再合并总结60次),并寻求解决此类信息归属错误的有效方案,强调Prompt优化已达极限。
🎯 **信息归属错误的核心问题**:在处理包含个人工作日报的邮件集合时,大型语言模型存在将一个邮件中的特定成就(如签订合作协议)错误地归属给另一位邮件作者的倾向,即使经过详细的Prompt指导和模型测试,此问题依然存在,严重影响日报的准确性。
⚙️ **批量处理与层级总结的挑战**:作者采取了分批处理(每50封邮件)再进行二次合并总结(60次)的策略,旨在降低单次处理的数据量以提高准确性。然而,这种层级化的总结方式并未根本上解决信息归属的混淆,表明问题根源可能在于信息提取和关联的内在难度。
💡 **Prompt优化极限与解决方案寻求**:尽管作者已投入大量精力优化Prompt,力求明确指示模型进行精确的事实与人名对应,但模型仍旧出现错误。这表明,单纯的Prompt改进可能不足以应对此类复杂信息整合任务,需要探索更深层次的解决方案,例如数据预处理、模型架构调整或引入外部知识库等。
📊 **邮件内容本身的复杂性**:当邮件本身就是日报形式时,其内部结构和表述方式可能增加了模型理解的难度。例如,多位员工的工作内容在一个邮件中列出,或者使用模糊的指代,都可能导致模型在提取和匹配信息时产生偏差。如何让模型更好地解析这类结构化但信息密集的文本是关键。
🚀 **对改进策略的探讨**:鉴于现有大模型在精准信息归属方面遇到的困难,文章引发了对更有效策略的讨论。这可能包括但不限于:引入更强大的实体识别和关系抽取技术,采用多轮对话或交互式纠错机制,或者对输入邮件进行结构化预处理,提取关键实体(人名、公司、事件)及其关系,再输入给模型进行总结。
目前有个工作任务,需要每天总结 3000 封邮件,生成一封 500 字的日报并发给老板。
我发现在实践过程中,如果邮件本身就是日报形式的,非常容易出现张冠李戴的问题。
举个例子,其中一封邮件的内容:
张三今日完成工作如下:优化 XX 项目后端延迟,与 YY 供应商签订合作协议李四今日完成工作如下:与 xx 公司达成战略合作协议
大模型在总结后生成的内容,可能会出现张三与 xx 公司达成战略合作协议。我分别测试了 GPT-5 、Claude-Sonnet-4.5 、Kimi k2 、Gemini-2.5-pro,都会出现这个问题。
3000 封邮件大概会有 10 几万字,因为里面可能会有很长的研报。我是每 50 封邮件总结一次。最后把 60 次总结再进一步合并总结。
我的 Prompt 写得非常详细,已经明确要求把公司和事实一一对应了,但依然会出现这个问题。
大家对这种问题有没有什么好办法。各种方案我都试过了,prompt 已经优化得不能再优化了。这种问题还是会出现。