在每日总结大量邮件以生成日报的工作中,当邮件本身即为日报形式时,容易出现人名与事件错配(张冠李戴)的问题。例如,将张三的“优化XX项目后端延迟”与李四的“与xx公司达成战略合作协议”混淆。即使经过详细的Prompt优化,要求模型明确对应公司与事实,GPT-4.5、Claude-Sonnet-4.5、Kimi k2、Gemini-2.5-pro等多种大模型在处理包含大量研报的3000封邮件(约十几万字)时,仍会反复出现此现象。用户已尝试多种优化方案,但问题依旧存在,亟需有效解决方案。
🎯 **核心问题识别:** 在自动化邮件总结日报任务中,当原始邮件包含多个报告人及其工作项时,大模型普遍存在将不同人员的工作内容错误归属给他人(张冠李戴)的现象,即使Prompt已详尽指示需精确对应。
📊 **模型表现与挑战:** GPT-4.5、Claude-Sonnet-4.5、Kimi k2、Gemini-2.5-pro等主流大模型在处理日均3000封、字数庞大(含研报)的邮件集时,均未能有效避免此张冠李戴的错误,表明该问题具有普遍性和模型层面的挑战性。
💡 **现有优化困境:** 用户已投入大量精力优化Prompt,包括明确要求人员与事实的精确一一对应,但此策略在实践中效果甚微,问题依然频繁出现,显示出Prompt工程在应对此类复杂归因任务时的局限性。
🔍 **根本原因推测:** 问题的根源可能在于大模型在处理长文本、多实体、多事件的上下文关联时,对信息源的精确追踪能力不足,尤其是在信息密集且结构化的报告类邮件中,容易出现信息聚合与混淆。
目前有个工作任务,需要每天总结 3000 封邮件,生成一封 500 字的日报并发给老板。
我发现在实践过程中,如果邮件本身就是日报形式的,非常容易出现张冠李戴的问题。
举个例子,其中一封邮件的内容:
张三今日完成工作如下:优化 XX 项目后端延迟,与 YY 供应商签订合作协议李四今日完成工作如下:与 xx 公司达成战略合作协议
大模型在总结后生成的内容,可能会出现张三与 xx 公司达成战略合作协议。我分别测试了 GPT-5 、Claude-Sonnet-4.5 、Kimi k2 、Gemini-2.5-pro,都会出现这个问题。
3000 封邮件大概会有 10 几万字,因为里面可能会有很长的研报。我是每 50 封邮件总结一次。最后把 60 次总结再进一步合并总结。
我的 Prompt 写得非常详细,已经明确要求把公司和事实一一对应了,但依然会出现这个问题。
大家对这种问题有没有什么好办法。各种方案我都试过了,prompt 已经优化得不能再优化了。这种问题还是会出现。