大语言模型(LLMs)常出现“幻觉”,PhantomCircuit研究揭示了其中一种隐蔽的“知识遮蔽”现象:高频主流知识在模型内部形成偏压,压制了低频但正确的冷门知识。研究团队通过“知识电路”分析,首次追踪了这种遮蔽在训练过程中的生成与恢复机制,为理解和修复模型幻觉提供了新视角。实验发现,知识流行度、模型规模和数据集大小共同影响遮蔽动态,模型中的“注意力头”是关键角色。基于此,PhantomCircuit提出了一种无需重训的电路优化方案,以增强模型对冷门知识的识别能力,有望成为改善大模型可靠性的工具。
💡 **知识遮蔽:隐蔽的幻觉根源**
研究揭示,大模型幻觉并非简单的记错,而是“知识遮蔽”现象,即模型在训练中受高频主流知识影响,无意识地压制了低频但正确的冷门知识。例如,模型可能因频繁接触“北京”作为中国经济中心,而忽略了“上海”的正确答案,导致输出错误。
🧠 **PhantomCircuit:洞察训练过程的“知识电路”**
为深入理解知识遮蔽,研究团队提出了PhantomCircuit框架,通过分析模型内部的“知识电路”(信息流通路径)来追踪遮蔽的产生与固化过程。该框架动态分析训练过程,识别关键信息流和决策节点,揭示了模型如何“看错”世界。
📊 **关键影响因素与核心角色**
实验发现,知识流行度、模型规模和数据集大小共同决定了知识遮蔽的发生、持续与恢复难度。其中,模型中的“注意力头”被识别为关键角色,它们对冷门知识差异部分的关注程度直接影响知识遮蔽效应的强弱。
🛠️ **电路优化:无需重训的幻觉缓解方案**
基于知识电路的分析,PhantomCircuit提出了一种创新的方法:通过优化模型内部的电路连接,增强模型对冷门知识的识别能力,从而缓解知识遮蔽问题。这种方法无需重新训练模型,为提高大模型可靠性提供了新的途径。
原创 让你更懂AI的 2025-10-10 13:17 北京

一条知识电路,揭开LLM最隐蔽的幻觉

当我们以为大模型的“幻觉”只是记错事实时,PhantomCircuit 揭示了一个更隐蔽的真相——模型其实记得,但被主流知识遮蔽了。
高频知识在神经电路中形成偏压,压制了那些低频却正确的事实,让模型“看见”世界的同时,也“看错”了世界。通过知识电路分析,研究团队首次追踪了这种遮蔽在训练过程中的生成与恢复,为理解和修复大模型幻觉提供了全新的视角。
知识遮蔽:当主流知识遮蔽了冷门知识尽管大语言模型 (LLMs) 在各类任务中表现出色,但它们依然饱受"幻觉"困扰。其中一种尤为隐蔽的类型被称为知识遮蔽:当一个流行的知识被激活时,它会无意中压制另一个相关但更冷门的知识,导致模型输出错误答案——即使训练数据本身是高质量的。
举个例子:模型在学习"中国的某某中心"时,频繁看到"北京"作为答案,而较少看到"上海"。于是当被问及"中国最重要的经济中心是哪里?"时,模型仍可能回答"北京",而忽略了真正的答案"上海"。这就是知识遮蔽——高频知识压制了低频但正确的知识。
▲ 图1. 知识遮蔽示意图:高频的主流知识 (北京) 压制了低频的冷门知识 (上海)现有方法:治标不治本目前对知识遮蔽的研究主要停留在推理阶段的观察,比如分析模型输出是否错误,却很少深入其训练过程中的内部机制。这种"黑箱"式的分析难以揭示知识遮蔽究竟是如何在模型内部形成、演化、甚至被"固化"下来的。
▲ 图2. 知识遮蔽来源于不平衡数据的训练(a)。以往方法仅从输出层面分析 (b,c) ,而PhantomCircuit深入训练过程与模型内部决策机制 (d)PhantomCircuit登场:用"知识电路"透视模型记忆为了从根本上理解知识遮蔽,研究团队提出了 PhantomCircuit——一个基于知识电路分析的全新框架。知识电路可以看作是模型在处理特定任务时,内部各组件 (如注意力头、MLP 层) 之间形成的"信息流通路径"。
PhantomCircuit 通过构建并分析这些路径,揭示知识遮蔽是如何在训练过程中产生并且"固化"到模型内部的。具体来说,PhantomCircuit 做了三件事:1. 训练过程动态分析:追踪知识遮蔽从出现到恢复的全过程;2. 知识电路构建与分析:识别关键注意力头与信息流动路径;3. 电路优化与遮蔽恢复:通过剪枝不重要连接,增强模型对冷门知识的识别能力。
论文标题:Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis作者机构:港科大 (广州) 、港科大、上海交大、南洋理工论文链接:https://arxiv.org/pdf/2505.14406代码链接:https://github.com/halfmorepiece/PhantomCircuit实验结果:三大发现揭示知识遮蔽本质发现一:训练过程中的"遮蔽动态"受三大因素影响研究团队系统性地控制了三个关键因素:知识流行度 (P) 、模型规模 (M)、数据集大小 (D),并观察它们如何影响遮蔽现象的出现、持续与恢复。其中知识流行度 (P) 可以看作数据集中主流知识 (如"中国的某某中心是北京") 与冷门的知识 (如"中国的某某中心是上海") 中出现频次的比值。
P 越高、M 越大,遮蔽现象出现越早,但恢复也越快;D 越大,遮蔽出现也越早,但恢复过程更慢、更困难,是一个长尾式的恢复曲线。
▲ 图3. 不同 P、M、D 设置下,知识遮蔽率 (RO) 在训练过程中的变化基于这一发现,研究团队推测:像 Llama-7B 这样的语言模型之所以在预训练后仍存在持续幻觉,正是因为其训练数据规模巨大、模型尺寸相对较小,产生了长尾式的知识遮蔽恢复曲线,从而导致预训练结束时取出的模型的知识遮蔽效应仍有残留。

▲ 图4. 巨大的数据规模和相对较小的模型尺寸导致了模型易于残留知识遮蔽效应
发现二:知识电路中的"注意力头"是关键角色通过分析训练过程中模型的知识电路,研究团队发现:模型对冷门知识与主流知识之间的差异部分越关注,知识遮蔽效应越弱,如图5(a);某些高注意力头会显著加强对冷门知识差异部分的关注,其出现与消失影响了知识遮蔽效应的强弱,如图5(b);电路结构可以识别出对知识遮蔽效应关键的信息流和节点,如图5(c)。
▲ 图5. 基于知识电路对知识遮蔽进行分析,发现模型对冷门知识与主流知识之间差异部分的注意力非常关键此外,团队还进行了电路忠诚性分析,通过 消除消融实验验证了这些高注意力头对模型输出的关键影响——移除它们会导致模型性能显著下降。
▲ 表1. 移除高注意力头后,模型性能与注意力分数显著下降发现三:基于电路优化的遮蔽恢复方法基于上述发现,PhantomCircuit 进一步提供了一种可能的基于电路的遮蔽优化方案,通过调整电路中的边连接数,增强模型对冷门知识的识别能力。在实验中,该方法成功在多个测试案例中实现了遮蔽恢复,使模型从错误输出转为正确输出。
▲ 图6. 基于知识电路的知识遮蔽恢复方法

总结:为理解知识遮蔽幻觉提供新视角
PhantomCircuit 不仅首次系统性地揭示了知识遮蔽在训练过程中的动态演化规律,还通过知识电路分析提供了可解释的内部机制视角。同时,它展示了一种无需重新训练、通过优化电路的方法来缓解幻觉的潜在方案。未来,这一方法有望扩展到更多类型的幻觉分析中,成为理解和改善大模型可靠性的重要工具。更多阅读