Datawhale 09月08日

语言模型“幻觉”的根源与应对策略

OpenAI最新研究揭示了大型语言模型（LLM）产生“幻觉”（即生成看似合理但实际错误的答案）的根本原因。研究指出，当前的训练和评估机制倾向于奖励模型的猜测行为，而未能有效鼓励其表达不确定性。预训练阶段的数据稀缺性、模型表达能力不足以及统计上的必然性，都为幻觉埋下了伏笔。随后的“考试机制”，即主流的评测方法，更是通过扣分等方式强化了模型不敢“交白卷”的倾向。论文提出，解决幻觉问题的关键在于调整评分规则，允许模型在不确定时选择“不知道”，并引入信心阈值，使“弃权”成为最优策略。这并非要求模型更“聪明”，而是要让模型更“诚实”地表达其认知局限。

💡 **幻觉的根源在于训练与评估机制的偏差**：当前主流的语言模型训练和评估方法，特别是基于二元评分（如对/错）和准确率的评测，倾向于奖励模型进行猜测，即使答案不确定或错误。这种机制迫使模型在面对不确定信息时也必须给出答案，从而增加了幻觉的产生。模型在预训练阶段就可能因为数据稀缺（singleton）或表达能力不足而埋下产生幻觉的种子。

📉 **“考试机制”强化了模型的“不敢交白卷”倾向**：对10个主流评测的元评测显示，它们普遍存在“惩罚不确定性”的问题。例如，多项选择题准确率评分会扣分，人工评分标准也会低分评价“我不知道”（IDK），而对“带有幻觉但有用”的回答反而给予更高分数。这种评分方式使得模型不敢表达不确定性，即使它可能更准确地反映了真实认知水平。

✅ **“弃权”是解决幻觉的有效策略**：论文提出，可以通过修改评分规则来解决幻觉问题，核心在于让“弃权”成为一个可行的、甚至最优的选项。通过在prompt中设定明确的信心阈值（t），并相应调整答错和“我不知道”的得分，可以激励模型在置信度低于阈值时选择“我不知道”，从而避免生成错误的答案。这比单纯追求模型“全知全能”更具统计学上的合理性。

🧠 **小型模型在表达不确定性上可能更具优势**：与普遍认为需要更大模型才能解决幻觉的观点相反，研究表明小型模型可能更容易学习到自身的局限性。当面对不熟悉的领域（如特定语言的问题）时，小型模型可以直接表达“我不知道”，而一个“半懂”的模型则需要更复杂的计算来确定其置信度。因此，“校准”模型的不确定性表达所需的计算量，可能远小于提升其回答准确性的计算量。

2025-09-07 22:00 浙江

Datawhale分享
整理自：PaperAgent、OpenAI官方博客

相信很多同学都遇到过——问大模型一个冷门知识，它会一本正经地给出完全错误的答案。

比如：

“Adam Tauman Kalai 生日是哪天？知道的话就按 DD-MM 的格式直接给出。”

OpenAI(2025a)三次回答分别是 03-07、15-06、01-01，没一次对。

这就是典型的 Hallucination（幻觉）——语言模型生成看起来合理，实则错误离谱。

论文地址：https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

OpenAI 这篇论文首次系统揭示：语言模型出现幻觉的根本原因在于，当前标准的训练和评估程序更倾向于对猜测进行奖励，而缺乏对模型坦诚表达不确定性的奖励机制。

表1 提供了一些更复杂的幻觉示例：GPT-4o/DeepSeek/Llama

一、预训练阶段就埋下幻觉种子

Figure 2：GPT-4预训练模型（左）原本校准良好；RLHF后（右）明显过自信

1. 统计必然性

把生成问题等价到二分类“Is-It-Valid？”——只要分类器会犯错，生成就会出错（定理 1）。

图 1：Is-It-Valid二分类视角——生成错误⇔把"-"判成"+"

2. 数据稀缺性

训练语料里只出现一次的“冷知识”（singleton）注定会被模型记错，错误率 ≥ singleton 占比（定理 2）。

3. 模型表达能力不足

如果模型族本身就无法学到规律（如 trigram 数不对字母），幻觉率下限直接拉满（定理 3）。

阶段	核心发现	类比
预训练	就算训练数据100%正确，密度估计目标也会迫使模型生成错误	老师只教你对的，但期末要你把不会的也填满
后训练	二元评分（对1分/错0分）让模型不敢"交白卷"	选择题不会也得蒙，空着直接0分

二、后训练阶段“考试机制”强化幻觉

对10个主流评测做了元评测，发现清一色惩罚不确定性：

Table 2：主流评测清一色"惩罚"不确定性

Benchmark	评分方式	给IDK扣分吗？
MMLU-Pro	多选准确率	✅扣到0分
GPQA	多选准确率	✅扣到0分
SWE-bench	单测通过/不通过	✅扣到0分
WildBench	10分制人工rubric	⚠️IDK只得3-4分，不如"带幻觉但有用"的5-6分

三、解法：把"交白卷"变成可选项

呼吁不需要新benchmark，只要改评分规则：

1. 明示信心阈值

在prompt里直接写：

"只有在你置信度>t时才回答；答错扣t/(1-t)分，IDK得0分。"

2. 让"弃权"成为最优策略

当模型真实置信度<t时，说"我不知道"的期望得分最高，说谎反而吃亏。

四、总结

OpenAI 表示：我们希望本文中的统计学视角能够阐明幻觉的本质，并纠正一些常见的误解：

误解1：通过提高准确性可以消除幻觉，因为一个 100%准确的模型永远不会产生幻觉。

发现：准确性永远无法达到100%，因为无论模型规模如何，搜索和推理能力怎样，一些现实世界的问题本质上是无法回答的。

误解2：幻觉是不可避免的。

发现：幻觉并非不可避免，因为语言模型在不确定时可以选择不作答。

误解3：避免幻觉需要一定程度的智能，而这种智能只有通过更大的模型才能实现。

发现：小型模型可能更容易了解到自身的局限性。比方说，当被要求回答毛利语问题时，一个完全不懂毛利语的小型模型可以直接说“我不知道”，而一个懂一些毛利语的模型必须确定其置信度。正如论文中所讨论的，“校准”所需的计算量远小于实现回答准确性的计算量。

误解4：幻觉是现代语言模型中一种神秘的缺陷。

发现：我们已经理解了幻觉产生的统计学机制，以及它们在评估中获得奖励的原因。

误解5：要衡量幻觉，我们只需要一个好的幻觉评估方法。

发现：尽管已经提出了多种幻觉评估方法，但一个优秀的评估方法对于目前现有的数百种传统准确性指标几乎没有影响。这些传统指标往往惩罚表达谨慎、谦逊的回答，并奖励猜测行为。因此，所有主要的评估指标都需要重新设计，更好地鼓励模型在表达上体现出不确定性。

参考资料：

1. https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

2. https://openai.com/index/why-language-models-hallucinate/

一起“点赞”三连↓

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Datawhale分享
整理自：PaperAgent、OpenAI官方博客