PaperWeekly 08月29日
超越语义熵:语义能量检测大模型幻觉新方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大模型常出现“一本正经的胡说八道”,即“幻觉”问题。牛津大学提出的语义熵(Semantic Entropy)通过计算采样输出的语义随机性来量化幻觉,但其在模型重复输出错误答案时失效。最新研究提出语义能量(Semantic Energy),通过计算未归一化的 logits 来刻画模型内在不确定性,解决了语义熵的局限性。实验表明,语义能量在幻觉检测任务上性能显著提升约15%,尤其在处理模型重复输出错误答案的场景下表现更优,为大模型可靠性评估提供了新思路。

💡 **大模型幻觉问题严峻,现有方法存在局限**:大语言模型常会生成看似合理但实际错误的回答,即“幻觉”。牛津大学提出的语义熵(Semantic Entropy)是一种量化模型不确定性的方法,通过计算多次采样回答的语义随机性来检测幻觉。然而,当模型重复输出具有相同语义的错误答案时,语义熵会失效,而这种情况在实际应用中占比很高(约30%)。

🚀 **语义能量(Semantic Energy)提出,解决语义熵局限**:为克服语义熵在处理模型重复错误答案时的不足,最新研究提出了语义能量(Semantic Energy)。该方法的核心在于,不依赖于 softmax 后的归一化概率,而是直接利用模型的 logits(即 softmax 层之前的输出)来估计不确定性。通过计算 logits 的均值并考虑其累积强度,语义能量能够更准确地反映模型的内在不确定性。

📊 **语义能量显著提升幻觉检测性能**:通过将语义熵中的概率计算替换为语义能量的 logits 计算方式,研究发现语义能量在幻觉检测任务上取得了显著的性能提升,平均提升约15%。这一改进主要体现在语义熵失效的场景,即模型坚定地重复输出相同语义的错误答案时,语义能量能够提供有效的区分度,从而更准确地识别模型的不确定性和潜在的幻觉。

🛠️ **计算方法与应用前景**:语义能量的计算包括回复采样、语义聚类以及不确定性估计。通过计算每个语义簇中 logits 的总和来衡量模型的可靠性。这种方法为大模型的不确定性估计和幻觉检测提供了更鲁棒的解决方案,对于提升大模型的可靠性和在各种下游任务中的应用具有重要意义。

原创 让你更懂AI的 2025-08-28 22:09 北京

专治“大模型一本正经的胡说”

大模型饱受“幻觉”困扰。大模型有时会给出错误答案却不自知,甚至“一本正经地胡说八道”,将错误隐藏的更深。如何刻画模型回答的可靠性,成为解决大模型“幻觉”的关键。

牛津大学发表在 Nature 上的语义熵(Semantic Entropy)通过采样多次输出并计算其语义的随机性来量化“幻觉”程度,引起广泛关注。

然而,语义熵在面对“模型多次重复错误答案”时却失效,且该现象在实际应用中占比极高(benchmark 上占比~30%)。最新提出的语义能量(Semantic Energy)提供了精准的不确定性刻画能力,对比语义熵,在“幻觉”检测任务上取得大幅性能提升(~15%)。

论文标题:

Semantic Energy: Detecting LLM Hallucination Beyond Entropy

论文链接:

https://arxiv.org/abs/2508.14496

项目链接:

https://github.com/MaHuanAAA/SemanticEnergy/tree/main

不确定性估计与幻觉检测

大语言模型已经成为日常工作中不可缺少的一部分,作为强大生活和工作助手,极大的提高了便利性和效率。然而,大语言模型面向开放世界,难以做到通晓全部知识,在所有领域全知全能。

然而,更为严重问题在于大模型不仅会出错,还会流畅的输出看似正确的回复。因此,我们就需要一个指示器,能够准确的指示大模型出错的可能性。

为解决上述问题,牛津大学团队提出语义熵概念和方法并发表在 Nature 正刊 [1],展示了不确定性量化具有识别模型的幻觉的能留,并且在 reasoning [2],parallel thinking [3] 甚至是后训练过程 reinforce learning [4] 中展示了巨大潜力。

顾名思义,语义熵在计算熵的同时考虑了回复的语义,通过将相同语义的回复聚类,将不同的回复但相同的语义作为一个整体,来适应自然语言中正确答案的丰富表述形式。

▲ 图1. 语义熵有效的场景

语义熵的局限性

上图中的例子展示了语义熵的有效场景。Question 1 计算出来的语义熵更高,准确的捕获了幻觉的出现。然而,语义熵存在一个致命缺点:熵是基于归一化的概率计算的,仅刻画了数据不确定性,无法刻画模型内在的不确定性。请看下面的这组例子:

(1)考虑两个问题 Question 2 和 Question 3,其中模型在与 Question 2 相关的数据上进行了大量训练(因此能回答正确),但与 Question 3 相关的训练数据有限(导致回答错误)。

(2)假设对每个问题分别采样得到 5 个回答,并根据它们的语义相似性进行聚类后获得一个聚类簇(因为每个问题的多次回复采样具有相同语义)。

(3)在这种情况下,尽管大语言模型对 Question 3 输出了 5 个语义一致的错误答案,但两种情况语义熵计算出来的结果都是 0,均被认为是可靠的回复。

▲ 图2. 语义熵失效的场景

显然,语义熵在这种场景下完全失效。那可不可以忽略这种情况的影响?通过实验发现,这种场景占比极高,大模型非常擅长多次回答相同语义的错误答案。大模型多次回答相同语义的场景中有 15%~45% 的样本是回答错误的情况。

问题源头:归一化的局限性

这种现象是由于最后一层 softmax 的归一化引起的。如图 3 中所示,原本 logits 的强度会随着训练越来越充分累积 [5],能够指示模型的内在不确定性。

采样概率只关注不同 token 的相对关系,从而进行了归一化,并丢掉了这个指示信息。即使模型表达了截然不同的两种情况(例如 Question 2 和 Question 3),归一化的概率只能为用户提供没有任何区分度的信息。

▲ 图3. 归一化概率带来的问题

显著优势:Semantic Energy替换Semantic Entropy

最新工作 Semantic Energy 提供了解决这个问题的思路,仅仅通过改变语义熵中最后一步的不确定性计算方式,就能使 LLM 分辨上述语义熵无法区分的场景。先看效果:

▲ 图4. 语义熵 vs 语义能量

参照下列玻尔兹曼分布,Semantic Energy 与 Semantic Entropy 的关键区别在于 Semantic Entropy 根据归一化之后的概率计算不确定性,而 Semantic Energy 根据归一化之前的能量  计算不确定性

对应到神经网络中, 为 logits(未经过 softmax 层的倒数第二层)的相反数, 代表配分函数。

关键方法如下:

(1)回复采样:和语义熵类似,对于一个问题,需要先采样多次回复,例如下面的图中,每个问题采样 5 次回复,统计每个回复各自的 logits 均值(logits 之和除以回复长度)。

(2)语义聚类:按照语义,将回复聚类成不同的语义簇,例如 Question 1 的回复聚类成了 3 个簇,而 Question 2 和 3 的回复都只聚类到了一个簇 (语义分析会影响性能,建议使用能力强大的模型,轻量模型建议用 TIGER-Lab/general-verifier)。

(3)不确定性估计:计算每个簇中的 logits 之和作为模型的可靠性,logits 之和越高,说明可靠性越强。

单条回复的可靠性:单条回复的可靠性等于其所在簇的可靠性,比如一个问题回答了 5 次,语义聚类(answer1,answer2,answer3)(answer4,answer5)。

然后可以计算两个簇的能量 energy_cluster1,energy_cluster2;最终 answer1,answer2,answer3 的可靠性就是 energy_cluster1 的计算得到的值,answer4,answer5 的可靠性为 energy_cluster2 计算得到的值。

▲ 图5. 语义熵和语义能量计算方式的差异 

作者分别在中英文问答数据上进行了评估,通过定量的评估结果可以看到有大幅提升:

而其中性能提升的主要来源就是 Semantic Entropy 失效的场景,Energy 为不确定性估计带来了 Entropy 在模型“坚定”回答重复语义的场景下原本不具备的区分度:

显而易见的,Semantic Energy 为 Semantic Entropy 打了一个强力补丁,如果你正准备尝试利用不确定性进行下游任务,那么 Semantic Energy 是一个不错的选择;如果你发现了某个工作利用 Semantic Entropy 增强了下游任务,那么尝试将其替换为 Semantic Energy,你会有新的发现。

参考文献

[1] Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn, and Yarin Gal. Detecting hallucinations in large language models using semantic entropy. Nature, 630(8017):625–630, 2024.

[2] Zihuiwen Ye, Luckeciano Carvalho Melo, Younesse Kaddar, Phil Blunsom, Sam Staton, and Yarin Gal. Uncertainty-aware step-wise verification with generative reward models. arXiv:2502.11250, 2025.

[3] Zenan Xu, Zexuan Qiu, Guanhua Huang, Kun Li, Siheng Li, Chenchen Zhang, Kejiao Li, Qi Yi, Yuhao Jiang, Bo Zhou, et al. Adaptive termination for multi-round parallel reasoning: An universal semantic entropy-guided framework. arXiv preprint arXiv:2507.06829, 2025.

[4] Qingyang Zhang, Haitao Wu, Changqing Zhang, Peilin Zhao, and Yatao Bian. Right question is already half the answer: Fully unsupervised llm reasoning incentivization. arXiv:2504.05812, 2025.

[5] Weitang Liu, Xiaoyun Wang, John Owens, and Yixuan Li. Energy-based out-of-distribution detection. Advances in neural information processing systems, 33:21464–21475, 2020.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 幻觉 语义能量 LLM Hallucination Semantic Energy 不确定性估计 Uncertainty Estimation AI 自然语言处理 NLP
相关文章