index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
北京大学研究团队提出Dynamic Focus Decoding(DFD)新方法,一种可插拔的随机解码机制,旨在解决大语言模型在开放式生成任务中面临的“太死板或太离谱”的困境。DFD通过动态调整解码焦点,在生成过程中实现对事实准确性和表达多样性的平衡。该方法基于分析模型内部层间分布差异,定义生成步骤的知识感知强度,并据此动态调整解码随机性。当生成事实性内容时降低随机性,生成创造性内容时提高随机性。DFD无需额外数据、训练或外部检索,仅利用LLM内部状态信息,并能与现有解码方法结合,在多项任务上均显示出提升。
💡 DFD核心创新在于动态调整解码随机性,以平衡大模型生成内容的事实准确性与表达多样性。传统固定温度解码常导致模型要么过于死板,要么容易“胡说八道”,DFD通过感知生成步骤的“知识强度”来解决这一难题。
🧠 DFD通过分析模型内部层间分布差异来衡量“知识强度”。研究发现,依赖事实知识的生成步骤(如实体名)在层间通常具有更高的KL散度,且在靠后层仍保持较大分布差异,而非知识感知步骤(如语法词)则迅速收敛。DFD利用这一特性,为模型提供了自适应的调焦机制。
🔌 DFD作为一种可插拔的机制,其优势在于无需额外数据、训练或外部检索,仅利用LLM内部状态信息即可实现。这意味着它可以轻松地与现有的多种随机解码方法(如top-k sampling、nucleus sampling)结合,为已有模型带来即时改进。
🚀 DFD在多项开放式生成任务上进行了验证,并在多种随机解码策略下均带来了事实性和多样性的提升。实验结果表明,DFD能够有效提升模型在需要兼顾准确性和创造性的复杂生成场景下的表现。
原创 让你更懂AI的 2025-10-16 21:21 北京

用层间KL感知“知识强度”,让大模型懂得何时该稳、何时该放
近年来,大语言模型在开放式生成任务中大放异彩,但一个问题始终存在——生成的内容要么太死板,要么太离谱。固定的随机解码温度让模型陷入两难:温度高,输出多样但容易胡说八道;温度低,句句属实却千篇一律。如何才能让模型既保持事实准确性,又不丢失表达多样性?为了解决这个问题,北京大学计算语言所团队提出了全新方法——Dynamic Focus Decoding(DFD),一种可插拔的随机解码机制,通过动态调整解码焦点,在生成中实现对事实与创意的平衡。
论文题目:Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text Generation论文链接:https://aclanthology.org/2025.acl-long.1320/代码链接:https://github.com/lllllw-222/Siren-DFD收录会议:ACL 2025 Main Conference背景:固定温度的解码困境传统随机解码方法(如 top-k sampling、nucleus sampling)采用固定温度来控制输出多样性。温度一高,模型“脑洞大开”;温度一低,模型“循规蹈矩”。 这种静态的随机性设置带来的解码焦点失衡问题,使模型在生成时难以兼得事实性与创造性。例如:对于问题 “Who formulated the laws of motion?”高温解码可能产生错误答案(如“Galileo Galilei”);低温解码虽事实正确(“Isaac Newton”),但输出内容单一、缺乏信息量。
方法概述:让模型动态调焦DFD 的核心思想是:在生成的每一步,判断当前是否需要更聚焦的事实推断或更开放的语言扩展。方法基于对模型内部层间分布差异的分析,定义每个生成步骤的知识感知强度,并据此动态调整解码随机性。当模型生成依赖事实知识的内容(如事实陈述、实体名)时,DFD 降低随机性,使输出更集中、更准确;当生成描述性或创造性内容时,DFD 提高随机性,以增强多样性与趣味性。
DFD 的实现无需额外数据、训练或外部检索,仅利用 LLM 内部状态信息,并可作为插件与多个现有随机解码方法直接结合。
核心:基于层间KL散度的知识强度感知DFD 的核心在于利用 LLM 内部的层级结构来识别与事实知识相关的生成步骤,并通过不同层与最后一层的层间 KL 散度来量化每个生成步骤的知识依赖度。通过实验分析,团队发现了两大关键现象:1. 相比描述性或创造性的内容,依赖事实知识的生成步骤(如实体名“Isaac Newton”)在层间通常有更高的 KL 散度。2. 虽然层间分布差异普遍随层深而减小,但依赖事实知识的生成步骤显示出独特的滞后模式,即在较靠后的层仍然保持较大的分布差异,而非知识感知步骤(如语法词“was”)则迅速收敛。
进一步,KL 散度可以被视为点互信息(PMI)的期望,度量当前生成步骤对深层参数知识的依赖。具体来说,给定上下文 和 层模型的参数知识 ,第 层与最后一层的 KL 散度可以被表示为:其中:表示 token 与较靠后层的参数知识 的点互信息 。基于此,层间KL散度可以视为点互信息在词表分布上的期望,较大的分布差异(期望PMI)表示当前解码步骤平均意义上与靠后层参数知识 的更强关联,反之亦然。这解释了实验中观察到的现象,通常较靠后层参数将存储更多的事实知识,因此知识感知较强的生成步骤往往显示出更高且持续的分布差异。
基于此,DFD 通过平均层间 KL 散度来衡量知识感知强度,并将其转化为解码过程中的动态温度。在知识感知强度较高的步骤,DFD 降低温度以聚焦事实性;在知识感知强度较低的步骤,DFD 提高温度以增强多样性,以实现对事实性与多样性的平衡:实验结果:在多任务上同时提升事实性与多样性团队在多个开放式生成任务上验证了 DFD 的有效性。实验结果显示,DFD 在多种随机解码策略下均带来一致提升。
结论与展望DFD 提供了一种轻量、通用、无需额外训练的方案,用于在开放式生成中平衡事实性与多样性。通过对模型内部层级分布的动态建模,DFD 实现了在不同生成阶段的自适应调焦机制,为更可信、更灵活的语言生成提供了新路径。未来工作可以探索将该机制与外部知识检索结合,以进一步提升在事实更新和知识密集场景下的表现。更多阅读#投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿△长按添加PaperWeekly小编🔍现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
阅读原文
跳转微信打开