量子位 10月18日 16:45
扩散模型计数幻觉研究与联合模型解决方案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

扩散模型在图像生成方面表现出色,但常出现“幻觉样本”,如生成六指手。为解决此问题,研究者首次系统研究了“计数幻觉”,并提出了量化方法和数据集套件CountHalluSet。实验发现,增加采样步数和使用高阶求解器可能加剧计数幻觉,而祖先采样表现最优。研究还指出,FID等指标无法有效捕捉计数幻觉。为缓解此问题,团队提出联合扩散模型(JDM),通过结合图像与结构掩码,显著减少计数幻觉及其他失败问题,推动生成模型从“美观”转向“准确”。

📊 **量化计数幻觉问题**:研究首次系统性地定义和量化了扩散模型在图像生成中出现的“计数幻觉”现象,即模型生成图像时违反了现实世界中的物体数量事实。为此,团队构建了CountHalluSet数据集套件,包含ToyShape、SimObject和RealHand三个层级不同复杂度的可计数对象数据集,为评估和研究计数幻觉提供了标准化的基准。

🔬 **采样条件与幻觉的复杂关系**:实验揭示了采样步数和ODE求解器等常用优化技巧对计数幻觉的影响并非总是积极的。在真实数据(如RealHand)上,增加采样步数反而可能加剧幻觉;高阶求解器虽能改善整体质量,但可能削弱模型对计数约束的敏感性。祖先采样(DDPM)在抑制各类失败率上表现最优,而使用更符合训练分布的初始噪声能显著降低幻觉率。

💡 **FID指标的局限性与JDM解决方案**:研究发现,FID等传统图像质量评估指标在衡量计数幻觉这类细粒度事实性错误时存在明显局限,其与计数幻觉率的相关性不稳定且依赖于数据集和求解器。为解决计数幻觉问题,团队提出了联合扩散模型(JDM),通过在训练时将原始图像与分割掩码进行拼接,使模型在共享潜在空间中同时学习视觉表征和结构约束,从而有效减少计数幻觉,提升生成结果的语义一致性和视觉可信度。

关注前沿科技 2025-10-18 15:30 北京

提出了联合扩散模型解决方案

CountHalluSet团队 投稿量子位 | 公众号 QbitAI

扩散概率模型(diffusion probability models,DPMs)在图像生成任务上取得了卓越的成就,但它们仍频繁产生与现实世界知识相悖的“幻觉样本”(hallucinations),例如生成有六根手指的手掌或者漂浮在空中的多余物体 。

尽管这类问题普遍存在,社区却一直缺乏系统性量化这些事实性错误的方法,这阻碍了下一代高可信度生成模型的研发进程。

为填补这一空白,来自阿德莱德大学、美团和上海交通大学的研究团队,首次对扩散模型中的一类特殊幻觉——“计数幻觉” (counting hallucination)进行了系统性的研究 。

他们提出了几个关键问题:

为了回答这些问题,该团队构建了首个用于量化计数幻觉的数据集套件CountHalluSet,并通过大量实验揭示了计数幻觉与扩散模型中不同采样条件之间的复杂关系

更重要的是,他们基于实验提出了一种简单而有效的联合扩散模型(Joint-Diffusion Model,JDM),能够显著减少复杂真实图像中的计数幻觉和其它非计数类失败问题。

CountHalluSet: 计数幻觉评测基准

研究团队构建了包含三个数据集的CountHalluSet套件,其可数物体的形态复杂性逐级递增:

CountHalluSet由三个覆盖不同形态复杂度层级的可计数对象数据集组成:ToyShape(三角形、正方形、五边形)、SimObject(马克杯、苹果、时钟)以及RealHand(手指)。

此外,每个数据集有着各自的计数规则。在ToyShape和SimObject数据集中,每张图像最多包含每个类别的一个实例,且至少包含一个对象,而在RealHand数据集中,每张图像必须严格包含五根手指。

所谓计数幻觉,是指生成模型产生的图像违反了该数据集的计数事实,例如在一张图中生成了两个苹果,或仅生成了背景而没有任何对象,而这些模式在SimObject数据集中从未出现过。

各个数据集的计数幻觉评测流程如上图所示。对于ToyShape与SimObject数据集,生成图像可直接用于计数评估,由于它们的简单性和罕见的严重低质量图像。

而在RealHand数据集中,团队引入了“可计数性指示器(counting-ready indicator)”,用于区分计数幻觉样本与其他非计数类失败样本(如严重变形的手指)情况。

具体地,他们使用了一个MaxViT作为可计数性指示器,它是二分类器,在超过2.5千张代表性样本上训练得到。对于ToyShape与SimObject数据集,团队构建了一个超过400,000个样本的大型ToyShape/SimObject数据集,每个样本出现0-3次,以微调ResNet-50得到它们对应的“计数模型(counting model)”。

对于RealHand数据集,他们在超过2k张手部生成图像上对YOLO-12模型进行了微调,训练检测指尖,来得到该数据集的计数模型。

利用这些计数模型,团队可以检测生成图像中的对象出现次数,从而判断它们是否违反了数据集中的计数规则,最终实现量化计数幻觉。

比如,给定一个counting-ready样本,如果YOLO模型检测出该样本存在6个指尖,那么它就会被归类为计数幻觉样本。

实验及核心发现

量化实验

研究者们在扩散模型不同的采样条件下,量化了各个数据集生成样本的计数幻觉率,结果如下表所示:

发现一:采样步数对幻觉的影响呈现“合成–真实”分化趋势

研究发现,在常用的ODE求解器(25、50、100步)设置下,增加采样步数能有效降低合成数据集(ToyShape、SimObject)的计数幻觉率(CHR),但在真实数据集(RealHand)中却反而提升了计数幻觉率。

这表明:合成数据因结构简单、分布规则,能从更细粒度的求解器中获益;而真实数据分布更复杂,额外的采样步可能过度拟合局部不一致,从而放大幻觉。

发现二:更高阶的ODE求解器可降低总体失败率,却提升计数幻觉率

作为另一种ODE优化策略,DPM-Solver-2在相同步数下生成质量一般优于DPM-Solver-1。尽管这一策略显著降低了RealHand数据集的总体失败率(TFR),但却增加了计数幻觉率。

这揭示出:更高阶求解器虽能稳定全局结构,但可能削弱了模型对对象计数约束的敏感性。

发现三:祖先采样(DDPM)在幻觉抑制上表现最优

在所有对比中,DDPM始终实现最低的计数幻觉率、非计数类失败率和总体失败率。

这意味着:祖先采样为生成模型的失败率提供了一个现实下限,尤其在计算效率不是主要限制时,是最有效的减幻觉策略。

发现四:更合理的初始噪声可显著降低幻觉率

相较于标准高斯噪声(Normal),使用“扩散”噪声(Ground-truth初始噪声)能同时降低计数幻觉率、非计数类失败率和总体失败率。

这一结果表明:初始化的一致性对生成稳定性至关重要,更符合训练分布的噪声可有效缓解幻觉现象。

发现五:对象形态越复杂,计数幻觉越显著

随着对象形态从简单几何体(ToyShape)、中等复杂的合成物体(SimObject)到真实生物结构(RealHand)逐渐复杂,计数幻觉率持续上升。

这表明:结构复杂性显著挑战了扩散模型保持正确对象计数的能力。模型在处理高复杂度形态时更容易出现对象的“遗漏”或“重复”,解释了为何当前扩散模型尽管生成能力强大,却仍普遍存在幻觉问题。

相关性实验

计数幻觉本质上是事实性幻觉的一种具体的形式。直觉上,人们或许会认为,当扩散模型在感知层面生成质量更高、分布差距更小的图像(即更低的FID)时,其事实一致性也会相应提升。然而,该研究团队的系统性实验结果表明——事实并非如此。

研究者们在不同数据集与求解器条件下进行了相关性分析,发现如下表所示:

发现一:计数幻觉与FID之间的相关性并非固有,而取决于数据集与求解器类型

在SimObject数据集中,计数幻觉率(CHR)与FID呈显著正相关(Pearson = 0.8762, p = 0.0119),表明更低的FID对应更少的计数幻觉;然而在RealHand中却出现强负相关(Pearson = -0.9134, p = 0.0109),说明两者关系可能反转。

进一步地,当将DDPM结果纳入分析时(“incl. DDPM”),这种相关性显著减弱,揭示了其依赖于采样条件与求解器的非稳定性。

发现二:非计数类失败率与FID之间的相关性则稳定且显著

与计数幻觉率(CHR)不同,非计数失败率(NCFR)与总体失败率(TFR)在各条件下均与FID高度正相关(Pearson/Spearman>0.94,p<0.001),说明FID更能反映模型在整体视觉一致性上的表现,而在刻画对象计数等事实性特征时存在明显局限。 这些结果共同揭示:FID虽能衡量视觉质量,却不能代表模型的事实可靠性

解决方案:联合扩散模型(Joint-Diffusion Model,JDM)

既然模型在处理简单结构时不易出错,研究者提出了一个问题:如果在扩散过程中为模型提供明确的结构性约束,能否引导其生成正确的物体数量?

基于此,团队设计了联合扩散模型(JDM)。该模型在训练时,将原始手部图像和其对应的分割掩码(作为结构约束)在通道维度上进行拼接,使模型能够在共享的潜在空间中同时学习视觉表征与结构化的事实约束。具体而言,他们利用SAM-2提取的手部掩码进行通道级连接,为扩散模型提供清晰的像素级结构约束,从而在生成过程中显式控制空间布局。

这种机制使模型不仅遵守预定义的空间结构,还能在隐式层面形成语义一致且解剖合理的手部生成结果。通过在共享潜在空间内联合学习视觉特征与结构掩码约束,JDM显著提升了生成结果的语义一致性与视觉可信度,有效缓解了计数幻觉问题。

讨论与未来展望

这项工作的核心意义在于,它首次将扩散模型中模糊、主观的“幻觉”问题,转化为一个可定义、可量化、可系统性分析的“计数幻觉”问题。

研究结果对当前领域的一些普遍认知构成了挑战:让人们不能再盲目相信“更多的采样步数、更高阶的求解器总能带来更好的结果”,也不能再完全依赖FID这类传统指标来评判模型的“事实准确性” 。

这项研究为社区提供了一套全新的评测基准(CountHalluSet)和评估视角,推动行业从仅仅关注“生成得美不美”,转向同时关注“生成得对不对”,这对提升生成模型的可靠性和可信度至关重要。

未来,这项工作为探索更高阶的“事实一致性”生成模型开辟了广阔的道路:

从“计数”到“万物”:当前研究聚焦于物体数量,未来的工作可将这种量化分析方法扩展到更复杂的幻觉类型,如不合逻辑的空间关系、违反物理规律的现象(例如错误的光影反射)以及几何结构错误等。

更泛化的约束方法:本文提出的JDM模型验证了引入显式结构约束的有效性 。未来的研究可以探索如何将更抽象、更复杂的知识(如场景图、物理规则、符号逻辑)融入扩散过程,发展出一种“事实约束下的生成”新范式。

最终目标:解决计数幻觉只是构建可信AI的第一步。通过持续攻克各类事实性错误,团队有望将生成模型从一个单纯的“创意工具”转变为一个可靠的“世界模型(world model)”,使其在科学模拟、工程设计、医学影像等对准确性要求极高的关键领域中发挥核心作用 。

论文地址:https://arxiv.org/pdf/2510.13080代码主页:https://github.com/ShyFoo/CountHallu-Diff

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

扩散模型 计数幻觉 AI幻觉 生成模型 联合扩散模型 CountHalluSet Diffusion Models Counting Hallucinations AI Hallucinations Generative Models Joint Diffusion Model
相关文章