CV君 2025-09-29 12:12 江苏

来自韩国科学技术院（KAIST）、高丽大学和苏黎世联邦理工学院等机构的研究者们，共同发表了一篇题为 「Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers」 的论文，并被 NeurIPS 2025 会议接收。该研究提出了一个名为 Seg4Diff 的系统性分析框架，其名称意为“为扩散模型做分割”（Segmentation for Diffusion）。

这项工作深入探究了当前最先进的文本到图像生成模型——多模态扩散变换器（MM-DiT）的内部工作机制。研究团队的 新发现 是，这类模型在生成图像的过程中，其内部的特定层天然地具备了强大的“语义分组”能力，能够将文本描述与图像中的具体区域精确对应。这是一种 涌现属性 ，意味着模型无需专门训练就能进行高质量的开放词汇语义分割。更进一步，研究者还提出了一种轻量级微调方法，能够显著增强这一能力，从而在提升分割准确率的同时，也提高了生成图像的保真度，为构建集视觉感知与生成于一体的统一模型铺平了道路。

论文标题：Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers

作者：Chaehyun Kim, Heeseong Shin, Eunbeen Hong, Heeji Yoon, Anurag Arnab, Paul Hongsuck Seo, Sunghwan Hong, Seungryong Kim

机构：韩国科学技术院（KAIST）、高丽大学、苏黎世联邦理工学院

论文地址：https://arxiv.org/abs/2509.18096

项目主页：https://cvlab-kaist.github.io/Seg4Diff/

代码仓库：https://github.com/cvlab-kaist/seg4diff

研究背景

近年来，以 Stable Diffusion、Midjourney 为代表的文本到图像（Text-to-Image）扩散模型取得了惊人的发展，它们能够根据简单的文本提示生成细节丰富、符合物理规律的逼真图像。这些模型的核心能力之一，是通过“跨模态注意力（Cross-Attention）”机制，将语言概念（如“一只猫”）与图像中的视觉特征（猫的像素区域）联系起来。

随着技术演进，像 Stable Diffusion 3 中采用的 多模态扩散变换器（Multi-Modal Diffusion Transformer, MM-DiT） 架构进一步提升了这种对齐能力。MM-DiT 不再像早期模型那样将文本和图像分开处理，而是将它们的信息“拼接”在一起，通过一个统一的自注意力（Self-Attention）机制进行联合建模。这使得模型能够更灵活、更深入地理解文本与图像之间的复杂关系。

然而，一个关键问题始终悬而未决：在模型庞大而复杂的网络结构中，这种关键的图文对齐究竟发生在“哪里”？又是“如何”发生的？对这些内部机制的理解不足，限制了我们进一步挖掘和利用这些强大生成模型潜力的能力。这篇论文的研究正是为了填补这一空白。

Seg4Diff：一个系统性的分析框架

为了揭开 MM-DiT 内部的神秘面纱，研究者们提出了 Seg4Diff 框架。它并非一个新模型，而是一套用于系统性分析、增强并利用 MM-DiT 注意力结构的完整流程。

识别“语义对位专家层”

研究团队首先对 MM-DiT 的多模态注意力机制进行了深入剖析。在 MM-DiT 中，注意力计算分为四种类型：图像到图像（I2I）、文本到文本（T2T）、图像到文本（I2T）和文本到图像（T2I）。其中，I2T 和 T2I 是实现跨模态对齐的关键。

通过一系列巧妙的实验，他们发现并非所有层都对图文对齐做出同等贡献。他们通过主成分分析（PCA）可视化、分析注意力特征范数、以及对特定层进行扰动测试等方法，观察不同层的行为。

扰动实验尤其具有启发性：当干扰某些层的 I2T 注意力时，生成的图像结构会严重退化；而干扰其他层则影响甚微。这表明模型内部存在明确的功能分化。

最终，他们 首次识别并命名了一个特定的 MM-DiT 模块——“语义对位专家层”（semantic grounding expert layer）。这个中间层的模块，在他们的实验中特指第9层，始终如一地负责将文本 token 与空间上连贯的图像区域进行精确对齐。

从注意力到开放词汇分割

这一发现的直接应用就是实现开放词汇的语义分割。研究者指出，从“语义对位专家层”提取出的 I2T 注意力图（Image-to-Text attention map），其本身就是一张高质量的分割掩码。例如，对于文本提示“一只猫”，其对应 token 的注意力图会自然地高亮出图像中猫的区域。

基于此，他们设计了一个无需额外训练的分割方案：直接利用 I2T 注意力分数作为图文相似度的度量，为每个文本 token 生成对应的分割预测。这种方法可以处理任意文本，因此是“开放词汇”的。

轻量级微调，性能再提升

为了进一步放大这种涌现的分割能力，研究者提出了一种简单而高效的轻量级微调方案，名为 “掩码对齐”（Mask Alignment）。

该方法在标准的扩散模型微调流程中，引入了一个额外的 LoRA 适配器和一个简单的对齐损失。具体来说，他们使用带有现成掩码标注的图像数据进行微调，并施加一个损失函数，以“鼓励”专家层产生的 I2T 注意力图尽可能地与真实的分割掩码保持一致。

这种方法非常“轻量”，因为它只在专家层上附加了一个小型的 LoRA 适配器进行训练，而无需改动庞大的预训练模型主体。这使得训练过程既快速又节省资源。

实验结果与分析

Seg4Diff 框架在分割和生成两个任务上都取得了令人瞩目的成果。

分割性能

经过掩码对齐微调后，MM-DiT 在开放词汇语义分割和无监督分割任务上都展现出强大的性能。定性结果显示，模型能够精确地分割出各种对象，即使是复杂的场景也能很好地处理。

生成质量提升

一个意外的惊喜是，这种针对分割的微调同样能反哺图像生成。经过掩码对齐后，模型生成的图像在多个方面都得到了改善：

结构一致性：减少了物体“缺胳膊少腿”或结构错乱的问题。

对象计数：能更准确地生成指定数量的对象。

颜色和纹理：细节和真实感得到进一步优化。

这一结果有力地证明了语义分组能力是提升生成保真度的关键因素之一。当模型更“懂”图像结构时，它就能生成更“对”的图像。

总结

Seg4Diff 的工作具有重要的贡献价值：

揭示了新机制：首次系统性地分析并证明了语义分组是 MM-DiT 的一种涌现属性，并精确定位了其发生的关键层——“语义对位专家层”。

提出了新应用：展示了如何直接利用扩散模型的内部注意力图来实现高质量、零样本的开放词汇语义分割，为生成模型的“可解释性”和“可利用性”提供了新思路。

开发了新方法：提出了一种轻量级的“掩码对齐”微调策略，能同时提升模型的分割和生成两大能力，实现了“1+1>2”的效果。

推动了领域发展：这项研究为打破视觉感知（如分割）和视觉生成（如文生图）之间的壁垒提供了坚实的一步，向着构建更通用、更强大的统一视觉基础模型迈进。

最重要的是，作者 已经开源了他们的代码 ，为社区复现和跟进这项研究提供了便利。CV君认为，这项工作巧妙地“挖掘”而非“添加”模型的能力，为如何理解和利用强大的AI生成模型提供了宝贵的启示。

了解最新 AI 进展，欢迎关注公众号:我爱计算机视觉
感谢点赞支持。

阅读原文

跳转微信打开

研究背景

Seg4Diff：一个系统性的分析框架

识别“语义对位专家层”

从注意力到开放词汇分割

轻量级微调，性能再提升

实验结果与分析

分割性能

生成质量提升

总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签