我爱计算机视觉 10月30日 16:34
GRAG:无需调参,实现AI图像编辑的精细化控制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为GRAG(Group Relative Attention Guidance)的新方法,旨在解决基于Transformer的扩散模型(DiT)在图像编辑中难以精确控制编辑强度的问题。GRAG通过引导模型内部的注意力机制,平衡“听从指令”和“保持原图”之间的关系,实现了对图像编辑强度的连续、细粒度控制。该方法基于对DiT模型注意力模块中Query和Key的token嵌入特征发现的“偏置向量”这一核心洞察,通过重新加权不同token组(文本token vs. 图像token)的“差值(delta)”,动态调整模型对编辑指令和输入图像的关注焦点。GRAG无需额外模型微调,实现简单,仅需几行代码即可集成,并在实验中展现出比传统CFG更平滑、更精准的编辑控制效果,同时提升了文本对齐度和图像保真度。

💡 GRAG方法的核心创新在于深入分析了DiT模型中注意力机制的内在特性,发现了Query和Key的token嵌入特征中存在一个与层数相关的“偏置向量”。研究者们洞察到,这个偏置向量代表了模型固有的编辑模式,而token与偏置之间的差值(delta)则编码了与具体指令和原图相关的编辑信号。这一发现是实现精细化控制的关键。

🎯 GRAG通过对不同token组(文本指令token与原图token)的“差值(delta)”进行重新加权,实现了对模型在编辑指令和保持原图之间权重的动态调整。这种“分组相对注意力引导”允许用户以一种连续、线性的方式来控制编辑的力度,避免了传统方法“一刀切”的粗糙调节,从而在遵循指令和保持原图之间找到更佳的平衡点。

🚀 GRAG方法的最大优势之一在于其极低的实现成本和广泛的适用性。该方法无需进行任何额外的模型训练或微调,仅需少量代码即可集成到现有的DiT图像编辑框架中。实验结果表明,GRAG在多个主流框架上均能有效提升编辑效果,并能显著优于传统的CFG方法,尤其是在需要精细控制编辑强度的情况下,表现出了更平滑、更连续且更符合用户意图的编辑结果。

📊 GRAG的实验验证不仅包括定性可视化结果,还提供了量化指标的提升。通过集成GRAG,模型的文本对齐度(CLIP-T)和图像保真度(DINO)均得到了显著提高。与CFG在不同引导尺度下的对比实验尤为关键,清晰地展示了GRAG在保持编辑效果连续性和准确性方面的优越性,即使在较高的引导尺度下,GRAG也能避免图像质量的急剧下降,保持编辑的平滑过渡。

CV君 2025-10-30 08:33 江苏

无需调参,让你的AIP图效果丝滑可控。

最近,基于Transformer的扩散模型(DiT)在图像编辑领域可以说是风生水起,但大家在享受AI带来便利的同时,可能也遇到过一个头疼的问题:生成的图像要么“改过头”,要么“没改到位”,很难精准控制编辑的“力度”。今天,我们就来聊一篇有意思的论文,它提出了一个简单又高效的解决方案。

这篇论文就是由天津大学和快手科技的研究者们共同发表的《Group Relative Attention Guidance for Image Editing》。他们提出了一个名为 GRAG(Group Relative Attention Guidance) 的方法,旨在实现对图像编辑强度的连续、细粒度控制。GRAG这个名字可以理解为“分组相对注意力引导”,核心思想就是通过“引导”模型内部的注意力机制,来更精确地平衡“听从指令”和“保持原图”之间的关系。

论文标题: Group Relative Attention Guidance for Image Editing

作者: Xuanpu Zhang, Xuesong Niu, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu

机构: 天津大学;快手科技

论文地址: https://arxiv.org/abs/2510.24657

项目主页(尚未开源): https://github.com/little-misfit/GRAG-Image-Editing

背景:DiT图像编辑的“控制”难题

在深入了解GRAG之前,我们先简单回顾一下背景。当前的图像编辑模型,特别是基于DiT架构的,虽然能力强大,但在“控制”上总有些力不从心。一个常见的技术是分类器无关引导(Classifier-Free Guidance, CFG),它通过一个引导尺度(guidance scale)来调节文本指令对生成结果的影响力。

然而,CFG的调节方式比较“一刀切”,很难做到平滑、精细的控制。调得太高,图片可能变得光怪陆离,完全偏离了原始图像;调得太低,又可能几乎看不到编辑效果。用户想要的,其实是一种像调音台推子一样丝滑、线性的控制感。

上图展示了GRAG方法在不同引导尺度下,对编辑强度的连续、精细控制效果,实现了在“遵循指令”和“保持原图”之间的完美平衡。

方法:深入DiT的注意力机制,发现“偏置”的秘密

为了解决这个问题,作者们把目光投向了DiT模型内部一个关键的组件——多模态注意力(MM-Attention)机制。他们通过可视化分析发现了一个有趣的现象:在注意力模块中,Query和Key的token嵌入特征存在一个显著的、仅与层数相关的“偏置向量”(bias vector)。

注意力层输入嵌入特征的可视化,可以观察到不同token之间存在一个明显的共享偏置。

跨不同注意力头的均值向量大小和标准差,进一步证实了嵌入空间中存在一个显著的偏置向量。

基于这个观察,作者们提出了一个核心洞察:

这个共享的偏置向量,可以被看作是模型“与生俱来”的、固有的编辑行为模式。

而每个token与这个偏置之间的差值(delta),则编码了与具体内容(如文本指令、源图像)相关的、个性化的编辑信号。

于是,GRAG方法应运而生。它的核心逻辑非常巧妙:不再是像CFG那样粗暴地放大或缩小整体信号,而是通过重新加权(reweighting) 不同token组(文本token vs. 图像token)的“差值(delta)”,来动态调整模型对“编辑指令”和“输入图像”的关注焦点。

GRAG方法示意图。通过调整不同token组的delta值,实现对编辑过程的精确引导。

简单来说,就是给来自“编辑指令”的信号和来自“原图”的信号分配不同的权重,从而实现对编辑强度的精细调节。最关键的是,这个过程无需任何额外的模型微调,而且实现起来非常简单,作者在论文中提到,仅需4行代码 就可以集成到现有的图像编辑框架中。

实验:更平滑、更精准的编辑控制

口说无凭,实验为证。作者在多个主流的图像编辑框架上验证了GRAG的效果。

首先,在基于训练的编辑方法上,GRAG展现了出色的性能。

在基于训练的图像编辑方法上的可视化结果。

下表中的量化结果也表明,集成GRAG后,模型的文本对齐度(CLIP-T)和图像保真度(DINO)都得到了提升。

与CFG的直接对比更能说明问题。从下面的对比图可以看出,随着引导尺度的增加,CFG的编辑效果很快就“崩了”,而GRAG则能保持平滑、连续的变化,更准确地反映了用户的编辑意图。

CFG与GRAG在不同引导尺度下的效果对比。GRAG能更有效地调节编辑指令对原图的影响,展现了更准确、连续的引导过程。

作者还进行了一系列消融实验,比较了不同引导策略的效果。结果显示,他们提出的对delta进行加权的策略(δ-guidance)在连续性和有效性上表现最佳。

不同引导策略的对比。折线图中的数据清晰地表明,GRAG采用的δ参数引导产生了最连续、最有效的编辑效果。

总结

CV君觉得,GRAG的巧妙之处在于它没有引入复杂的模块,而是从模型内部机制的深刻洞察出发,用一个“四两拨千斤”的方法解决了实际痛点。这种研究思路本身就非常值得借鉴。

总而言之,GRAG通过对DiT模型中注意力偏差的巧妙利用,提供了一种无需训练、即插即用、控制精细的图像编辑引导新范式。它不仅效果出色,而且实现成本极低,为未来的AIGC应用提供了更大的想象空间。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GRAG 图像编辑 DiT 注意力机制 精细化控制 AI图像生成 Image Editing Attention Mechanism Fine-grained Control AI Image Generation
相关文章