CV君 2025-11-03 14:54 江苏
304M参数轻量模型,兼顾速度与质量
最近,来自AMD的研究团队带来了一项引人注目的工作,提出了一种名为 E-MMDiT 的新型文生图模型。这名字是“高效多模态扩散Transformer (Efficient Multimodal Diffusion Transformer)”的缩写。顾名思义,它的核心亮点就是“高效”——在有限的计算资源下,实现快速、高质量的图像生成。
在当前AIGC领域,扩散模型虽然效果惊艳,但巨大的训练开销和推理延迟一直是阻碍其普及的两座大山。而AMD的这项研究,正是为了解决这个痛点,旨在推动生成式AI模型的“民主化”。
我们知道,无论是Stable Diffusion系列,还是像DiT、Sora这样的Transformer架构扩散模型,它们的成功很大程度上建立在庞大的模型参数和海量训练数据之上。这种“大力出奇迹”的模式虽然带来了SOTA级别的性能,但也让许多资源有限的研究者和开发者望而却步。
因此,如何在保证生成质量的同时,设计出更轻量、更快速的模型,成为了一个极具价值的研究方向。E-MMDiT便是在这样的背景下诞生的,它试图在模型性能、训练成本和推理速度之间找到一个新的平衡点。
E-MMDiT的核心设计理念:Token精简之道E-MMDiT的整个设计哲学都围绕着一个核心——Token精简(Token Reduction)。因为在Transformer架构中,计算成本与Token数量的平方成正比,减少Token数量是最高效的加速手段。为此,作者们提出了一系列环环相扣的精巧设计。
上图展示了E-MMDiT的整体框架。模型的输入是文本提示(Prompt)和加噪的图像隐变量,输出是去噪后的隐变量,最终由解码器还原成高清图像。整个流程清晰地体现了其高效的设计思路。
极致的视觉压缩:DC-AE模型首先采用了一个高压缩率的视觉分词器(Tokenizer)——DC-AE,它能将图像压缩到非常紧凑的隐空间表示,压缩比高达 32倍 。这意味着,一张512x512的图像,其Token数量会大幅减少,从源头上降低了后续处理的计算负担。
创新的多路径压缩模块在经过N1个Transformer模块初步处理后,为了进一步压缩Token,作者设计了一个新颖的 多路径压缩模块(Multi-path Compression Module)。这个模块并非像U-Net那样简单地堆叠下采样,而是并行地创建了两条路径,分别对Token序列进行 2倍 和 4倍 的压缩,并将结果拼接在一起。这种设计能够在进一步减少Token数量的同时,保留不同尺度的特征信息,避免信息瓶颈。消融实验也证明,这种带跳跃连接的多分支设计优于单分支或简单的堆叠压缩。
这是E-MMDiT中一个非常巧妙的计算优化。传统的全局注意力虽然效果好,但计算量巨大。一些工作(如UDiT)尝试将Token分组,在组内做注意力,但这又会带组间信息交互不畅的问题。
作者提出的 交替子区域注意力(Alternating Subregion Attention, ASA) 解决了这个问题。如上图右侧所示,在连续的两个Transformer模块中,它会交替使用不同的分组方式。比如,第一个模块里1、2、3、4号Token是一组,在下一个模块里,它们可能被分到不同的组里,与5、6、7、8号等Token进行交互。这样一来,只需通过简单的重组,就能实现跨组的信息流动,既节省了计算,又保证了全局信息的有效融合,还不需要像UDiT那样引入额外的深度卷积。
位置信息强化与轻量化条件注入位置强化 (Position Reinforcement) :在Token经过压缩和重建(恢复到原始数量)后,模型会再次额外注入位置编码。作者发现,这一简单操作能有效加强模型对空间位置的感知,防止图像内容在深度变换后出现错乱。AdaLN-affine:为了将时间步(timestep)等条件信息融入模型,作者提出了一个更轻量的AdaLN-affine模块。相比于常见的adaLN-Zero,它通过简单的仿射变换生成调制参数,进一步减少了模型参数量和计算量。实验结果:轻量却不轻质E-MMDiT的实验结果相当亮眼。作为一个仅有 304M参数 的模型,它在性能和效率上都展示了强大的竞争力。
上图直观地比较了E-MMDiT与其他主流模型在GenEval分数(评估生成图像与文本的对齐程度)和吞吐量上的表现。可以看到,E-MMDiT在吞吐量上遥遥领先,同时保持了非常有竞争力的生成质量。
更详细的数据如上表所示。与同样是轻量级的模型(如SD-Turbo, LCM-LoRA)相比,E-MMDiT在GenEval上表现更优。而与更大、更慢的模型(如PixArt-α, Hunyuan-DiT)相比,它的推理延迟和吞吐量优势巨大,生成一张图仅需几十毫秒。
值得一提的是,这个模型的基础版本是在仅 2500万 公开数据集上,使用一个包含8块AMD MI300X GPU的单节点,花费 1.5天 训练完成的,GenEval分数达到了 0.66 。通过GRPO等后训练技术,还能轻松提升到 0.72 。这充分证明了其架构的高效性和易复现性。
下面是一些由E-MMDiT生成的512px和1024px分辨率的图像,可以看出其生成质量和对细节的把控能力都相当不错。
此外,论文还通过一系列详尽的消融实验,验证了多路径压缩、位置强化、ASA、AdaLN-affine等各个设计模块的有效性,展示了其严谨的研究过程。
总结
CV君认为,E-MMDiT的出现,为文生图领域提供了一个非常实用的高性能、低成本解决方案。它没有追求无止境的参数堆砌,而是通过一系列精巧的结构设计,在计算效率和生成质量之间取得了出色的平衡。这对于推动AIGC技术在更广泛的硬件和场景中落地,无疑具有重要意义。作者也开源了代码,鼓励大家去复现和探索。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!
