AMD提出E-MMDiT模型：轻量高效的文生图新方案

CV君 2025-11-03 14:54 江苏

304M参数轻量模型，兼顾速度与质量

最近，来自AMD的研究团队带来了一项引人注目的工作，提出了一种名为 E-MMDiT 的新型文生图模型。这名字是“高效多模态扩散Transformer (Efficient Multimodal Diffusion Transformer)”的缩写。顾名思义，它的核心亮点就是“高效”——在有限的计算资源下，实现快速、高质量的图像生成。

在当前AIGC领域，扩散模型虽然效果惊艳，但巨大的训练开销和推理延迟一直是阻碍其普及的两座大山。而AMD的这项研究，正是为了解决这个痛点，旨在推动生成式AI模型的“民主化”。

论文标题: E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources

作者: Tong Shen, Jingai Yu, Dong Zhou, Dong Li, Emad Barsoum

机构: AMD (Advanced Micro Devices, Inc.)

论文地址: https://arxiv.org/abs/2510.27135

代码仓库: https://github.com/AMD-AGI/Nitro-E

研究背景：当“大力出奇迹”遇到资源瓶颈

我们知道，无论是Stable Diffusion系列，还是像DiT、Sora这样的Transformer架构扩散模型，它们的成功很大程度上建立在庞大的模型参数和海量训练数据之上。这种“大力出奇迹”的模式虽然带来了SOTA级别的性能，但也让许多资源有限的研究者和开发者望而却步。

因此，如何在保证生成质量的同时，设计出更轻量、更快速的模型，成为了一个极具价值的研究方向。E-MMDiT便是在这样的背景下诞生的，它试图在模型性能、训练成本和推理速度之间找到一个新的平衡点。

E-MMDiT的核心设计理念：Token精简之道

E-MMDiT的整个设计哲学都围绕着一个核心——Token精简（Token Reduction）。因为在Transformer架构中，计算成本与Token数量的平方成正比，减少Token数量是最高效的加速手段。为此，作者们提出了一系列环环相扣的精巧设计。

上图展示了E-MMDiT的整体框架。模型的输入是文本提示（Prompt）和加噪的图像隐变量，输出是去噪后的隐变量，最终由解码器还原成高清图像。整个流程清晰地体现了其高效的设计思路。

极致的视觉压缩：DC-AE

模型首先采用了一个高压缩率的视觉分词器（Tokenizer）——DC-AE，它能将图像压缩到非常紧凑的隐空间表示，压缩比高达 32倍 。这意味着，一张512x512的图像，其Token数量会大幅减少，从源头上降低了后续处理的计算负担。

创新的多路径压缩模块

在经过N1个Transformer模块初步处理后，为了进一步压缩Token，作者设计了一个新颖的 多路径压缩模块（Multi-path Compression Module）。这个模块并非像U-Net那样简单地堆叠下采样，而是并行地创建了两条路径，分别对Token序列进行 2倍和 4倍的压缩，并将结果拼接在一起。这种设计能够在进一步减少Token数量的同时，保留不同尺度的特征信息，避免信息瓶颈。消融实验也证明，这种带跳跃连接的多分支设计优于单分支或简单的堆叠压缩。

交替子区域注意力（ASA）

这是E-MMDiT中一个非常巧妙的计算优化。传统的全局注意力虽然效果好，但计算量巨大。一些工作（如UDiT）尝试将Token分组，在组内做注意力，但这又会带组间信息交互不畅的问题。

作者提出的 交替子区域注意力（Alternating Subregion Attention, ASA） 解决了这个问题。如上图右侧所示，在连续的两个Transformer模块中，它会交替使用不同的分组方式。比如，第一个模块里1、2、3、4号Token是一组，在下一个模块里，它们可能被分到不同的组里，与5、6、7、8号等Token进行交互。这样一来，只需通过简单的重组，就能实现跨组的信息流动，既节省了计算，又保证了全局信息的有效融合，还不需要像UDiT那样引入额外的深度卷积。

位置信息强化与轻量化条件注入位置强化 (Position Reinforcement) ：在Token经过压缩和重建（恢复到原始数量）后，模型会再次额外注入位置编码。作者发现，这一简单操作能有效加强模型对空间位置的感知，防止图像内容在深度变换后出现错乱。

AdaLN-affine：为了将时间步（timestep）等条件信息融入模型，作者提出了一个更轻量的AdaLN-affine模块。相比于常见的adaLN-Zero，它通过简单的仿射变换生成调制参数，进一步减少了模型参数量和计算量。

实验结果：轻量却不轻质

E-MMDiT的实验结果相当亮眼。作为一个仅有 304M参数 的模型，它在性能和效率上都展示了强大的竞争力。

上图直观地比较了E-MMDiT与其他主流模型在GenEval分数（评估生成图像与文本的对齐程度）和吞吐量上的表现。可以看到，E-MMDiT在吞吐量上遥遥领先，同时保持了非常有竞争力的生成质量。

更详细的数据如上表所示。与同样是轻量级的模型（如SD-Turbo, LCM-LoRA）相比，E-MMDiT在GenEval上表现更优。而与更大、更慢的模型（如PixArt-α, Hunyuan-DiT）相比，它的推理延迟和吞吐量优势巨大，生成一张图仅需几十毫秒。

值得一提的是，这个模型的基础版本是在仅 2500万 公开数据集上，使用一个包含8块AMD MI300X GPU的单节点，花费 1.5天 训练完成的，GenEval分数达到了 0.66 。通过GRPO等后训练技术，还能轻松提升到 0.72 。这充分证明了其架构的高效性和易复现性。

下面是一些由E-MMDiT生成的512px和1024px分辨率的图像，可以看出其生成质量和对细节的把控能力都相当不错。

此外，论文还通过一系列详尽的消融实验，验证了多路径压缩、位置强化、ASA、AdaLN-affine等各个设计模块的有效性，展示了其严谨的研究过程。

总结

CV君认为，E-MMDiT的出现，为文生图领域提供了一个非常实用的高性能、低成本解决方案。它没有追求无止境的参数堆砌，而是通过一系列精巧的结构设计，在计算效率和生成质量之间取得了出色的平衡。这对于推动AIGC技术在更广泛的硬件和场景中落地，无疑具有重要意义。作者也开源了代码，鼓励大家去复现和探索。

你觉得这个技术未来会用在哪些场景？一起来聊聊吧！

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签