我爱计算机视觉 前天 16:27
AMD提出E-MMDiT模型:轻量高效的文生图新方案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AMD研究团队发布了名为E-MMDiT(高效多模态扩散Transformer)的新型文生图模型,旨在解决当前扩散模型训练和推理成本高昂的问题。该模型以“Token精简”为核心理念,通过高压缩率的视觉分词器DC-AE、创新的多路径压缩模块、交替子区域注意力(ASA)以及轻量化的条件注入(AdaLN-affine)等设计,显著降低了模型参数量(仅304M)和计算复杂度。实验结果显示,E-MMDiT在保持高质量生成的同时,实现了远超同类模型的吞吐量和极低的推理延迟,仅需几十毫秒即可生成一张图像。该模型在有限的计算资源下展现了强大的竞争力,为AIGC技术的普及和落地提供了新的可能。

💡 **模型核心理念:Token精简** E-MMDiT模型的核心设计哲学在于“Token精简”,通过在Transformer架构中大幅减少Token数量来降低计算成本。这是通过采用高压缩率的视觉分词器DC-AE(压缩比高达32倍)和创新的多路径压缩模块(并行2倍和4倍压缩)实现的,从源头上降低了后续处理的计算负担,同时保留了不同尺度的特征信息。

⚡ **高效注意力机制:交替子区域注意力(ASA)** 为了在保证全局信息融合的同时降低计算量,E-MMDiT提出了交替子区域注意力(ASA)。该机制通过在连续的Transformer模块中交替改变Token的分组方式,实现了跨组信息流动,避免了传统全局注意力的巨大计算量,也解决了分组注意力中组间信息交互不畅的问题,且无需额外引入深度卷积。

🚀 **卓越的性能与效率** E-MMDiT拥有仅304M的参数量,却在生成质量和效率上表现出色。在GenEval分数上具有竞争力,同时在吞吐量上遥遥领先,推理延迟极低,生成一张512px的图像仅需几十毫秒。其基础版本在少量公开数据和有限的GPU资源下,仅用1.5天即可训练完成,展现了模型的高效性和易复现性。

🛠️ **架构细节与条件注入** 模型通过“位置强化”操作加强了对空间位置的感知。在条件注入方面,采用了更轻量的AdaLN-affine模块,通过简单的仿射变换生成调制参数,进一步减少了模型参数量和计算量,实现了更高效的时间步等条件信息融入。

🌟 **推动AIGC普及** E-MMDiT的出现为文生图领域提供了一个高性能、低成本的解决方案。它通过精巧的结构设计平衡了计算效率与生成质量,有望推动AIGC技术在更广泛的硬件和场景中落地应用,实现生成式AI模型的“民主化”。

CV君 2025-11-03 14:54 江苏

304M参数轻量模型,兼顾速度与质量

最近,来自AMD的研究团队带来了一项引人注目的工作,提出了一种名为 E-MMDiT 的新型文生图模型。这名字是“高效多模态扩散Transformer (Efficient Multimodal Diffusion Transformer)”的缩写。顾名思义,它的核心亮点就是“高效”——在有限的计算资源下,实现快速、高质量的图像生成。

在当前AIGC领域,扩散模型虽然效果惊艳,但巨大的训练开销和推理延迟一直是阻碍其普及的两座大山。而AMD的这项研究,正是为了解决这个痛点,旨在推动生成式AI模型的“民主化”。

论文标题: E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources

作者: Tong Shen, Jingai Yu, Dong Zhou, Dong Li, Emad Barsoum

机构: AMD (Advanced Micro Devices, Inc.)

论文地址: https://arxiv.org/abs/2510.27135

代码仓库: https://github.com/AMD-AGI/Nitro-E

研究背景:当“大力出奇迹”遇到资源瓶颈

我们知道,无论是Stable Diffusion系列,还是像DiT、Sora这样的Transformer架构扩散模型,它们的成功很大程度上建立在庞大的模型参数和海量训练数据之上。这种“大力出奇迹”的模式虽然带来了SOTA级别的性能,但也让许多资源有限的研究者和开发者望而却步。

因此,如何在保证生成质量的同时,设计出更轻量、更快速的模型,成为了一个极具价值的研究方向。E-MMDiT便是在这样的背景下诞生的,它试图在模型性能、训练成本和推理速度之间找到一个新的平衡点。

E-MMDiT的核心设计理念:Token精简之道

E-MMDiT的整个设计哲学都围绕着一个核心——Token精简(Token Reduction)。因为在Transformer架构中,计算成本与Token数量的平方成正比,减少Token数量是最高效的加速手段。为此,作者们提出了一系列环环相扣的精巧设计。

上图展示了E-MMDiT的整体框架。模型的输入是文本提示(Prompt)和加噪的图像隐变量,输出是去噪后的隐变量,最终由解码器还原成高清图像。整个流程清晰地体现了其高效的设计思路。

极致的视觉压缩:DC-AE

模型首先采用了一个高压缩率的视觉分词器(Tokenizer)——DC-AE,它能将图像压缩到非常紧凑的隐空间表示,压缩比高达 32倍 。这意味着,一张512x512的图像,其Token数量会大幅减少,从源头上降低了后续处理的计算负担。

创新的多路径压缩模块

在经过N1个Transformer模块初步处理后,为了进一步压缩Token,作者设计了一个新颖的 多路径压缩模块(Multi-path Compression Module)。这个模块并非像U-Net那样简单地堆叠下采样,而是并行地创建了两条路径,分别对Token序列进行 2倍 和 4倍 的压缩,并将结果拼接在一起。这种设计能够在进一步减少Token数量的同时,保留不同尺度的特征信息,避免信息瓶颈。消融实验也证明,这种带跳跃连接的多分支设计优于单分支或简单的堆叠压缩。

交替子区域注意力(ASA)

这是E-MMDiT中一个非常巧妙的计算优化。传统的全局注意力虽然效果好,但计算量巨大。一些工作(如UDiT)尝试将Token分组,在组内做注意力,但这又会带组间信息交互不畅的问题。

作者提出的 交替子区域注意力(Alternating Subregion Attention, ASA) 解决了这个问题。如上图右侧所示,在连续的两个Transformer模块中,它会交替使用不同的分组方式。比如,第一个模块里1、2、3、4号Token是一组,在下一个模块里,它们可能被分到不同的组里,与5、6、7、8号等Token进行交互。这样一来,只需通过简单的重组,就能实现跨组的信息流动,既节省了计算,又保证了全局信息的有效融合,还不需要像UDiT那样引入额外的深度卷积。

位置信息强化与轻量化条件注入位置强化 (Position Reinforcement) :在Token经过压缩和重建(恢复到原始数量)后,模型会再次额外注入位置编码。作者发现,这一简单操作能有效加强模型对空间位置的感知,防止图像内容在深度变换后出现错乱。

AdaLN-affine:为了将时间步(timestep)等条件信息融入模型,作者提出了一个更轻量的AdaLN-affine模块。相比于常见的adaLN-Zero,它通过简单的仿射变换生成调制参数,进一步减少了模型参数量和计算量。

实验结果:轻量却不轻质

E-MMDiT的实验结果相当亮眼。作为一个仅有 304M参数 的模型,它在性能和效率上都展示了强大的竞争力。

上图直观地比较了E-MMDiT与其他主流模型在GenEval分数(评估生成图像与文本的对齐程度)和吞吐量上的表现。可以看到,E-MMDiT在吞吐量上遥遥领先,同时保持了非常有竞争力的生成质量。

更详细的数据如上表所示。与同样是轻量级的模型(如SD-Turbo, LCM-LoRA)相比,E-MMDiT在GenEval上表现更优。而与更大、更慢的模型(如PixArt-α, Hunyuan-DiT)相比,它的推理延迟和吞吐量优势巨大,生成一张图仅需几十毫秒。

值得一提的是,这个模型的基础版本是在仅 2500万 公开数据集上,使用一个包含8块AMD MI300X GPU的单节点,花费 1.5天 训练完成的,GenEval分数达到了 0.66 。通过GRPO等后训练技术,还能轻松提升到 0.72 。这充分证明了其架构的高效性和易复现性。

下面是一些由E-MMDiT生成的512px和1024px分辨率的图像,可以看出其生成质量和对细节的把控能力都相当不错。

此外,论文还通过一系列详尽的消融实验,验证了多路径压缩、位置强化、ASA、AdaLN-affine等各个设计模块的有效性,展示了其严谨的研究过程。

总结

CV君认为,E-MMDiT的出现,为文生图领域提供了一个非常实用的高性能、低成本解决方案。它没有追求无止境的参数堆砌,而是通过一系列精巧的结构设计,在计算效率和生成质量之间取得了出色的平衡。这对于推动AIGC技术在更广泛的硬件和场景中落地,无疑具有重要意义。作者也开源了代码,鼓励大家去复现和探索。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

E-MMDiT AMD 文生图 扩散模型 Transformer 高效AI 轻量级模型 Text-to-Image Diffusion Models Efficient AI Lightweight Models
相关文章