机器之心 08月20日
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,一篇关于TREAD方法的帖子在X平台引发了对DiT(Vision Transformer for Diffusion Models)架构的广泛讨论。该博主通过引用TREAD论文中的训练数据图表,指出DiT可能存在“隐性架构缺陷”,因为在训练中禁用部分计算单元反而能提升模型性能。博主进一步分析,DiT使用的“后层归一化”(Post-LayerNorm)技术和adaLN-zero处理条件信息的方式可能限制了其表达能力。对此,DiT作者谢赛宁回应称,学术争议是好事,但需要基于实验而非臆测。他同时承认DiT存在一些“硬伤”,如sd-vae的效率问题,并强调Lightning DiT等改进版本更稳健。尽管存在争议,DiT作为扩散模型与Transformer结合的开创性工作,其学术地位和影响力依然显著。

📈 **TREAD方法揭示DiT潜在架构问题**:一篇关于TREAD(Token Routing for Efficient Architecture-agnostic Diffusion Training)的论文指出,在DiT模型训练过程中,用“恒等函数”替换部分计算单元反而能提高模型性能,这暗示DiT可能存在“隐性架构缺陷”,即无法从数据中持续学习。TREAD通过“令牌路由”机制,在不改变DiT架构的情况下,显著提升了训练效率和生成图像质量,在速度和性能上超越了DiT。

⚖️ **DiT架构设计的争议点**:博主重点批评了DiT的两个设计。首先是使用“后层归一化”(Post-LayerNorm),认为其在处理数值变化剧烈的扩散过程时不够稳定。其次是adaLN-zero在处理条件信息时,仅使用了简单的MLP网络而非更强大的Transformer,这可能削弱了模型的表达能力,作者认为这是“讨厌注意力操作”。

💡 **DiT作者的回应与辩护**:DiT的作者谢赛宁认为,学术争议是好事,但批判应基于实验验证。他解释说,TREAD更接近于“stochastic depth”,其收敛性可能源于正则化效应,并且DiT的推理过程仍使用完整计算。他强调,没有证据表明Post-Norm会带来负面影响,并指出Lightning DiT是更稳健的升级版。他承认DiT的“硬伤”在于sd-vae臃肿低效,并非端到端。

🚀 **DiT的开创性与持续演进**:DiT是扩散模型首次与Transformer结合的开创性工作,其思想已成为Sora和Stable Diffusion 3等先进模型的基础架构,确立了其学术地位。尽管面临技术质疑和争议,DiT仍在不断发展和改进,新的方法如Lightning DiT、VA-VAE、REPA-E等正在尝试解决其存在的问题,推动着AI图像生成领域的前进。

原创 机器之心 2025-08-20 12:23 四川

有学术争议是好事,但别拱火。

机器之心报道

编辑:冷猫,+0

「兄弟们,DiT 是错的!」

最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。

图 1. 我们引入了 TREAD,这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时,我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升,同时也收敛到了更好的生成质量。

图中横轴代表训练时间(以 A100 GPU 的小时数为单位,log 尺度,从 100 小时到 10000 小时),纵轴代表 FID 分数(越低越好,代表生成图像质量越高)。

博主认为,这个图的核心信息不是 TREAD 的速度优势,而是 DiT 的 FID 过早稳定,暗示 DiT 可能存在「隐性架构缺陷」,导致其无法继续从数据中学习。

博主提到的论文发表于今年 1 月(3 月更新 v2),介绍了一种名为 TREAD 的新方法,该工作通过一种创新的「令牌路由」(token routing)机制,在不改变模型架构的情况下,极大地提升了训练效率和生成图像的质量,从而在速度和性能上都显著超越了 DiT 模型。

具体而言,TREAD 在训练过程中使用「部分令牌集」(partial token set) vs 「完整令牌集」(full token set),通过预定义路由保存信息并重新引入到更深层,跳过部分计算以减少成本,同时仅用于训练阶段,推理时仍采用标准设置。这与 MaskDiT 等方法类似,但更高效。

博主在后续回复中逐步展开了对 DiT 的批判,并解释 TREAD 如何暴露这些问题。

博主指出,该论文揭示了 DiT 模型的设计缺陷。具体来说,研究发现在训练过程中,如果将模型中的一部分计算单元替换为「恒等函数」(Identity Function)—— 也就是让这些单元什么计算都不做,仅仅是「直通」数据,相当于被临时禁用了 —— 模型的最终评估分数反而会提高。

接着博主指出 DiT 的两个「可疑」的设计:

博主认为 DiT 使用了一种已知不太稳定的技术(后层归一化),来处理一个数值范围变化极其剧烈的任务(扩散过程)。

博主认为,这个模型虽然整体上自称是「Transformer」架构,但在处理最关键的「指导信息」(即条件数据)时,并没有使用强大的 Transformer,而是用了一个非常简单的 MLP 网络(多层感知机)。

更具体地,adaLN-zero 通过完全覆盖注意力单元的输入,并注入任意偏置来覆盖输出,这限制了模型的表达能力,相当于「讨厌注意力操作」(hate the attention operation),从而削弱了 DiT 的整体潜力。

博主还提到与早期论文相关的 LayerNorm 研究,指出 LayerNorm 的偏置和增益参数可能对梯度调整影响更大,而非真正改善模型性能。他认为,adaLN-zero 正是利用了这一点,名为「梯度调节」,实则像是在「给小模型偷偷注入过拟合的偏置」。

看了这篇帖子,DiT 的作者,纽约大学计算机科学助理教授谢赛宁有些忍不住了。

在 2022 年,谢赛宁发表了 DiT 的论文,这是扩散模式首次和 Transformer 相结合。

在 DiT 问世之后,Transformer 逐步代替原始扩散模型中的 U-Net,在图像和视频生成任务中生成高质量的结果。

其核心思想是采用 Transformer 代替传统的卷积神经网络作为扩散模型的主干网络。

这一方法业已成为 Sora 和 Stable Diffusion 3 的基础架构,同时也确定了 DiT 的学术地位。

在 DiT 论文刚刚问世时,就已接连受到质疑,甚至以「缺乏创新」为由被 CVPR 2023 拒稿。

这一次面对 DiT 在数学和形式上都「是错的」的论调,谢赛宁发推做出了几点回应。

从字里行间来看,谢赛宁对这个帖子多少有些情

我知道原帖是在钓鱼骗点击率,但我还是咬一下钩……

坦白讲,每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题,那才是真正的大问题。

我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT,但这需要基于假设、做实验、进行验证,而不是只在脑子里扮演式地做科学…… 否则,你得出的结论不仅仅是错的,而是根本连错都谈不上

也难怪谢赛宁语气有些不善,原帖博主的一些说法可能有些拱火的嫌疑:

谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复,在对原帖的部分问题进行了反驳后,他也同样说明了 DiT 架构目前存在一些硬伤。

截至今天,DiT 的问题:

评论网友也对回应中提到的技术细节感兴趣,谢赛宁也都对相关疑惑做出了回复:

算法的迭代进步总是伴随着对现有算法的质疑,虽说所谓「不破不立」,但 DiT 仍然在擂台中央,不是么?

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DiT 扩散模型 Transformer TREAD AI图像生成 架构争议
相关文章