LLM为什么能看懂图？秘密不在Projector，残差结构才是跨模态理解的关键

张定坤 2025-08-18 13:37 北京

残差Refine如何把“非文本”修成语义

©作者 | 张定坤

单位 | 哈尔滨工业大学（深圳）

研究方向 | 多模态大模型

近年来，多模态大语言模型（Multimodal Large Language Models，MLLMs）在处理视觉-语言任务方面取得了显著进展。以视觉-语言 MLLM 为例，其通过整合图像、文本数据，能够生成与视觉内容相关的文本描述，或者根据文本指令理解图像内容。

然而，尽管 MLLM 在性能上表现出色，其内部工作机制、不同模态的信息如何交互，仍然难以被理解。本文将从 MLLM 各组件的角度出发，总结关于 MLLM 模态交互的一些研究发现，希望能给各位读者带来一些启发，也非常欢迎大家在评论区交流观点或勘误。

Projector能将图像翻译为文本吗？

很多研究者认为：图像特征对于 LLM 来说相当于一种 foreign language，projector 可能是在执行翻译的功能，将图像特征映射到语义相近的文本 embedding 附近。

然而，研究表明：projector 只是“接线员”，而非“翻译官”，其只负责简单的空间对齐，而不能将模态特征转化为与文本 embedding 类似的东西。

证据1：即使经过了 projector，模态 gap 仍然明显。

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate（https://arxiv.org/abs/2410.07167）可视化了 LLaVA-1.5 的 embedding 空间，发现文本 embedding 与经过 projector 后的图像特征在分布上存在明显 gap（下方左图，图中的红色/蓝色样本分别对应图像/文本特征）。

笔者在支持更多模态的 MLLM 中也发现了相同现象（下方右图，不同颜色对应不同模态）。

▲ 模态 gap 在 project 后仍然存在

证据2：project 后的图像 embedding 语义信息薄弱。

Cross-Modal Projection in Multimodal LLMs Doesn't Really Project Visual Attributes to Textual Space（https://arxiv.org/abs/2402.16832）使用了 probing 技术来评估 projector 能否编码领域特定的语义信息。

其发现：在特定领域上微调 projector 后，MLLM 的最终输出更加准确，但 project 后的图像 embedding 中的领域特定信息的丰富度未能提升，甚至有所下降。这说明 projector 所编码领域特定的语义信息薄弱，相反，高级的语义信息很可能是由 LLM 建模，我们将在后文中详细讨论这一点。

讨论1：为什么 projector 不能像期望的那样将图像特征翻译成语义相近的文本embedding？

这个问题的答案是简单的。因为 projector 的训练目标是文本描述的自回归损失，且并没有直接对 projector 的输出进行约束，这导致 projector 的输出是个黑盒，难以找到明确的解释。

讨论2：projector 到底能编码什么信息？

目前，我们已经确定了 projector 所编码的内容与文本 embedding 并不相近，且包含的语义信息很薄弱，那么它就只包含了低级的图像属性吗？如边缘、颜色。

可能并非如此，考虑 encoder-free 的统一架构 VLM，图像 patch 仅经过视觉 tokenizer 后获得的图像 embedding 即可包含那些低级图像属性。

然而为了训练整个 VLM，其中的 LLM 需要费更大的劲（至少需要经过一定训练）来理解这些图像 embedding，然而以 X-InstructBLIP 为代表的 MLLM 中的未经多模态训练的纯文本 LLM 却能直接理解 projector 所编码的多模态 embedding。

所以，projector 所编码的内容至少可以确定为：其语义信息薄弱，但不止是低级图像属性。对于 projector 具体作用的探究，笔者还没有看到更为明确的分析，这可能是一个很难弄清的问题。

无论如何，接下来，我们继续前进，分析 LLM（即使是未经多模态训练的纯文本 LLM）为何能理解 projector 所产生的非文本 embedding。

那么，LLM为何能理解非文本的embedding？

上述已经提到，projector 并不能将图像特征翻译为与文本 embedding 相近的东西，也难以编码 high level 的语义，那么 LLM 是如何理解图像语义的呢？

研究表明：

a. 不同模态在 LLM 中逐步得到对齐；

b. LLM 的残差结构造就了其强大的泛化性，使之能够在非文本 embedding 上泛化；

c. LLM 中天然存在模态无关的神经元，是它们建模了模态无关的抽象语义。（在下述研究中，很多论文都将这些神经元称为多模态神经元，但笔者认为模态无关神经元的叫法更为恰当，因为即使是在未经多模态训练的纯文本LLM中也存在这些神经元。）

a 的证据：随着 LLM 层数的深入，模态 gap 逐步显著减小。

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate（https://arxiv.org/abs/2410.07167）使用类似于 FID 的指标来测量 LLM 不同层 hidden states 的模态 gap，发现随着层数的深入，模态 gap 会逐渐下降几个数量级：

这说明，LLM 内部发生了逐步且显著的模态对齐。

b 的证据：LLM 的残差结构使得其各层能发挥 refine 的作用，造就其强大的泛化性。

Transformer Layers as Painters（https://arxiv.org/abs/2407.09298）通过一系列实验证明了 transformer 网络的各中间层（除了最前几层和最后几层）之间基本共享同一个表征空间，他们猜测这一性质可能源于其残差结构。笔者认为，由于残差连接的存在，transformer 的各中间层相当于是在同一个表征空间中对 hidden states 不断地 refine。

Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs（https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2405.16700）认为：这样对 hidden states 不断 refine 的过程，使得 LLM 在面对非文本的 embedding 输入时表现出很强的鲁棒性，将非文本的 hidden states 逐渐 refine 为 LLM 后续层能够操作的样子。笔者认为，这样不断 refine 的过程也是导致不同模态在 LLM 中逐步对齐的原因。

c 的证据 1：在特定领域上微调 LLM+projector 比只微调 projector 更能提高该领域上的性能。

该证据非常显然。Cross-Modal Projection in Multimodal LLMs Doesn't Really Project Visual Attributes to Textual Space（https://arxiv.org/abs/2402.16832）发现，相较于只微调 projector，在特定领域上微调 LLM+projector 后，MLLM 能获得更强的领域知识。结合前文提到的 “projector 并没有编码领域特定的语义信息”，可以总结如下：微调 projector 导致 MLLM 性能提升的原因在于使其能够更好地利用 LLM 中已有的领域知识，而微调 LLM 则能直接强化 LLM 中的领域知识。这说明多模态任务中的语义信息是由 LLM 建模的，LLM 中存在模态无关神经元。

c 的证据 2：mask 掉 LLM 中少量的特定神经元会显著影响 MLLM 的感知。

Multimodal Neurons in Pretrained Text-Only Transformers（https://arxiv.org/abs/2308.01544）使用类似于损失函数对参数的一阶泰勒展开作为重要性分数来评估未经多模态训练的 LLM 中各参数对多模态任务的重要性，并定义重要性较高的参数为模态无关神经元。其发现：1. 将少量的模态无关神经元 mask 掉会显著影响 LLM 对图像的理解，产生错误输出。这说明，纯文本 LLM 中天然就存在模态无关的神经元。2. 将经过 projector 的图像特征输入纯文本 LLM，但在 LLM 的中间层就提前进行解码（将中间层的输出直接送入 lm-head，这种 LLM 的解释性方法叫做 logit lens），所解码出来的词汇内容能够正确反映图像语义。这说明，纯文本 LLM 中的模态无关神经元能够编码模态无关的抽象语义。

总结：LLM 能理解非文本 embedding 的原因有以下两点：1. 即使输入 LLM 的多模态 embedding 与文本 embedding 大相径庭，LLM 中也会继续进行隐式的模态对齐，而模态隐式对齐的能力可能源于 LLM 各层所发挥的对 hidden states不断 refine 的作用；2. LLM（即使是未经多模态训练的 LLM）中存在模态无关神经元，它们建模了模态无关的抽象语义。

思考：MLLM 能够成功理解多模态信息，并非是靠 encoder+projector 把多模态信息“翻译”为类文本 embedding，相反，project 后的多模态特征与文本 embedding 相差甚远。结合纯文本 LLM 中模态无关神经元的发现，我们可以猜测，LLM 内部很可能并非只是运行在语言模态上，而是模态无关的。究其原因，语言是世界信息和人类逻辑的载体，在语言上的预训练使得LLM内部形成了一定的模态无关的抽象世界观：

Neural networks, trained with different objectives on different data and modalities, are converging to a shared statistical model of reality in their representation spaces.（The Platonic Representation Hypothesis）

更多阅读