PaDT：多模态模型从“说坐标”到“指图像”的革新

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。其根本原因在于：当前主流 MLLMs 仍依赖将视觉目标「翻译」成文本坐标（如 [x1, y1, x2, y2] ）的方式进行输出。

这种方式不仅存在格式混乱、解析困难，还容易因数字被拆分成多个独立文本 token（如 489 -> 4, 8, 9），导致语义丢失、图文脱节，从而出现重复生成甚至「幻觉」现象。

针对这一核心瓶颈，新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 颜水成带队，携同华南理工大学、新加坡科技研究局（A*STAR）I2R 研究所、腾讯 WeChat Vision 等机构的研究团队，提出了一种全新的统一范式 —— Patch-as-Decodable Token（PaDT）。

PaDT 的核心思想很简单但颠覆性：

把图像划分成多个视觉小块（patch），并让模型可以直接生成这些小块对应的

在 MLLMs 的输入和输出端中，实现

从而使模型不再「猜坐标」，而能在生成句子中

凭借这一设计，PaDT 在检测、分割、指代表达等任务上全面刷新 SOTA，甚至以仅 3B 参数的小模型超越了 78B 的 InternVL3！

论文链接：https://huggingface.co/papers/2510.01954

代码地址：https://github.com/Gorilla-Lab-SCUT/PaDT

模型权重：https://huggingface.co/PaDT-MLLM

PaperScope 解读：https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想：从「说坐标」到「指图像」

传统 MLLMs（如 Qwen2.5-VL、InternVL3）在处理视觉任务时，通常将检测框的坐标以字符串形式输出。例如，模型可能会生成「 [489, 120, 600, 300] 」。然而，这种做法存在三大痛点：

格式不一致：

同一 Prompt 作为输入，不同样本可能生成绝对坐标、归一化坐标、甚至非结构化文本格式，极大地增加目标解析难度

；

语义断裂：

图文关联弱：

图 1：(a) 传统方法输出格式混乱；(b) Qwen2.5-VL 的 Token Activation Map 显示坐标 token 与图像区域关联弱；(c) PaDT 的 VRTs 与目标区域高度对齐；(d) 单个 VRT 的热力图显示其预测具有空间连续性。

PaDT 的突破在于：不再让模型「描述」位置，而是让它「指向」图像中的具体区域。

具体而言，PaDT 引入了 Visual Reference Tokens（VRTs）—— 这些令牌直接来源于输入图像的视觉 patch 嵌入。在每次前向传播中，模型会动态地将当前图像的 patch 特征扩展进文本词表，形成一个「图文一体」的动态嵌入表。这样，模型在生成过程中，既可以输出文字（如类别名），也可以插入 VRT（如），后者直接对应图像中的某个局部区域。

图 2：PaDT 实现了文本 token 与视觉 patch token 的统一预测，使 MLLM 能同时输出语义描述与空间定位。

这种设计巧妙地避开了传统方法依赖全局视觉码本（如 ClawMachine）的缺陷 —— 后者容易混淆相似物体，且可能生成图像中根本不存在的 patch。而 PaDT 的 VRTs 仅来自当前图像，天然具备唯一性和空间一致性。

轻量解码器 + 鲁棒训练：让 VRTs 真正「生效」

仅有 VRTs 还不够，如何将其转化为具体的检测框或分割掩码？PaDT 设计了一个轻量级的 PaDT Decoder，仅由三个双向注意力块组成。该解码器接收 LLM 输出的 VRT 隐藏状态，通过注入任务特定的可学习 token（如 box token、mask token 和 score token），即可统一解码出 bounding box、segmentation mask 和置信度分数。

更关键的是，PaDT 提出了一套鲁棒的训练策略。传统方法往往要求模型预测目标区域内的所有前景 patch，但这会导致训练偏差和过拟合。PaDT 则在每次训练时随机采样少量（如 5 个）前景 VRTs 作为监督信号，并通过一种掩码交叉熵损失，动态屏蔽未选中的 VRT logits，从而鼓励模型探索多样化的有效视觉参考。

这种「少而精」的监督方式，不仅提升了模型泛化能力，还显著降低了推理时的 token 消耗 —— 每个目标仅需 5 个 VRTs，远少于逐字符生成坐标的开销。

图 3：PaDT 整体框架。图像 patch 特征经动态嵌入模块扩展为 VRTs，与文本 token 一同输入 LLM；输出序列中的 VRTs 被轻量解码器转换为结构化视觉结果。

性能炸裂：3B 模型干翻 78B 巨无霸

PaDT 的实验结果堪称惊艳。在 RefCOCO/+/g 的指代表达理解（REC）任务上，PaDT Pro（3B）以 93.6 的平均准确率，超越了参数量高达 78B 的 InternVL3（91.4）。而在指代表达分割（RES）任务中，PaDT 同样大幅领先，即便对比使用 SAM 等强大分割基础模型的方法（如 Text4Seg+SAM），依然保持优势。

更令人震撼的是在 COCO 开放词汇检测任务上的表现。传统 MLLMs 在此任务上 mAP 普遍低于 20，而 PaDT Pro（3B）一举将 mAP 推高至 38.2，几乎翻倍！ 7B 版本更是达到 39.0 mAP，展现出极强的可扩展性。

图 4：PaDT 在 RefCOCO/+/g 的指代表达理解（REC）任务结果。PaDT Pro (3B) 以 93.6 的平均准确率，超越了参数量高达 78B 的 InternVL3（91.4）。

图 5：PaDT 在 RefCOCO/+/g 的指代表达分割（RES）任务结果。PaDT 依靠自带的轻量 decoder 轻松超越借助 SAM 强大分割基础模型的方法。

图 6：PaDT 在 COCO 开放词汇检测上的结果。PaDT Pro (3B) 一举将 mAP 推高至 38.2。

此外，团队还构建了一个新的 Referring Image Captioning（RIC）数据集，要求模型在生成描述时显式关联对象 ID。PaDT 在此任务上同样大幅领先，CIDEr-D 分数从基线的 0.386 提升至 1.450，同时检测指标（GreedyPrecision 达 82.3%）也证明其生成的 caption 具备极强的视觉 grounding 能力。

图 7：Referring Image Captioning (RIC) 数据集。

为什么 PaDT 如此有效？

PaDT 的成功，源于其对 MLLM 视觉能力瓶颈的深刻洞察。它没有试图在文本空间内「拟合」视觉信息，而是将视觉 patch 本身作为可生成的 token，实现了模态间的原生对齐。

首先，动态嵌入机制确保了 VRTs 与当前图像的强绑定，避免了跨图像混淆；其次，统一的 token 空间让 LLM 能以相同的方式处理语言和视觉信息，简化了训练；最后，轻量解码器将复杂的 dense prediction 任务从 LLM 中解耦，既保留了 LLM 的语义推理能力，又赋予了其精准的空间输出能力。

值得一提的是，PaDT 还展现出强大的多任务泛化能力。通过联合训练 REC、RES、OVD 和 RIC 任务得到的 PaDT Pro 模型，仅通过切换 prompt 即可无缝切换任务，且性能普遍优于单任务模型，证明了该范式的通用性。

结语：迈向真正的通用多模态智能

PaDT 的提出，标志着 MLLMs 在细粒度视觉理解上迈出了关键一步。它不再满足于「看图说话」，而是能够「指图说话」—— 精准地指出图像中的每一个相关区域，并生成对应的结构化输出。

这项工作不仅在技术上实现了突破，更在理念上启发我们：未来的通用人工智能，或许不应强行将一切信息压缩到文本空间，而应允许不同模态以其最自然的形式共存与交互。

目前，PaDT 的代码和 checkpoints（模型权重）已开源。对于关注多模态、计算机视觉与大模型融合的研究者和工程师而言，这无疑是一个值得关注和尝试的新范式。

作者信息

苏永怡（第一作者）

华南理工大学博四研究生，A*STAR I2R 访问学者，主要研究多模态大语言模型、基础视觉模型、测试时领域适应课题。

作者个人主页：https://yysu.site/

张浩杰（共同一作）

华南理工大学三年级研究生，微信视觉团队实习生。主要研究多模态大模型、视频生成模型、基础视觉模型。

作者个人主页：https://zhang-haojie.github.io/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签