PaperWeekly 10月23日 21:23
VLM-FO1提升AI视觉定位精度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通用视觉语言模型(VLM)在理解图像方面表现出色,但在精确定位细节方面存在不足。Om AI Lab提出VLM-FO1,采用“生成+引用”混合范式,通过引用高精度区域特征,让模型在视觉特征空间中识别“专属卡片”而非生成坐标,实现精准定位。VLM-FO1通过即插即训的模块化设计,使任何预训练VLM都能提升定位能力,在目标检测、区域OCR、指代表达和计数等任务上取得显著成果,同时保持通用多模态能力。

🔍 VLM-FO1采用“生成+引用”混合范式,通过引用高精度区域特征,让模型在视觉特征空间中识别“专属卡片”而非生成坐标,实现精准定位。

🎯 VLM-FO1通过即插即训的模块化设计,使任何预训练VLM都能提升定位能力,在目标检测、区域OCR、指代表达和计数等任务上取得显著成果。

🛡️ VLM-FO1在提升定位精度的同时,保持通用多模态能力,在OpenCompass等综合评测中几乎无性能回退,验证了其设计的有效性。

🔄 VLM-FO1的训练策略采用两阶段优化流程,第一阶段冻结主干VLM,只训练HFRE与特征映射层,使新生成的region tokens与语言模型嵌入空间对齐;第二阶段解冻部分辅助编码器与语言模型层,引入检测、OCR、计数、RefExp等感知任务数据,同时混入通用多模态语料防止遗忘。

🔍 HFRE模块采用双视觉编码器,主编码器直接复用原VLM的视觉backbone,生成语义层级特征;辅助编码器以更高分辨率输入局部patch,专注捕捉纹理与空间边界信息,使模型能在“看懂”和“看清”之间找到平衡。

原创 让你更懂AI的 2025-10-23 13:48 北京

不改主干、不丢通用性,让模型真正“看得清、指得准”

通用视觉语言模型(VLM)能理解图像,却常常“看不清”细节。它能回答“图里有什么”,却指不准“具体在哪”。根源在于——生成式架构天生擅长输出语言,却不擅长生成连续坐标,这对模型而言是“非自然”的任务。

来自 Om AI Lab 的研究团队提出 VLM-FO1:一种“生成 + 引用”的混合新范式。它不再强迫模型“写坐标”,而让它在视觉特征空间中“引用高精度区域特征”,像是让模型认出一张张“专属卡片”而不是去写数字。

通过即插即训的模块化设计,VLM-FO1 让任何预训练 VLM 都能“看得清、指得准”。

过去两年,VLM 几乎席卷了所有多模态任务——从图像问答、视觉推理到多模态对话,它们无所不能。可一到精准定位细粒度感知这样的任务,却总是“眼高手低”。

以 COCO 目标检测为例,即便是 Qwen2.5-VL-72B 这样的顶级模型,其 mAP 仍不足 40%,而传统检测模型轻松突破 60%。它们能描述“左上角的红衣女孩”,却画不出一个准确的框。

问题不在数据量,也不在算力,而在于架构。VLM 被训练为语言生成器,却被迫输出连续坐标 。逼模型去“写复杂数字”,注定脆弱:一旦错一个 token,整个框就废了。

Om AI Lab 的研究团队提出 VLM-FO1,给出了一种优雅的“解法”:他们没有改动 VLM 的主干,而是以一种“即插即训”的方式,为模型装上新的视觉感官。把任务从“生成坐标”变成“检索特征”,让模型在推理时直接引用区域 token,容错率直接拉满,既不丢推理能力,也能在复杂场景下稳稳落点。

论文标题:

VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

论文链接:

https://www.arxiv.org/abs/2509.25916

项目链接:

https://github.com/om-ai-lab/VLM-FO1

研究背景:VLM的“定位魔咒”

视觉语言模型在多模态任务上已经展现出卓越的理解力,但它们的架构源于语言生成,这让“预测连续坐标”成为一种先天不自然的任务。

过去,研究者曾尝试多种补救方案:

坐标量化(Coordinate Quantization)将连续坐标映射成离散标签,让模型“分类”而非“回归”,但精度损失明显;

外挂检测头(Detection Head Attach)外接专用检测器提升性能,却破坏端到端一致性;

重新训练(Retraining from Scratch)联合重训视觉与语言分支,成本高昂且难以复现。

这些方案要么牺牲精度,要么破坏通用性。VLM-FO1 提出了一种新的思路:不重构主干,而从任务定义上重新审视“生成式定位”的局限,为后续的结构创新奠定了基础。

▲ 图1. VLM-FO1 在多种视觉任务上的感知可视化示例(region caption、referring、OCR、检测等),展示其细粒度定位与识别能力。

方法:让模型学会“引用而非生成”

VLM-FO1的核心思想,是在不改变原有 VLM 主干结构的前提下,通过外部增强模块重塑定位范式,实现高维推理与细粒度感知的协同。它将定位任务从“生成坐标”重新表述为“特征检索”,让模型在熟悉的 token 空间中完成空间对齐。

整个设计呈插件化结构,可无缝适配任何主流预训练 VLM,实现真正意义上的“无损增强”。如图 2 所示,蓝色虚线框为原始 VLM,外部模块包括候选区域生成、双视觉编码器(HFRE)、区域引用机制及两阶段训练流程。

▲ 图2. VLM-FO1 整体结构。模型以 VLM 为主干,通过 HFRE 和 Token Referencing 模块实现细粒度增强。

这一框架的核心是“即插即训”:在训练阶段冻结主干参数,仅优化新增模块,从而以最小代价完成能力注入。凭借原模型积累的世界知识与语言推理能力,VLM-FO1 的细粒度感知模块在不同任务与视觉域上都表现出卓越的泛化性与稳定性。

2.1 Proposal Regions:让模型“先学会看”

在让模型“看清”之前,得先告诉它“看哪”。VLM-FO1 的核心设计理念,是通过两阶段、解耦式的结构,将候选区域的生成(Proposal Regions)与 VLM 的感知模块彻底分离。

这种分离带来了极高的灵活性。用户可以自由选择任意现成的目标检测器来生成候选区域,也可以直接输入感兴趣的区域作为视觉 prompt,而 VLM-FO1 本身无需额外训练或改动主干结构。检测器与 VLM 可以独立训练、独立优化,各自发挥所长。

为了在实验中验证这种通用性,作者团队训练了一个通用检测器——Omni Proposal Network(OPN),用于生成输入图像中的前景候选区域。

但需要强调的是,OPN 只是一个可插拔的示例组件,而非 VLM-FO1 框架的绑定部分。换句话说,框架本身不依赖特定检测器——它提供的是一种“即插即用”的接口,让模型学会先看准,再看清

2.2 HFRE:看得更清,也看得更准

如果说 OPN 是“告诉模型看哪”,那 HFRE(Hybrid Fine-grained Region Encoder)就是“让模型看得更清”。

传统 VLM 的视觉编码器通常聚焦于语义层面,负责捕捉场景和对象关系,但在涉及纹理、边界、文字或位置信息时,细节往往被多层下采样稀释。HFRE 的设计正是为了解决这一矛盾:在保持语义理解力的同时,引入高分辨率特征,使模型能在“看懂”和“看清”之间找到平衡。

如图 2 所示,HFRE 采用双视觉编码器:

主编码器(Primary Encoder)直接复用原 VLM 的视觉 backbone,生成语义层级特征;

辅助编码器(Auxiliary Encoder)以更高分辨率输入局部 patch,专注捕捉纹理与空间边界信息。

来自两个编码器的特征在通道维度拼接后形成联合表示:

随后加入根据候选区域坐标生成的位置编码 ,得到混合特征:

最后, 经由一个轻量的 Region–Language Connector (RLC)投影到语言模型嵌入空间,生成可被直接引用的 region tokens。这些 tokens 承载着高分辨率的局部感知信息,并与语言模型原有的语义空间保持一致,从而让模型在推理过程中能够“指得准、看得清”。

换句话说,HFRE 是让 VLM 具备真正“细粒度视觉感知力”的关键桥梁——它将像素级特征与语义级推理自然融合,为后续的 Token-Based Referencing 奠定基础。

2.3 Token Referencing:用语言‘指向’视觉

VLM-FO1 的另一关键创新,是把“生成坐标”的问题彻底转化为“引用 token”。在传统生成式架构中,模型需要逐个生成 ,不仅累积误差,还容易在多目标场景中混乱。

Token-Based Referencing 重新定义了这一过程。每个区域 token 都对应一个可寻址的索引(如<region0><region1> … <regionN>)。模型在语言输出阶段不再生成坐标,而是通过这些 region tokens 进行直接引用:

“the person wearing a red hat” → <region3>

这意味着,模型在语言与视觉空间之间建立了“指针式”映射关系,类似为每个视觉区域设置了一张可调用的名片。

这一机制极大地提升了稳定性与可扩展性:

它允许模型在开放指令、VQA、RefExp 等多任务场景中共享区域理解;

同时兼容原有的生成框架,无需对语言解码器做结构性修改。

从此,模型不再“写坐标”,而是“说出区域”。这是 VLM-FO1 的真正范式跃迁。

2.两阶段训练:轻量即插,能力即得VLM-FO1 的训练策略同样秉持“最小改动”的原则。研究团队设计了一个两阶段优化流程,让模型既能掌握细粒度感知,又不丢原有推理能力。

阶段一:Region–Language Alignment

在第一阶段,冻结主干 VLM,只训练 HFRE 与特征映射层,使新生成的 region tokens 与语言模型嵌入空间对齐。这样模型能学会在“语言语义”与“视觉区域”之间建立连接。

阶段二:Perception SFT(感知指令微调)

解冻部分辅助编码器与语言模型层,引入检测、OCR、计数、RefExp 等感知任务数据,同时混入通用多模态语料防止遗忘。这样模型在保留原有语言理解的同时,获得了稳定的细粒度感知能力。

整个训练流程无需重训主干,只优化新增模块,真正实现了“即插即训”。最终结果表明,VLM-FO1 在多项细粒度任务上显著提升,而在 OpenCompass 等综合评测中几乎无性能回退。这也印证了它的设计初衷:增强,而非取代。

实验结果:让通用VLM真正“看得清、指得准”

在实验阶段,VLM-FO1 的性能几乎一路攀升。在 COCO 检测、COCOText OCR、HumanRef 指代表达和 PixMo-Count 计数等基准上,模型分别取得 44.4 mAP / 59% / 82.6% / 86% 的成绩,全面超越现有通用模型;同时在 OpenCompass 等通用评测中保持性能无损。

更重要的是,这些成果并非依赖庞大的重训工程,而是通过轻量的“即插即训”模块化增强实现的——不改主干、不绑检测头,让中小实验室也能以极低成本复现同样的性能提升。

3.1 目标检测与定位

在目标检测与区域定位任务上,VLM-FO1 实现了实质性突破。在 COCO 数据集上,模型取得 44.4 mAP,显著超越 GPT-4o(3.1)与 ChatRex-7B(4.3),性能逼近专业检测模型。

这得益于其“生成 + 引用”范式:模型不再生成坐标,而是直接引用特征 token,使空间推理更稳定、更自然。

▲ 表1. VLM-FO1 以 44.4 mAP 超越所有通用 VLM

▲ 图3. 目标检测任务可视化:在多目标遮挡场景下依然能稳定定位。

3.2 区域OCR与视觉识别在细粒度识别任务中,VLM-FO1 展现出极高分辨力。在 COCOText 上识别准确率达 59%,比 VP-SPHINX-13B 高 13 个百分点。HFRE 模块的高分辨率特征融合,使模型能捕捉微小字体、边界模糊和背景干扰下的字符差异,大幅提升细节识别的稳定性。

▲ 表2. VLM-FO1 在 COCOText 上以 59% 准确率领先次优模型 13 pt。

▲ 图4. OCR 任务可视化:模型在密集文字与复杂背景中保持稳定识别。

3.3 指代表达与视觉推理

在 HumanRef 数据集上,VLM-FO1 达到 82.6% DF1,在 RefCOCO 系列中同样稳定超过 80%。它能精准落点复杂自然语言描述,如“最右侧穿红衣、戴黑帽的人”,体现出语言–视觉联合对齐的强鲁棒性。

这一提升源自 Token-Based Referencing 机制——模型在推理时不再生成坐标,而是直接调用 region tokens,从而避免了传统生成式定位中的误差扩散。

▲ 表3. VLM-FO1 在 HumanRef 上取得 82.6% DF1,显著超过现有通用 VLM。

▲ 图5. 指代表达任务可视化:VLM-FO1 能精准响应复杂语言描述并稳定定位。

在 PixMo-Count 计数任务上,模型准确率高达 86%,超越 72B 参数的 Molmo 模型,展现出极强的泛化能力与视觉稳健性。不同于传统显式计数方法,VLM-FO1 借助其生成 + 引用范式,在区域特征层面隐式整合数量信息,使模型能够在遮挡与重叠场景中保持一致的判断。

▲ 表4. VLM-FO1 在 PixMo-Count 上取得 86% 准确率,显著领先所有通用基线。

▲ 图6. 计数任务可视化:模型在遮挡与重叠场景下依然保持稳定的计数表现。

3.4 通用多模态能力保持与消融验证

尽管在细粒度任务上显著增强,VLM-FO1 的通用多模态性能几乎无回退。在 OpenCompass 综合评测中,其得分与基线 Qwen2.5-VL 持平(64.6 vs 64.5),证明增强模块仅作用于感知层,不干扰原有语言与推理能力。

消融实验进一步验证了模块设计的必要性。结果显示——只要移除 HFRE 模块中的任一子模块(如高分辨特征分支或融合层),模型的平均性能就会显著下降,这证明了“双编码器 + 多尺度融合”的结构对细粒度感知至关重要。

▲ 表5-7. OpenCompass 及 Ablation 实验结果。VLM-FO1 在通用能力上保持稳定,HFRE 与 Token Referencing 为关键组成。

▲ 图7. 多任务混合场景可视化:增强模块在不干扰通用能力的前提下显著提升感知精度。

结语:从性能到范式的跃迁

VLM-FO1 的意义,远不止于性能提升。它让 VLM 从“生成一切”的架构惯性中走出,转向更自然、更稳定的“生成 + 引用”范式,完成了一次真正的思维转变。

在范式层面,它解决了生成式架构与空间定位的长期矛盾。模型不再被迫输出连续坐标,而是通过引用高维区域特征,实现语言与视觉的统一表达,让定位过程更符合模型逻辑。

在工程层面,它提供了一条高效、通用、非侵入式的增强路径。无需重构主干、无需外挂检测头,只需“即插即训”,即可让任何预训练 VLM 获得稳定的细粒度感知能力,也让中小实验室具备复现与落地的条件。

在能力层面,VLM-FO1 通过 HFRE 的高分辨率特征融合与 Token-Based Referencing,让模型首次兼具推理力与空间感知力。它既能理解语义,也能精确指向,实现了从“理解”到“定位”的闭环。

VLM-FO1 带来的不只是更高的指标,而是一种可复用、可推广的多模态增强范式——在不改变结构的前提下,让模型真正看得清、指得准。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VLM-FO1 AI 视觉定位 区域特征引用 混合范式
相关文章