LaV-CoT：解决多语言视觉问答的语言感知思维链框架

CV君 2025-09-15 14:56 江苏

随着大型视觉语言模型（VLM）的飞速发展，它们在处理复杂的视觉问答任务时展现出惊人的能力。其中，思维链（Chain-of-Thought, CoT）技术通过模拟人类一步一步的思考过程，极大地增强了模型的推理能力和可解释性。然而，当面临真实世界中更复杂的多语言视觉问答（multilingual VQA, mVQA）场景时，现有的CoT方法开始捉襟见肘——它们大多是纯文本的，并且以英语为中心，常常导致推理过程与视觉信息脱节，或在回答非英语问题时出现“语言错乱”（例如用英语回答阿拉伯语问题）。

为了解决这一痛点，来自蚂蚁集团和南洋理工大学的研究者们提出了一个名为 LaV-CoT 的全新框架。这是首个具备语言感知能力的视觉思维链（Language-aware Visual CoT），并引入了多维度奖励优化机制。LaV-CoT不仅在多个公开基准测试中取得了SOTA性能，准确率相比同等规模的开源模型提升了约9.5%，甚至超越了GPT-4o、Gemini-2.5-flash等顶尖专有模型，其在真实世界在线A/B测试中的优异表现也证明了其巨大的工业应用潜力。

论文标题: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA

作者: Jing Huang, Zhiya Tan, Shutao Gong, Fanwei Zeng, Jianshu Li

机构: 蚂蚁集团、南洋理工大学

论文地址: https://arxiv.org/abs/2509.10026

代码地址: https://github.com/HJNVR/LaV-CoT

研究背景：当CoT遇上多语言VQA的挑战

思维链（CoT）让VLM在回答问题前，先生成一个详细的推理步骤，这使得模型的决策过程更加透明，也更能处理复杂逻辑。但现有方法在多语言VQA场景下存在三大核心问题：

语言不一致：模型可能无法识别问题的语言，导致用一种语言提问，却用另一种语言（通常是英语）回答。

视觉-文本未对齐：纯文本的CoT推理过程可能忽略或错误地解读了图像中的关键视觉信息。

多语言推理能力有限：模型在非英语语境下的复杂推理能力显著弱于英语。

从直接回答(a)，到普通CoT(b)，再到LaV-CoT(c)，模型的回答在语言一致性和准确性上逐步提升。

LaV-CoT正是为了系统性地解决这些问题而设计的，它旨在创建一个既“看得懂图”又“说得对语言”的、结构化的推理框架。

LaV-CoT：数据、流程与训练的“三位一体”创新

LaV-CoT的创新体现在三个层面：定义了全新的语言感知视觉CoT推理流程，设计了自动化的CoT数据生成管线，并采用了基于多维度奖励的二阶段训练范式。

1. 语言感知的视觉CoT推理流程

这是LaV-CoT的核心。它将复杂的推理过程分解为四个可解释、可验证的阶段：

带边界框的文本摘要 (Text Summary with BBox) ：首先，模型会检测并识别图像中的所有文本，并用边界框（BBox）标出其位置，然后对文本内容进行摘要。

语言识别 (Language Identification) ：接着，模型会明确地识别出用户问题的所属语言，并打上标签（如\lang{Thai}）。这是实现“语言感知”的关键一步。

空间对象级描述 (Spatial Object-level Captioning) ：模型会描述图像中与问题相关的关键对象及其空间位置关系，并统计对象数量（如\obj{5}）。

步进式逻辑推理 (Step-by-step Logical Reasoning) ：最后，模型综合以上所有信息，用目标语言进行一步一步的逻辑推理，最终得出答案。

2. 自动化的多语言CoT数据生成

高质量的CoT训练数据是稀缺且昂贵的。LaV-CoT设计了一套自动化数据策划方法来解决这个问题。它利用一个强大的VLM（如GPT-4o）作为“生成器”，遵循上述四阶段流程生成初始的CoT标注。然后，再利用一个“评估器”对生成的每一步进行打分和校验。对于不合格的步骤，系统会定位错误并调用生成器进行修正，如此迭代生成、纠错、精炼，直至产出完全通过验证的高质量多语言CoT数据，为后续的模型训练提供了可扩展的数据基础。

3. 基于多维度奖励的二阶段训练

为了让模型能完美地学习和执行LaV-CoT流程，研究者设计了独特的两阶段训练范式：

阶段一：监督微调 (SFT) ：首先，在自动生成的CoT数据集上对基础VLM进行SFT，让模型学会LaV-CoT的四阶段推理结构。

阶段二：语言感知的分组相对策略优化 (GRPO) ：这是LaV-CoT性能起飞的关键。它是一种强化学习优化方法，模型会针对一个问题生成多个候选的CoT推理路径。然后，一个多维度奖励函数会从多个方面对这些路径进行打分，包括：

语言一致性奖励：推理和答案的语言是否与问题一致？

结构准确性奖励：CoT是否严格遵循了四阶段格式？文本和对象的计数是否正确？

语义对齐奖励：最终答案是否正确？（通过与标准答案的编辑距离等计算）

这种精细化的奖励机制，引导模型不仅仅是“答对问题”，更是要“以正确、一致、可解释的方式答对问题”。

实验结果：全面超越，效果惊人

LaV-CoT在MMMB、Multilingual MMBench、MTVQA等多个权威的多语言VQA基准上进行了广泛评测。

性能大幅领先：基于Qwen2.5-VL-3B训练的LaV-CoT模型，相比同等规模的开源基线，平均准确率提升了约9.5%。更惊人的是，它甚至比两倍参数规模的Qwen2.5-VL-7B等模型还高出约2.6%。

超越顶尖专有模型：在多个语言（特别是阿拉伯语、土耳其语等）的任务上，LaV-CoT的表现超越了GPT-4o和Gemini-2.5-flash。

对于一个阿拉伯语问题，Qwen2.5-VL-7B虽然进行了推理，但语言错乱且答案错误；而LaV-CoT则能全程使用阿拉伯语进行正确推理。

真实世界验证：研究团队还将LaV-CoT集成到企业级的智能文档处理系统中进行了在线A/B测试。结果显示，相比原有的生产管线，LaV-CoT使答案采纳率提升了8.7%，用户满意度提升了12.4%，充分证明了其在工业界部署的巨大价值。

总结与价值

LaV-CoT的提出，为多语言、多模态人机交互领域树立了新的标杆。其核心贡献在于：

首创语言感知的视觉CoT框架：通过结构化的多阶段推理流程，有效解决了VLM在多语言场景下的语言不一致和视觉-文本对齐问题。

可扩展的自动化数据方案：创新的“生成-验证-修正”数据闭环，为训练高质量的CoT模型提供了一种可规模化、低成本的解决方案。

精细化的多维度奖励优化：设计的GRPO训练范式和多方面奖励函数，为模型学习复杂、结构化的推理能力提供了强有力的引导。

SOTA的性能与工业价值：无论是在学术基准还是真实的工业场景，LaV-CoT都展现了卓越的性能和巨大的应用潜力。

CV君认为，LaV-CoT不仅是一个强大的VQA模型，更重要的是它为如何构建更鲁棒、更可信、更能适应全球化应用的多模态AI系统，提供了一套完整且极具启发性的方法论。

了解最新 AI 进展，欢迎关注公众号:aicvml投稿寻求报道请发邮件至：amos@52cv.net欢迎点赞、转发、评论。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签