我爱计算机视觉 09月15日
LaV-CoT:解决多语言视觉问答的语言感知思维链框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大型视觉语言模型(VLM)在处理复杂视觉问答任务时面临多语言挑战。为解决现有以英语为中心、推理过程与视觉信息脱节的问题,研究者提出了LaV-CoT框架,这是首个具备语言感知能力的视觉思维链(Language-aware Visual CoT),并引入多维度奖励优化。LaV-CoT通过语言识别、带边界框的文本摘要、空间对象级描述和步进式逻辑推理四个阶段进行处理。该框架通过自动化的数据生成管线和基于多维度奖励的二阶段训练,在多个基准测试中取得了SOTA性能,准确率显著提升,并超越了GPT-4o和Gemini-2.5-flash等顶尖模型,在真实世界A/B测试中也展现出巨大的工业应用潜力。

💡 LaV-CoT作为首个语言感知视觉思维链框架,旨在解决大型视觉语言模型在多语言视觉问答(mVQA)场景下遇到的语言不一致和视觉-文本信息脱节等核心问题。它通过精细化的推理流程,确保模型能够准确理解问题语言并结合视觉信息进行推理,从而提升回答的准确性和鲁棒性。

🎯 LaV-CoT的创新推理流程包含四个关键阶段:首先,对图像中的文本进行带边界框的摘要;接着,准确识别用户问题的语言;然后,描述图像中与问题相关的关键对象及其空间关系;最后,综合所有信息,用目标语言进行步进式逻辑推理得出答案。这一结构化流程使得模型的决策过程更加透明和可解释。

📊 为了解决高质量CoT训练数据稀缺的问题,LaV-CoT设计了一套自动化的数据生成管线。该管线利用强大的VLM生成初始标注,并通过“评估器”进行校验和修正,形成一个迭代优化、可扩展的数据闭环,为训练模型提供了坚实的数据基础。

🚀 LaV-CoT采用基于多维度奖励的二阶段训练范式。首先通过监督微调(SFT)让模型学习基本流程,然后运用分组相对策略优化(GRPO)方法,结合语言一致性、结构准确性和语义对齐等多维度奖励,引导模型进行更精确、一致且可解释的推理,最终实现性能的飞跃。

CV君 2025-09-15 14:56 江苏

随着大型视觉语言模型(VLM)的飞速发展,它们在处理复杂的视觉问答任务时展现出惊人的能力。其中,思维链(Chain-of-Thought, CoT)技术通过模拟人类一步一步的思考过程,极大地增强了模型的推理能力和可解释性。然而,当面临真实世界中更复杂的多语言视觉问答(multilingual VQA, mVQA)场景时,现有的CoT方法开始捉襟见肘——它们大多是纯文本的,并且以英语为中心,常常导致推理过程与视觉信息脱节,或在回答非英语问题时出现“语言错乱”(例如用英语回答阿拉伯语问题)。

为了解决这一痛点,来自蚂蚁集团和南洋理工大学的研究者们提出了一个名为 LaV-CoT 的全新框架。这是首个具备语言感知能力的视觉思维链(Language-aware Visual CoT),并引入了多维度奖励优化机制。LaV-CoT不仅在多个公开基准测试中取得了SOTA性能,准确率相比同等规模的开源模型提升了约9.5%,甚至超越了GPT-4o、Gemini-2.5-flash等顶尖专有模型,其在真实世界在线A/B测试中的优异表现也证明了其巨大的工业应用潜力。

论文标题: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA

作者: Jing Huang, Zhiya Tan, Shutao Gong, Fanwei Zeng, Jianshu Li

机构: 蚂蚁集团、南洋理工大学

论文地址: https://arxiv.org/abs/2509.10026

代码地址: https://github.com/HJNVR/LaV-CoT

研究背景:当CoT遇上多语言VQA的挑战

思维链(CoT)让VLM在回答问题前,先生成一个详细的推理步骤,这使得模型的决策过程更加透明,也更能处理复杂逻辑。但现有方法在多语言VQA场景下存在三大核心问题:

语言不一致:模型可能无法识别问题的语言,导致用一种语言提问,却用另一种语言(通常是英语)回答。

视觉-文本未对齐:纯文本的CoT推理过程可能忽略或错误地解读了图像中的关键视觉信息。

多语言推理能力有限:模型在非英语语境下的复杂推理能力显著弱于英语。

从直接回答(a),到普通CoT(b),再到LaV-CoT(c),模型的回答在语言一致性和准确性上逐步提升。

LaV-CoT正是为了系统性地解决这些问题而设计的,它旨在创建一个既“看得懂图”又“说得对语言”的、结构化的推理框架。

LaV-CoT:数据、流程与训练的“三位一体”创新

LaV-CoT的创新体现在三个层面:定义了全新的语言感知视觉CoT推理流程,设计了自动化的CoT数据生成管线,并采用了基于多维度奖励的二阶段训练范式

1. 语言感知的视觉CoT推理流程

这是LaV-CoT的核心。它将复杂的推理过程分解为四个可解释、可验证的阶段:

带边界框的文本摘要 (Text Summary with BBox) :首先,模型会检测并识别图像中的所有文本,并用边界框(BBox)标出其位置,然后对文本内容进行摘要。

语言识别 (Language Identification) :接着,模型会明确地识别出用户问题的所属语言,并打上标签(如\lang{Thai})。这是实现“语言感知”的关键一步。

空间对象级描述 (Spatial Object-level Captioning) :模型会描述图像中与问题相关的关键对象及其空间位置关系,并统计对象数量(如\obj{5})。

步进式逻辑推理 (Step-by-step Logical Reasoning) :最后,模型综合以上所有信息,用目标语言进行一步一步的逻辑推理,最终得出答案。

2. 自动化的多语言CoT数据生成

高质量的CoT训练数据是稀缺且昂贵的。LaV-CoT设计了一套自动化数据策划方法来解决这个问题。它利用一个强大的VLM(如GPT-4o)作为“生成器”,遵循上述四阶段流程生成初始的CoT标注。然后,再利用一个“评估器”对生成的每一步进行打分和校验。对于不合格的步骤,系统会定位错误并调用生成器进行修正,如此迭代生成、纠错、精炼,直至产出完全通过验证的高质量多语言CoT数据,为后续的模型训练提供了可扩展的数据基础。

3. 基于多维度奖励的二阶段训练

为了让模型能完美地学习和执行LaV-CoT流程,研究者设计了独特的两阶段训练范式:

阶段一:监督微调 (SFT) :首先,在自动生成的CoT数据集上对基础VLM进行SFT,让模型学会LaV-CoT的四阶段推理结构。

阶段二:语言感知的分组相对策略优化 (GRPO) :这是LaV-CoT性能起飞的关键。它是一种强化学习优化方法,模型会针对一个问题生成多个候选的CoT推理路径。然后,一个多维度奖励函数会从多个方面对这些路径进行打分,包括:

语言一致性奖励:推理和答案的语言是否与问题一致?

结构准确性奖励:CoT是否严格遵循了四阶段格式?文本和对象的计数是否正确?

语义对齐奖励:最终答案是否正确?(通过与标准答案的编辑距离等计算)

这种精细化的奖励机制,引导模型不仅仅是“答对问题”,更是要“以正确、一致、可解释的方式答对问题”。

实验结果:全面超越,效果惊人

LaV-CoT在MMMB、Multilingual MMBench、MTVQA等多个权威的多语言VQA基准上进行了广泛评测。

性能大幅领先:基于Qwen2.5-VL-3B训练的LaV-CoT模型,相比同等规模的开源基线,平均准确率提升了约9.5%。更惊人的是,它甚至比两倍参数规模的Qwen2.5-VL-7B等模型还高出约2.6%。

超越顶尖专有模型:在多个语言(特别是阿拉伯语、土耳其语等)的任务上,LaV-CoT的表现超越了GPT-4o和Gemini-2.5-flash

对于一个阿拉伯语问题,Qwen2.5-VL-7B虽然进行了推理,但语言错乱且答案错误;而LaV-CoT则能全程使用阿拉伯语进行正确推理。

真实世界验证:研究团队还将LaV-CoT集成到企业级的智能文档处理系统中进行了在线A/B测试。结果显示,相比原有的生产管线,LaV-CoT使答案采纳率提升了8.7%,用户满意度提升了12.4%,充分证明了其在工业界部署的巨大价值。

总结与价值

LaV-CoT的提出,为多语言、多模态人机交互领域树立了新的标杆。其核心贡献在于:

首创语言感知的视觉CoT框架:通过结构化的多阶段推理流程,有效解决了VLM在多语言场景下的语言不一致和视觉-文本对齐问题。

可扩展的自动化数据方案:创新的“生成-验证-修正”数据闭环,为训练高质量的CoT模型提供了一种可规模化、低成本的解决方案。

精细化的多维度奖励优化:设计的GRPO训练范式和多方面奖励函数,为模型学习复杂、结构化的推理能力提供了强有力的引导。

SOTA的性能与工业价值:无论是在学术基准还是真实的工业场景,LaV-CoT都展现了卓越的性能和巨大的应用潜力。

CV君认为,LaV-CoT不仅是一个强大的VQA模型,更重要的是它为如何构建更鲁棒、更可信、更能适应全球化应用的多模态AI系统,提供了一套完整且极具启发性的方法论。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LaV-CoT 多语言VQA 视觉语言模型 思维链 AI Multilingual VQA Vision-Language Models Chain-of-Thought AI
相关文章