新智元报道
新智元报道
现有工作利用RL提升了视觉语言模型(VLM)的推理能力,但其任务场景往往是几何或者图表推理。这种领域上的局限,制约了VLM的探索和学习。如何拓展VLM的RL训练领域呢?电子游戏视觉元素丰富,且规则明确而可验证,因而是理想的多模态推理数据源。由此,复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。
GameQA丰富的游戏任务数据集
利用Code2Logic方法构建了GameQA数据集,这些多模态可验证游戏数据可以用于VLM推理能力的训练和评测。GameQA有:4大认知能力类别、30个游戏(如图3)、158个推理任务、14万个问答对。难度分级:任务按难度分三级;样本按视觉输入复杂度分三级。图3:GameQA的30个游戏,分为4个认知能力类别,涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。20个域内游戏用于训练和测试,而10个域外游戏不参与训练,用于测试模型在未见游戏场景下的泛化能力。
核心发现Game-RL可提升VLM的通用推理在GameQA上使用GRPO训练,4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展现出跨领域泛化,如表1。
训练效果GameQA匹敌几何数据集研究团队用GameQA和几何与图表推理数据集进行对比训练,发现GameQA可与之匹敌。如表2,尽管训练数据量更少且领域不匹配,但GameQA训的模型在通用基准上总体表现很有竞争力。而且在MathVista与MathVerse这两个和几何与函数推理有关的基准上,Game竟能匹敌更「对口」的几何推理数据训练。这表明游戏中的认知多样性和推理复杂性,具有通用性和迁移能力。
Scaling Effect训练数据量和游戏个数的影响
数据量的Scaling Effect:加大训练的GameQA数据量至20K,实验显示,模型在通用推理基准上的表现总体呈持续提升,如图4。
深度剖析Game-RL后模型能力提升在哪?
为更好理解Game-RL对VLM推理能力的提升,研究团队随机采样了案例进行了细致的人工分析。结果显示,Game-RL后,模型在视觉感知和文本推理两个方面都有提升,如图6。
结论
研究提出了Game-RL以及游戏数据合成方法Code2Logic,构建了GameQA数据集,将VLM强化训练领域拓展到游戏场景。通过实验,研究团队验证了Game-RL能提升VLM的通用推理。进一步而言,也揭示了游戏场景可以提供多模态、可控、可验证数据,具有重要价值。
文章原文
