新智元 6小时前
复旦大学提出Game-RL,用游戏数据提升视觉语言模型推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

复旦大学NLP实验室研发的Game-RL项目,旨在通过电子游戏丰富多模态推理数据,提升视觉语言模型(VLM)的推理能力。该项目利用游戏具有的丰富视觉元素和明确规则的特点,创新性地提出Code2Logic方法,系统化地从游戏代码生成多模态可验证的推理数据,构建了包含30个游戏、158个推理任务和14万个问答对的GameQA数据集。实验表明,基于GameQA数据集的强化训练能显著提升VLM在通用视觉语言推理基准上的表现,并展现出良好的跨领域泛化能力,证明了游戏场景作为VLM训练数据源的独特价值。

🎮 **Game-RL:拓展VLM训练新领域** 复旦大学NLP实验室提出的Game-RL,将视觉语言模型(VLM)的强化学习训练领域从传统的几何或图表推理拓展至电子游戏场景。利用电子游戏丰富的视觉元素和明确可验证的规则,Game-RL旨在生成高质量的多模态推理数据,以提升VLM的整体推理能力。

💡 **Code2Logic:系统化生成游戏推理数据** 为了构建多模态可验证的游戏任务数据,研究团队创新性地提出了Code2Logic方法。该方法借助大型语言模型(LLM)从游戏代码出发,通过设计游戏任务及其QA模板,并构建数据引擎代码,实现了数据的自动化批量生成。这一流程确保了数据的系统性和可验证性。

📊 **GameQA数据集:丰富多样的推理训练基石** 基于Code2Logic方法,研究人员构建了GameQA数据集,该数据集包含4大认知能力类别、30个游戏、158个推理任务和14万个问答对。数据集的难度和视觉输入复杂度均进行了分级,其中20个游戏用于训练和测试,10个域外游戏则用于评估模型的泛化能力。

🚀 **Game-RL提升VLM通用推理与泛化能力** 实验结果表明,使用GameQA数据集进行训练的VLM在多个通用视觉语言推理基准上取得了显著提升,平均提升率达2.33%。更重要的是,模型展现出良好的跨领域泛化能力,即使在未见过的游戏场景下也能有效推理。

⚖️ **游戏数据与几何数据的对比分析** 研究对比了使用GameQA数据与几何推理数据集进行训练的效果。结果显示,即使训练数据量更少且领域不匹配,GameQA训练的模型在通用基准上表现出强劲竞争力,甚至在某些几何和函数推理基准上能与专门的几何数据训练模型匹敌,证明了游戏数据在通用性和迁移性方面的优势。


  新智元报道  

编辑:LRST
【新智元导读】复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法,系统化合成游戏任务数据,构建GameQA数据集,验证了游戏数据在复杂推理训练中的优势。

现有工作利用RL提升了视觉语言模型(VLM)的推理能力,但其任务场景往往是几何或者图表推理。这种领域上的局限,制约了VLM的探索和学习。

如何拓展VLM的RL训练领域呢?

电子游戏视觉元素丰富,且规则明确而可验证,因而是理想的多模态推理数据源。

由此,复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。

论文链接:https://arxiv.org/abs/2505.13886

代码仓库:https://github.com/tongjingqi/Game-RL

数据和模型:https://huggingface.co/Code2Logic

为获得训练数据(如图1的示例),研究人员还提出了新颖的Code2Logic方法,通过游戏代码系统化合成数据。

图1:GameQA数据集中各游戏类别的代表性游戏:3D重建、七巧板(变体)、数独和推箱子。各游戏展示两个视觉问答示例,包含当前游戏状态图片,相应的问题,以及逐步推理过程和答案。

Code2Logic方法创新性地基于游戏代码合成多模态可验证游戏任务数据。

如图2,利用强LLM生成游戏代码、设计任务及其模板、构建数据引擎代码,最后只要执行代码便能自动生成数据。

图2:Code2Logic方法,借助LLM通过三个核心步骤将游戏代码转换为推理数据。第一步:游戏代码构建;第二步:游戏任务及其QA模板设计;第三步:数据引擎构建,基于前两步构建自动化程序,然后只要执行代码就能自动批量生成数据。


GameQA丰富的游戏任务数据集
利用Code2Logic方法构建了GameQA数据集,这些多模态可验证游戏数据可以用于VLM推理能力的训练和评测。

GameQA有:4大认知能力类别、30个游戏(如图3)、158个推理任务、14万个问答对。

难度分级:任务按难度分三级;样本按视觉输入复杂度分三级。

图3:GameQA的30个游戏,分为4个认知能力类别,涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。20个域内游戏用于训练和测试,而10个域外游戏不参与训练,用于测试模型在未见游戏场景下的泛化能力。


核心发现Game-RL可提升VLM的通用推理在GameQA上使用GRPO训练,4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展现出跨领域泛化,如表1。

表1:通用视觉语言推理基准上的评测结果


训练效果GameQA匹敌几何数据集研究团队用GameQA和几何与图表推理数据集进行对比训练,发现GameQA可与之匹敌

如表2,尽管训练数据量更少且领域不匹配,但GameQA训的模型在通用基准上总体表现很有竞争力。而且在MathVista与MathVerse这两个和几何与函数推理有关的基准上,Game竟能匹敌更「对口」的几何推理数据训练。

这表明游戏中的认知多样性和推理复杂性,具有通用性和迁移能力。

表2:对比训练,5K GameQA样本 vs. 8K MAVIS(几何与函数视觉推理)vs. 8K Multimodal-Open-R1(以几何推理为主)vs. 8K MultiMath(综合的数学领域多模态推理),GameQA训练的模型总体很有竞争力,实验也显示混合训练(MultiMath中加入GameQA数据)能助力模型提得更多。


Scaling Effect训练数据量和游戏个数的影响
数据量的Scaling Effect:加大训练的GameQA数据量至20K,实验显示,模型在通用推理基准上的表现总体呈持续提升,如图4。

图4:训练数据量的Scaling Effect

游戏个数的Scaling Effect:随着训练的游戏种类变多,域外泛化效果增强,如图5。

图5:使用20种游戏的任务训练,模型在域外通用基准上的提升优于使用4种或10种游戏的配置。


深度剖析Game-RL后模型能力提升在哪?
为更好理解Game-RL对VLM推理能力的提升,研究团队随机采样了案例进行了细致的人工分析。结果显示,Game-RL后,模型在视觉感知和文本推理两个方面都有提升,如图6。

图6:人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上,视觉感知和文本推理能力的变化情况,下方是视觉感知能力提升的一个案例。


结论
研究提出了Game-RL以及游戏数据合成方法Code2Logic,构建了GameQA数据集,将VLM强化训练领域拓展到游戏场景。

通过实验,研究团队验证了Game-RL能提升VLM的通用推理。

进一步而言,也揭示了游戏场景可以提供多模态、可控、可验证数据,具有重要价值。

参考资料:
https://arxiv.org/abs/2505.13886



文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Game-RL 复旦大学 视觉语言模型 VLM 推理能力 强化学习 电子游戏 Code2Logic GameQA 多模态数据 Fudan University Vision-Language Model Reasoning Ability Reinforcement Learning Video Games Multimodal Data
相关文章