机器之心 09月26日 04:11
提升多模态大模型几何推理能力的新框架与数据集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

研究团队提出了Geo-Image-Textualization框架,利用强化学习和可验证奖励来生成和优化图像-文本数据,解决了现有方法泛化能力有限和视觉-文本信息不对齐的问题。他们发布了首个完全对齐的高质量几何图像-文本数据集GeoReasoning-10K,包含1万对精心构建的数据。该框架训练的模型不仅在几何任务上表现优异,还能泛化至算术、代数等非几何任务。实验结果表明,GeoReasoning-10K在权威数学推理基准上优于其他数据集,并显著提升了模型在MMMU评测中的多项能力。该研究为多模态大模型在几何推理及更广泛数学领域的应用提供了新思路。

💡 **Geo-Image-Textualization框架与GeoReasoning-10K数据集:** 该研究的核心在于提出了一个名为Geo-Image-Textualization的全新框架,该框架结合了强化学习与可验证奖励(RLVR)技术,旨在解决多模态大语言模型(MLLMs)在处理数学几何问题时的挑战。为了支持这一框架,研究团队还发布了GeoReasoning-10K,这是首个完全对齐的高质量几何图像-文本数据集,包含1万对精心构建的图像和对应的文本描述。这一创新解决了以往方法在泛化能力和视觉-文本信息对齐方面的不足,为提升模型在复杂几何推理任务上的表现奠定了基础。

🚀 **强大的泛化能力与高质量数据:** Geo-Image-Textualization框架训练出的模型展现出了卓越的泛化能力。不仅在几何推理任务上表现出色,还能有效迁移至算术、代数、数值推理等非几何任务,甚至能处理非几何图像输入。GeoReasoning-10K数据集的质量极高,通过该数据集训练的模型在下游任务上的性能超越了使用其他同类型数据集的模型。此外,该框架的可扩展性意味着生成的样本可以组合成任意复杂度的几何题目,为模型的持续学习和提升提供了可能。

🏆 **实验验证与性能提升:** 在权威的数学推理基准MathVista和MathVerse上,GeoReasoning-10K数据集在相同数据量下取得了优于AutoGeo、GeoPeP等数据集的性能,证明了其数据质量和扩展性。进一步在MMMU评测基准上,使用GeoReasoning-10K微调Gemma3-4B模型后,该模型在多项能力上得到了显著提升。这些实验结果有力地证明了该框架和数据集在增强AI数学推理能力方面的有效性,为多模态AI在教育、科学计算等领域的应用开辟了新途径。


随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。


然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视觉与文本信息之间存在严重不对齐问题,制约了模型在复杂几何推理任务上的表现。



来自 UIUC 的作者团队的研究提出了一种基于强化学习与可验证奖励 RLVR 数据生成与优化框架 ——Geo-Image-Textualization,并发布了首个完全对齐的高质量几何图像 - 文本数据集 GeoReasoning-10K,包含 1 万对精心构建的图像与描述。


并且,为了促进社区发展,作者团队已公开 GeoReasoning-10K 数据集及相关代码。



    数据集地址:https://huggingface.co/datasets/ScaleMath/GeoReasoning

    代码地址:https://github.com/MachinePhoenix/GeoReasoning

    论文链接:https://arxiv.org/abs/2509.15217

    论文标题:Generalizable Geometric Image Caption Synthesis


数据集与方法介绍


该框架的核心创新包括:


    强泛化性:训练后的模型不仅在几何任务上表现优异,还能泛化至算术、代数、数值推理等非几何任务,甚至处理非几何图像输入。

    高质量:经过 GeoReasoning 训练过的模型,在下游任务上性能超过其他同类型数据集,并且具有良好的缩放性质。

    可扩展性:生成的样本由模板集中的字句组合而成,可以组合出任意复杂度的几何题。


图像 - 标题 - 问题 / 答案的生成流程如下图所示:



生成的几何图示例如下:



训练流程和强化学习阶段的奖励函数如下:




实验结果


在权威数学推理基准 MathVista 和 MathVers 上与其他几何字幕标注数据集(如 AutoGeo、GeoPeP)和解题数据集(如 GeoGPT4, Geo170K)相比,GeoReasoning-10K 在相同数据量下均取得最优效果,展现出卓越的数据质量与扩展性:


左:MathVista;右:MathVerse


在 MMMU 测评基准上,使用 GeoReasoning-10K 微调后的 Gemma3-4B 模型显著提升多项能力:


MMMU 实验结果


最后展示 MathVista 中的一些具体样例:





以及 MMMU 的一些样例:





总结


在多模态大语言模型快速发展的今天,Geo-Image-Textualization 框架和 GeoReasoning-10K 数据集为解决几何推理瓶颈提供了全新思路。通过确保视觉和文本信息的完全对齐,本文的方法不仅提升了模型在几何问题上的表现,还实现了向更广泛数学领域的泛化。


正如实验结果所示,给几何图片写标题可以让 AI 变聪明,不仅能解决几何问题,还能增强其整体数学推理能力,为多模态 AI 在教育、科学计算等领域的应用铺平道路。


感谢作者团队的辛勤工作和开源贡献,期待更多研究者加入这一领域,共同推动多模态 AI 技术的边界不断扩展。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大语言模型 几何推理 强化学习 数据集 MLLMs Geometric Reasoning Reinforcement Learning Dataset Geo-Image-Textualization GeoReasoning-10K
相关文章