机器之心 09月26日 22:59
AI几何推理新突破:GeoReasoning-10K数据集与RLVR框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为解决多模态大语言模型在几何推理上的瓶颈,UIUC研究团队提出了基于强化学习与可验证奖励的Geo-Image-Textualization框架,并发布了首个完全对齐的高质量几何图像-文本数据集GeoReasoning-10K。该框架生成的模型不仅在几何任务上表现优异,还能泛化至算术、代数等非几何任务,并处理非几何图像输入。GeoReasoning-10K数据集包含1万对精心构建的图像与描述,经过训练的模型在权威基准测试中展现出卓越的数据质量和扩展性,显著提升了AI的数学推理能力,为多模态AI在教育、科学计算等领域的应用开辟了新道路。

📊 **GeoReasoning-10K数据集的创新与价值**:该数据集包含1万对精心构建、视觉与文本信息完全对齐的几何图像-描述对,旨在解决现有模型在几何推理任务中泛化能力有限和信息不对齐的问题。其高质量的样本设计和规模,为训练更强大的多模态大语言模型提供了坚实基础。

🤖 **Geo-Image-Textualization框架的核心技术**:该框架采用强化学习与可验证奖励(RLVR)进行数据生成与优化,实现了模型在几何推理任务上的强泛化性。训练后的模型不仅能处理几何问题,还能有效泛化至算术、代数、数值推理等非几何任务,甚至能够处理非几何图像输入,展现出AI数学理解能力的显著提升。

🚀 **卓越的实验表现与可扩展性**:在MathVista和MathVerse等权威数学推理基准上,基于GeoReasoning-10K训练的模型取得了最优效果,超越了其他同类型数据集。该框架生成的样本具有高度可扩展性,能够组合出任意复杂度的几何题,预示着其在推动AI教育和科学计算领域发展方面的巨大潜力。

💡 **AI数学推理能力的全面提升**:研究表明,通过为几何图片生成高质量的标题和描述,AI不仅能更准确地解决几何问题,还能显著增强其整体的数学推理能力。这一成果为多模态AI在更广泛的数学领域应用打下了基础,并激发了对未来AI能力边界的更多探索。

2025-09-25 23:15 北京

为解决几何推理瓶颈提供了全新思路

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。

然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视觉与文本信息之间存在严重不对齐问题,制约了模型在复杂几何推理任务上的表现。

来自 UIUC 的作者团队的研究提出了一种基于强化学习与可验证奖励 RLVR 数据生成与优化框架 ——Geo-Image-Textualization,并发布了首个完全对齐的高质量几何图像 - 文本数据集 GeoReasoning-10K,包含 1 万对精心构建的图像与描述。

并且,为了促进社区发展,作者团队已公开 GeoReasoning-10K 数据集及相关代码。

数据集与方法介绍

该框架的核心创新包括:

图像 - 标题 - 问题 / 答案的生成流程如下图所示:

生成的几何图示例如下:

训练流程和强化学习阶段的奖励函数如下:

实验结果

在权威数学推理基准 MathVista 和 MathVers 上与其他几何字幕标注数据集(如 AutoGeo、GeoPeP)和解题数据集(如 GeoGPT4, Geo170K)相比,GeoReasoning-10K 在相同数据量下均取得最优效果,展现出卓越的数据质量与扩展性:

左:MathVista;右:MathVerse

在 MMMU 测评基准上,使用 GeoReasoning-10K 微调后的 Gemma3-4B 模型显著提升多项能力:

MMMU 实验结果

最后展示 MathVista 中的一些具体样例:

以及 MMMU 的一些样例:

总结

在多模态大语言模型快速发展的今天,Geo-Image-Textualization 框架和 GeoReasoning-10K 数据集为解决几何推理瓶颈提供了全新思路。通过确保视觉和文本信息的完全对齐,本文的方法不仅提升了模型在几何问题上的表现,还实现了向更广泛数学领域的泛化。

正如实验结果所示,给几何图片写标题可以让 AI 变聪明,不仅能解决几何问题,还能增强其整体数学推理能力,为多模态 AI 在教育、科学计算等领域的应用铺平道路。

感谢作者团队的辛勤工作和开源贡献,期待更多研究者加入这一领域,共同推动多模态 AI 技术的边界不断扩展。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI几何推理 多模态大语言模型 GeoReasoning-10K RLVR 数学推理 数据生成 AI教育 Geometric Reasoning Multimodal LLMs GeoReasoning-10K RLVR Mathematical Reasoning Data Generation AI Education
相关文章