魏来 2025-10-17 17:14 北京
用「多数投票 + GRPO」刷爆多模态推理
自多模态大语言模型(MLLM)问世以来,它们在图像描述、视觉问答等任务中展现了惊人的能力。为了进一步提升模型性能,尤其是在复杂的多模态推理任务上,学术界和工业界的主流范式是监督微调(SFT)或强化学习(RL)。然而,这些方法严重依赖于海量、高质量、且经过人工精细标注的多模态数据。随着模型能力的不断提升和应用场景的日益复杂,获取此类标注数据的成本变得极其高昂,甚至成为限制模型持续发展的瓶颈。一个亟待解决的问题是:我们能否摆脱对外部标注数据的依赖,让多模态大模型在没有“标准答案”的情况下,实现持续的自我提升?为了应对这一挑战,来自上海交通大学、里海大学等机构的研究团队提出了一种简洁而高效的多模态大模型无监督训练后优化框架 MM-UPT。该框架首次将稳定且可扩展的在线强化学习算法 GRPO 应用于 MLLM 的无监督自我改进场景。MM-UPT 使用了一种基于“多数投票”的自奖励机制,取代了传统的外部奖励信号,使模型能够仅利用无标签数据,甚至完全由自身合成的数据,就能有效提升其核心的推理能力。本工作已被 NeurIPS 2025(机器学习三大顶会之一,CCF-A 类)会议接收。论文第一作者为上海交通大学 MIFA 实验室的博士生魏来,通讯作者为上海交通大学 MIFA 实验室的黄维然副教授。论文标题:Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO论文链接:https://arxiv.org/abs/2505.22453代码链接:https://github.com/waltonfuture/MM-UPT 为什么需要无监督的自我进化?大模型的持续进化如同一个求知欲旺盛的学生,需要不断“刷题”来提升能力。在传统模式下,每刷一道题,都需要一位“老师”(即人工标注)来告知正确答案。这种模式虽然有效,但“老师”的精力和时间是有限的,高质量的“题库”(标注数据)总有被耗尽的一天。因此,一个更理想的模式是,让模型学会“自我反思”和“自我订正”,即在没有标准答案的情况下,通过自己的思考来判断答案的优劣,并从中学习,实现自我进化。这不仅解决了数据稀缺的难题,更为模型的规模化、自动化和持续性发展开辟了一条全新的道路。MM-UPT 正是沿着这一思路,探索如何让 MLLM 在多模态推理这一极具挑战性的领域实现真正的自我提升。MM-UPT 的工作原理MM-UPT 框架的核心思想是:用群体智慧生成内部奖励信号,驱动模型自我优化。它巧妙地将在线强化学习算法 GRPO 与一种名为“多数投票”(Majority Voting)的机制结合起来。这一思想也在一些同期工作(如 TTRL,SRT)中运用。具体流程如上图所示:生成多样性回答:针对一个无标签的多模态问题(例如,一张几何图和一道题目),MLLM 会被要求生成多个(例如 G 个)不同的回答。群体决策定“真理”:通过一个简单的“多数投票”机制,从这 G 个回答中选出出现频率最高的那个,并将其作为“伪标签”(Pseudo-label)。这个过程类似于一个专家小组讨论后,将共识性的答案作为最可靠的结论。构建自我奖励信号:根据每个回答是否与这个“伪标签”一致,系统会生成奖励信号。与伪标签一致的回答将获得正奖励(例如+1),不一致的则获得零奖励或负奖励。强化学习促提升:这个内部生成的奖励信号随后被输入到 GRPO 算法中,用于更新模型参数。通过这种方式,模型被激励去产生更稳定、更一致、更接近群体共识的高质量回答,从而在没有外部监督的情况下实现了能力的迭代提升。这个循环让模型能够基于自身的认知共识进行学习和迭代,有效地利用了无标签数据。除了无监督后训练的算法之外,研究团队也探索了让 MLLM 自行合成全新、无标签训练数据的能力,并参考 self-instruct 设计了两种合成策略:上下文合成(In-Context Synthesizing):给模型提供一个完整的原始样本(包含图像、问题和答案),然后要求它基于此上下文,生成一个与原始问题不同的新问题。这类似于举一反三,对现有知识进行变体和拓展。直接合成(Direct Synthesizing):更进一步,只给模型提供一张图像,让它在没有任何文本上下文的情况下,完全基于视觉内容独立地提出一个新问题。这极大地考验和激发了模型的创造力。通过这两种方式生成的合成问题(如上图所示),构成了全新的、源源不断的无标签“题库”。这些“题库”随后被送入上文提到的“自奖励学习循环”中,驱动模型在新问题上进行新一轮的自我学习和进化。综上,MM-UPT 通过自奖励学习循环和数据自造引擎的有机结合,构建了一个从利用现有无标签数据,到主动创造新数据,再到从新数据中学习的完整闭环,为多模态大模型实现真正意义上的、可规模化的持续自我改进开辟了一条全新的道路。MM-UPT 的实验效果为了验证框架的有效性,研究团队在多个权威的多模态数学推理基准(如 MathVista, MathVision 等)上进行了广泛实验。3.1 在无标签标准数据集上效果显著实验首先模拟了“有题无解”的场景,即使用标准数据集但隐去所有答案。结果如下表所示,基于 Qwen2.5-VL-7B 模型,MM-UPT 取得了全面的性能提升(例如,在 MathVista 上从 66.3% 提升至 72.9%)。更重要的是,MM-UPT 的性能不仅显著优于其他无监督基线方法(如 LMSI,Genixer 等),甚至在多个数据集上逼近了使用标准答案进行训练的监督方法(Supervised GRPO)。这充分证明了多数投票机制作为伪奖励信号的有效性。3.2 “自产自销”的数据也能驱动成长MM-UPT 的终极目标是实现完全的自主进化。为此,研究团队进一步探索了仅使用模型自身生成的合成数据进行训练的潜力。上表结果显示:使用“上下文合成”(In-Context Synthesizing)和“直接合成”(Direct Synthesizing)这两种类型的合成数据训练的模型,其性能同样获得了显著提升,并且效果与使用原始人类创建的问题相当,甚至在某些情况下(如 GeoQA 上的“直接合成”)表现更优。这揭示了一条极具潜力的路径:未来 MLLM 或许可以不依赖任何外部数据,通过不断地自我提问、自我解答、自我评估,进入一个可规模化的、持续的自我完善循环。3.3 具备良好的通用性和兼容性为了证明 MM-UPT 并非只对特定模型有效,研究团队在包括 Qwen2.5-VL-3B,MM-Eureka-7B,ThinkLite-VL-7B 在内的多个不同规模和架构的模型上进行了消融实验。下面表格中的结果显示,MM-UPT 对所有被测试的模型都带来了稳定的性能增益。一个更有趣的发现是,MM-UPT 对于已经接受过监督强化学习(如 MM-Eureka-7B)的模型依然有效,可以在其基础上实现“二次提升”。这表明 MM-UPT 可以作为一个轻量、即插即用的优化模块,帮助顶尖模型在新的无标签数据上继续挖掘潜力。深入剖析 MM-UPT:优势、边界与权衡一项优秀的技术不仅要证明其有效性,更要清晰地剖析其工作原理、适用边界及潜在的权衡。研究团队对 MM-UPT 进行了深入的分析,揭示了其成功背后的深层原因和实际应用中需要考量的因素。4.1 为什么 MM-UPT 行之有效?MM-UPT 的成功并非偶然,其背后是经典的集成学习理论在支撑。研究团队通过一个简单的概率模型解释了其原理:假设模型对某个二元问题的单次回答正确率为 ,且 (即正确率高于随机猜测)。在这种情况下,若独立采样 次,那么正确回答的次数 便服从二项分布()。当正确次数超过总采样次数的一半时(),多数投票的结果就是正确的。这一事件(我们称之为 )发生的概率可以通过以下公式计算: