面壁智能发布了 MiniCPM-V 4.5 技术报告,该模型是行业首个具备“高刷”视频理解能力的多模态模型。报告从模型结构、训练数据和训练策略三个维度探索了高效多模态大模型的实现路径,提出统一的 3D-Resampler 架构、面向文档的统一 OCR 和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。MiniCPM-V 4.5 在视频理解、图像理解、OCR、文档解析等多项任务上取得显著突破,不仅以 8B 的参数规模超越 GPT-4o-latest 和 Qwen2.5-VL-72B,更在推理速度上具有显著优势。
🔍 3D-Resampler 架构:该架构在时空方向上同时压缩视频,利用连续帧间的高度冗余信息,实现了革命性的效率提升。它将 6 个连续的视频帧压缩为仅 64 个视觉 Token,实现了 96 倍的视觉压缩率,同时保证了图像与视频处理的统一编码,确保了知识和能力的无缝迁移。
📄 统一 OCR 和知识学习范式:该范式通过对文档图像中的文字区域施加不同程度的损坏,利用“从损坏图像中重建原文”这一学习目标同时学习 OCR 和知识学习两种任务。这种方法彻底摆脱了对外部解析器的依赖,杜绝了其引入的噪声和工程负担,并智能地将两种任务目标无缝融合在同一训练批次中。
🤖 混合强化学习策略:该策略平衡了深度思考与日常即时使用两种需求,在节省 30% 训练开销的同时实现了强大的思考能力。模型通过少量高难度、高质量的推理样本进行冷启动,快速掌握深度思考所必需的反思与回溯能力。进入强化学习阶段,两种模式被同时优化,不仅显著增强了深度思考模式的性能,更实现了两种模式间推理能力的交叉泛化。
⏱️ 高效推理:MiniCPM-V 4.5 在提供 SOTA 级多模态表现的同时,具有最佳的推理效率和最低的推理开销。在混合思考模式下,推理耗时仅为同规格深度思考模型的 42.9%-68.2%,同时获得了更好的 OpenCompass 分数。
openBMB开源社区 2025-09-24 22:45 北京
面壁智能 MiniCPM-V 4.5 技术报告正式出炉

上个月,面壁小钢炮带来了最新的多模态模型 MiniCPM-V 4.5,成为行业首个具备“高刷”视频理解能力的多模态模型。模型一经开源广受社区好评,直接登上 HuggingFace Trending TOP2,截至目前在 HuggingFace、ModelScope 两大平台合计下载量超 22 万。今天,MiniCPM-V 4.5 技术报告正式出炉。报告从模型结构、训练数据和训练策略三个维度探索了高效多模态大模型的实现路径,以解决多模态大模型的训练和推理的效率瓶颈。提出 统一的 3D-Resampler 架构实现高密度视频压缩、面向文档的统一 OCR 和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。基于这些关键技术,MiniCPM-V 4.5 在视频理解、图像理解、OCR、文档解析等多项任务上取得显著突破,不仅以 8B 的参数规模超越 GPT-4o-latest 和 Qwen2.5-VL-72B,更在推理速度上具有显著优势。
➤ 技术报告地址
🔗 https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_V_4_5_Technical_Report.pdf
➤ 项目地址
🔗 Github: https://github.com/OpenBMB/MiniCPM-o
➤ 模型地址
🔗 Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-4_5
🔗 ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
![图片]()
简介
随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。尤其在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理,给多模态模型研究和应用提出了更加严峻的挑战。MiniCPM-V 4.5 通过系统性的技术创新攻克三大效率难题:针对模型架构:为解决处理图像与视频时产生的海量视觉 Token,我们采用了 统一 3D-Resampler 架构,大幅降低了视觉编码的 Token 开销,实现最高 96 倍 的压缩率。在 VideoMME 上,我们以相比 Qwen2.5-VL 7B 仅 46.7% 的显存和 8.7% 的时间开销,获得了 30B 以下参数量模型的最优性能。
针对训练数据:为解决多模态文档处理中对不可靠外部解析工具的依赖和 OCR 数据工程设计难题,我们提出了 统一文档 OCR 与知识学习的新范式,使模型能直接从复杂文档图像中学习,显著降低了数据噪声和数据工程复杂度。最终在 OmniDocBench 上取得了通用 MLLM 中的最好表现。
针对训练方法:为平衡深度思考与日常即时使用两种需求,我们使用了 混合强化学习策略。该策略在节省 30% 训练开销的同时实现了强大的思考能力,并且推理耗时仅为同规格深度思考模型的 42.9%-68.2%,在快速响应与全面分析间取得了可控平衡。![图片]()
技术创新
01 高效模型架构:统一的 3D-Resampler 架构实现高密度视频压缩
Takeaways1. 时间-空间 统一联合压缩可充分挖掘多模态数据的冗余性,实现更高视觉压缩率。2. 统一的视觉架构可促进感知能力从图像到视频的无缝迁移。