机器之心 09月16日
OpenVision 2:生成式视觉预训练的新方向
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了OpenVision 2,一项由加州大学圣克鲁兹分校、苹果公司和加州大学伯克利分校合作提出的极简生成式视觉预训练新方法。该研究大胆移除了传统的对比学习,仅保留“图像→描述”的生成目标,大幅提升了训练效率并降低了计算成本。通过随机丢弃视觉token的技巧,OpenVision 2在保持最优性能的同时,实现了10亿参数规模的可扩展训练,并在多模态基准测试中展现出与CLIP系列模型相当甚至更优的表现,尤其在OCR和文本相关任务上优势明显。这一研究挑战了对比学习的主导范式,为多模态基础模型的发展提供了新思路。

💡 **极简生成式框架**:OpenVision 2的核心创新在于摒弃了以往视觉预训练中普遍采用的CLIP式图文对比学习,转而采用一种更为简洁的生成式框架,仅包含图像编码器和文本解码器。这种设计移除了文本编码器的额外开销,将训练重点完全放在“图像→描述”的生成任务上,从而大幅简化了模型结构和训练流程。

🚀 **高效训练与可扩展性**:通过引入“视觉 token 随机掩码”技术,即仅用约1/3的视觉 token 来生成完整描述,OpenVision 2在显著降低文本解码器计算负担的同时,大幅提升了训练效率,缩短了训练时间并减少了显存占用。这种“稀疏提示”的设计使得模型能够轻松扩展到10亿参数规模,并保持高效训练,为更大规模的生成式视觉预训练奠定了基础。

🏆 **性能优越与任务优势**:实验结果表明,OpenVision 2在TextVQA、ChartQA、OCR、MME等主流多模态基准上,性能与OpenVision系列模型基本持平,并在部分细粒度任务上表现更佳。与OpenAI-CLIP等对比学习模型相比,OpenVision系列在同等规模下整体表现更强,尤其在OCR和文本相关任务上展现出明显优势,证明了生成式预训练同样能够训练出强大的视觉编码器。

🎯 **贴合下游任务与高质量监督**:OpenVision 2的生成式监督方式更贴近多模态大模型的推理过程,减少了预训练与下游任务间的“目标错位”。同时,其依赖的高质量合成描述(结合图像和原始文本生成),为模型提供了更细致、更贴合语义的监督信号,进一步提升了预训练效果。随机掩码技巧迫使模型学习抽取核心特征,提升了泛化与鲁棒性。


本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为UCSC博士生,研究方向包括多模态理解、视觉-语言预训练与视觉基础模型。其余作者包括李先航(UCSC)、张乐天(USCS)、王子瑞(Apple)、郑泽宇(UCB)、周郁音(UCSC)。通讯作者为UCSC的谢慈航教授。


在多模态大模型快速演进的浪潮中,视觉模块一直是支撑整个体系的关键基石。长期以来,CLIP 式的图文对比学习几乎成为视觉预训练的默认思路。从 OpenAI 的 CLIP 到 Google 的 SigLIP,再到一系列开源复现,业界普遍认为:想要获得强大的视觉编码器,就必须依赖对比学习。


近日,来自加州大学圣克鲁兹分校、苹果公司、加州大学伯克利的研究者提出了 OpenVision 2,一种极简的生成式视觉预训练新方向。这项工作在保持最优性能的同时,大幅提升了训练效率,并在生成式框架下实现了 10 亿参数规模的可扩展训练。



✍🏻️论文标题:OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

📄 论文地址:arXiv:2509.01644 

🌐 项目主页https://ucsc-vlaa.github.io/OpenVision2

💻 代码与模型:GitHub · UCSC-VLAA/OpenVision 

🤗 Hugging Face 模型库:OpenVision 2 on HuggingFace



从 OpenVision 到 OpenVision 2

今年早些时候,研究团队在 ICCV 发布了 OpenVision,这是一个完全基于公开数据和开源代码训练的视觉编码器家族,旨在为社区提供真正开放、透明、可复现的视觉骨干。


该项目一次性开源了超过 25 个预训练模型,参数量从 590 万到 6 亿+,覆盖多种 patch size 与分辨率设置,成为学术界和产业界构建多模态模型时的重要替代方案。


实验显示,OpenVision 在多个多模态基准任务上已经可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP,为社区提供了可靠的开源替代。


然而,OpenVision 的训练管线仍然偏复杂。为了充分利用高质量的合成描述,它在 CLIP 的基础上引入了两方面额外设计:


双重对比目标每张图像既要和 web caption 对齐,又要和部分合成 caption 对齐,导致文本编码器的计算量几乎翻倍,训练成本也随之显著增加。


生成式 caption 预测模型还需要在图像和原始 alt-text 的条件下,生成完整的合成描述,这进一步增加了解码器的计算开销。


这些设计确实提升了表征质量,但也让训练过程变得更重,计算成本更高,扩展到更大规模时受到明显限制。



极简思路:生成式的 OpenVision 2

在 OpenVision 2 中,研究者们做出了大胆简化:直接移除文本编码器与对比学习,只保留「图像 → 描述」的生成目标。由此形成的框架仅包含两个模块:图像编码器 + 文本解码器。


没有对比学习的双塔结构

没有额外的文本塔开销

依赖高质量合成描述作为唯一监督信号


除此之外,OpenVision 2 还引入了一个关键技巧:在预训练阶段随机丢弃约 2/3 的视觉 token,仅用剩下的 1/3 token 来生成完整描述。


一方面,这大幅减少了文本解码器的计算负担,显著提升了训练效率;

另一方面,这种「稀疏提示」迫使模型在有限条件下仍要还原出完整的 caption,从而提升了表征的抽象能力。


这种「以少胜多」的思路,使得 OpenVision 2 在保持性能的同时实现了更高的效率,也印证了「少即是多」的理念。


实验表明,这一简化设计不仅没有削弱模型能力,反而在效率与扩展性上表现突出:


性能在 TextVQA、ChartQA、OCR、MME 等主流多模态基准上,OpenVision 2 与 OpenVision 几乎持平,甚至在部分细粒度任务上表现更佳。同时,相较于 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流对比学习模型,OpenVision 系列在同等规模下整体表现更强,特别是在 OCR 与文本相关任务上优势明显。



效率训练时间缩短 1.5——2 倍,显存占用减少近一半,单卡批大小从 2k 扩展到 8k;例如,在 ViT-L/14 上从约 83 小时缩短到 57 小时,在 SoViT-400M 上从约 241 小时缩短到 121 小时。这些改进使得模型在生成式框架下成功扩展到 10 亿参数规模,并保持高效训练,也为进一步探索更大规模的生成式视觉预训练奠定了基础。



为什么有效?

研究者总结了 OpenVision 2 作为生成式视觉编码器能够成功的三点关键原因:


生成式监督更贴近下游生成任务与多模态大模型(如 LLaVA)的推理方式一致,减少了预训练与下游任务间的「目标错位」。


高质量合成描述在 Recap-DataComp-1B v2 中,caption 的生成同时结合了图像和原始文本,使得描述更细致、更贴合语义,为预训练提供了更可靠的监督信号。


视觉 token 随机掩码(少即是多)仅保留部分视觉 token 进行生成,既降低算力开销,又让模型在「信息不完整」的条件下学会抽取核心特征,从而提升泛化与鲁棒性。



对社区的意义

OpenVision 2 展示了一个重要事实:对比学习并非不可或缺。通过生成式的简洁框架,同样能够训练出强大的视觉编码器,并在效率和可扩展性上具备显著优势。


这项研究不仅挑战了长期以来的对比学习主导范式,也为未来多模态基础模型的发展提供了新的方向。正如作者们所强调的,「大道至简」的设计理念,展示了生成式视觉预训练在未来发展的潜力。


从 OpenVision 到 OpenVision 2,研究团队已经开源了超过 25 个不同规模和配置的模型,并完整公开了训练代码与数据管线,为学术界和产业界提供了可复现、可扩展的资源基础,加速社区在生成式视觉预训练方向上的探索。研究团队长期欢迎学界和业界的同学和朋友联系、交流、合作。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenVision 2 生成式视觉预训练 多模态学习 视觉编码器 对比学习 OpenAI Apple UC Santa Cruz UC Berkeley Generative Visual Pre-training Multimodal Learning Visual Encoder Contrastive Learning
相关文章