Hugging Face 09月11日
阿里发布新一代多模态大模型Ovis2.5
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里国际发布新一代多模态大模型Ovis2.5,针对原生分辨率视觉感知、深度推理与高性价比场景设计。在OpenCompass评测套件上综合得分提升,保持SOTA水平。Ovis2.5-9B和Ovis2.5-2B两个版本开源,分别适用于不同参数规模和场景需求。模型核心进化包括原生分辨率视觉感知、深度推理机制和复杂图表理解能力提升,在多个基准测试和实际应用场景中展现领先性能。

🔍 原生分辨率视觉感知:Ovis2.5集成了动态分辨率视觉编码器(NaViT),可直接处理任意原生分辨率图像,完整捕捉图像结构和细节信息,为复杂场景下的深度推理奠定基础。

💭 深度推理:Ovis2.5融入长链思考训练,包含自我检查与修正环节,提升模型在数学、复杂图表等高难度任务中的准确率。用户可选择开启「思考模式」,在延迟与精度间灵活权衡。

📊 攻克复杂图表:Ovis2.5从数据端、视觉端和推理端三个层面优化复杂图表理解能力,新增海量高质量图表、OCR、Grounding数据,并结合原生分辨率编码器和深度思考能力,实现精准分析。

🏗️ 模型架构:Ovis2.5延续Ovis系列创新的结构化嵌入对齐设计,由动态分辨率ViT、Ovis视觉词表模块和Qwen3语言基座构成,高效提取视觉特征并处理多模态嵌入。

📚 训练与数据:Ovis2.5采用更精细的五阶段训练范式,并增加50%的数据规模,重点聚焦视觉推理、图表、OCR、Grounding等方向,合成大量与Qwen3深度适配的「思考」数据,激发模型反思与推理潜能。

Hugging Face 2025-08-26 21:30 法国

阿里国际正式发布新一代多模态大模型Ovis2.5。Ovis2.5 是一款面向原生分辨率视觉感知、深度推理与高性价比场景设计的多模态大模型。在主流多模态评测套件 OpenCompass 上的综合得分相较 Ovis2 进一步提升,并在同类开源模型中继续保持 SOTA 水平。此外,凭借原生分辨率视觉感知与反思式思维能力的协同升级,在小模型尺寸下实现了性能与效率的双重突破。无论是在通用多模态基准,还是在复杂图表理解与 OCR 等实际应用场景,Ovis2.5 均展现出领先的理解与推理能力。

本次开源包含两个版本:

Ovis2.5-9B:OpenCompass综合得分 78.3,超越众多更大参数量的模型,在40B以下参数规模的开源模型中排名第一。

Ovis2.5-2B:OpenCompass综合得分73.9,延续了Ovis系列“小身板,大能量”的理念,在同尺寸模型中性能显著领先,是端侧和资源受限场景的理想选择。

Ovis2.5-9B在多个benchmark上取得了同尺寸开源最佳性能,Ovis2.5-2B也表现优异

代码:https://github.com/AIDC-AI/Ovis

模型: 

https://huggingface.co/AIDC-AI/Ovis2.5-2B 

https://huggingface.co/AIDC-AI/Ovis2.5-9B

Demo: 

https://huggingface.co/spaces/AIDC-AI/Ovis2.5-2B https://huggingface.co/spaces/AIDC-AI/Ovis2.5-9B

技术报告: https://arxiv.org/abs/2508.11737

Ovis2.5 的三大核心进化

Ovis2.5 的性能提升,来自于原生分辨率视觉感知深度推理机制复杂图表理解三方面的系统性突破。

1. 原生分辨率视觉感知在 Ovis2 及早期版本中,高分辨率图片需要通过“切图-拼接”处理,这往往导致整体结构与细节信息的损失,尤其在图表、文档和精细场景中表现尤为明显。 

为解决这一问题,Ovis2.5 集成了动态分辨率视觉编码器(NaViT),能够直接处理任意原生分辨率的图像,让模型真正做到“完整看图”。无论是宏观布局还是微小文字细节,都能精准捕捉,为复杂场景下的深度推理奠定坚实基础。

2. 深度推理「思考模式」为提升深度推理能力,Ovis2.5 融入了包含自我检查与修正环节的长链思考训练,使模型能够在解决问题时进行自我反思。 

在推理时,用户可以选择开启「思考模式」:模型会生成中间步骤,主动检视并修正推理过程,从而在数学、复杂图表等高难度任务中获得更高的准确率。这一机制提供了延迟与精度的灵活权衡,用户可根据需求自由切换。

3. 攻克复杂图表难题:三位一体优化复杂图表理解一直是多模态领域的“硬骨头”,大量噪声和密集的视觉信息给模型带来了巨大挑战。Ovis2.5针对这一痛点,从三个层面进行了系统性增强: 

数据端:新增了海量高质量的图表、OCR、Grounding数据。 

视觉端:利用原生分辨率编码器,准确全面地理解图表中的元素。 

推理端:结合深度思考能力,对图表中的数据和逻辑关系进行精准分析。 

Ovis2.5 在复杂图表理解这一长期难题上取得了突破,达到开源领先水平。

背后的技术原理:架构、训练与数据

Ovis2.5整体框架

Ovis2.5 的卓越表现并非偶然,而是来自架构、训练与数据三方面的系统性创新。

模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。

训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。

数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。

性能和效果展示

Ovis2.5-9B和Ovis2.5-2B在主流多模态评测套件 OpenCompass 上均取得了同等尺寸模型的最优性能:

同时,Ovis2.5-9B在多个数学和科学推理、OCR和图表分析等基准测试上也展现出优异表现:

Case展示

Case 1:Capability 知识Image

Prompt

这是哪里?哪首诗与其相关?

Response

...这张照片展现的是 杭州西湖 的经典景致,画面中大片盛开的荷花、荷叶,以及背景中的石桥与远山,是西湖标志性的自然与人文景观。

与其相关的诗歌 

西湖自古就是文人墨客吟咏的对象,其中最贴合“荷塘盛景”的经典诗句,来自南宋诗人杨万里的《晓出净慈寺送林子方》接天莲叶无穷碧,映日荷花别样红这首诗以“接天莲叶”“映日荷花”精准描绘了西湖夏日荷塘的繁茂与绚烂,与照片中“满池荷叶、点缀荷花”的景象高度契合。此外,北宋文学家苏轼的《饮湖上初晴后雨》也常被用来赞美西湖之美:欲把西湖比西子,淡妆浓抹总相宜虽未直接聚焦“荷塘”,但整体意象(西湖如美人、景致秀丽)也与西湖的诗意气质相通。

这些诗歌让西湖的自然风物与文化意蕴交织,成为中华诗词中最具代表性的意象之一。

Case 2:Capability OCRPrompt

提取货款费用、快递内容、追踪号、详细发货人地址、详细收货人地址,并以JSON格式返回

Response

<think>...</think>{  "货款费用": "110元",  "快递内容": "重要文件83",  "追踪号": "1390670676823",  "发货人地址": "北京市朝阳区光华路50号",  "收货人地址": "浙江省杭州市余杭区阿里巴巴西溪园区C1小邮局"}Case 3:Capability 图表Prompt

在“教育和健康服务”类别中,教育部分所占的百分比是多少?

Response

Case 4:Capability 推理Prompt

求解此题。

Response

Case 5:Capability 定位(备注:图中红框用于可视化模型输出,并非原始输入图像的一部分)

Prompt

定位飞机,输出坐标。

Response

(0.612,0.083),(0.629,0.107)

本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阿里 Ovis2.5 多模态大模型 原生分辨率视觉感知 深度推理 复杂图表理解
相关文章