index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
阿里国际发布新一代多模态大模型Ovis2.5,针对原生分辨率视觉感知、深度推理与高性价比场景设计。在OpenCompass评测套件上综合得分提升,保持SOTA水平。Ovis2.5-9B和Ovis2.5-2B两个版本开源,分别适用于不同参数规模和场景需求。模型核心进化包括原生分辨率视觉感知、深度推理机制和复杂图表理解能力提升,在多个基准测试和实际应用场景中展现领先性能。
🔍 原生分辨率视觉感知:Ovis2.5集成了动态分辨率视觉编码器(NaViT),可直接处理任意原生分辨率图像,完整捕捉图像结构和细节信息,为复杂场景下的深度推理奠定基础。
💭 深度推理:Ovis2.5融入长链思考训练,包含自我检查与修正环节,提升模型在数学、复杂图表等高难度任务中的准确率。用户可选择开启「思考模式」,在延迟与精度间灵活权衡。
📊 攻克复杂图表:Ovis2.5从数据端、视觉端和推理端三个层面优化复杂图表理解能力,新增海量高质量图表、OCR、Grounding数据,并结合原生分辨率编码器和深度思考能力,实现精准分析。
🏗️ 模型架构:Ovis2.5延续Ovis系列创新的结构化嵌入对齐设计,由动态分辨率ViT、Ovis视觉词表模块和Qwen3语言基座构成,高效提取视觉特征并处理多模态嵌入。
📚 训练与数据:Ovis2.5采用更精细的五阶段训练范式,并增加50%的数据规模,重点聚焦视觉推理、图表、OCR、Grounding等方向,合成大量与Qwen3深度适配的「思考」数据,激发模型反思与推理潜能。
Hugging Face 2025-08-26 21:30 法国

阿里国际正式发布新一代多模态大模型Ovis2.5。Ovis2.5 是一款面向原生分辨率视觉感知、深度推理与高性价比场景设计的多模态大模型。在主流多模态评测套件 OpenCompass 上的综合得分相较 Ovis2 进一步提升,并在同类开源模型中继续保持 SOTA 水平。此外,凭借原生分辨率视觉感知与反思式思维能力的协同升级,在小模型尺寸下实现了性能与效率的双重突破。无论是在通用多模态基准,还是在复杂图表理解与 OCR 等实际应用场景,Ovis2.5 均展现出领先的理解与推理能力。
本次开源包含两个版本:Ovis2.5-9B:OpenCompass综合得分 78.3,超越众多更大参数量的模型,在40B以下参数规模的开源模型中排名第一。
Ovis2.5-2B:OpenCompass综合得分73.9,延续了Ovis系列“小身板,大能量”的理念,在同尺寸模型中性能显著领先,是端侧和资源受限场景的理想选择。
Ovis2.5-9B在多个benchmark上取得了同尺寸开源最佳性能,Ovis2.5-2B也表现优异代码:https://github.com/AIDC-AI/Ovis模型: https://huggingface.co/AIDC-AI/Ovis2.5-2B https://huggingface.co/AIDC-AI/Ovis2.5-9BDemo: https://huggingface.co/spaces/AIDC-AI/Ovis2.5-2B https://huggingface.co/spaces/AIDC-AI/Ovis2.5-9B技术报告:
https://arxiv.org/abs/2508.11737Ovis2.5 的三大核心进化
Ovis2.5 的性能提升,来自于原生分辨率视觉感知、深度推理机制与复杂图表理解三方面的系统性突破。1. 原生分辨率视觉感知在 Ovis2 及早期版本中,高分辨率图片需要通过“切图-拼接”处理,这往往导致整体结构与细节信息的损失,尤其在图表、文档和精细场景中表现尤为明显。 为解决这一问题,Ovis2.5 集成了动态分辨率视觉编码器(NaViT),能够直接处理任意原生分辨率的图像,让模型真正做到“完整看图”。无论是宏观布局还是微小文字细节,都能精准捕捉,为复杂场景下的深度推理奠定坚实基础。2. 深度推理「思考模式」为提升深度推理能力,Ovis2.5 融入了包含自我检查与修正环节的长链思考训练,使模型能够在解决问题时进行自我反思。 在推理时,用户可以选择开启「思考模式」:模型会生成中间步骤,主动检视并修正推理过程,从而在数学、复杂图表等高难度任务中获得更高的准确率。这一机制提供了延迟与精度的灵活权衡,用户可根据需求自由切换。3. 攻克复杂图表难题:三位一体优化复杂图表理解一直是多模态领域的“硬骨头”,大量噪声和密集的视觉信息给模型带来了巨大挑战。Ovis2.5针对这一痛点,从三个层面进行了系统性增强: 数据端:新增了海量高质量的图表、OCR、Grounding数据。
视觉端:利用原生分辨率编码器,准确全面地理解图表中的元素。
推理端:结合深度思考能力,对图表中的数据和逻辑关系进行精准分析。
Ovis2.5 在复杂图表理解这一长期难题上取得了突破,达到开源领先水平。背后的技术原理:架构、训练与数据

Ovis2.5整体框架
Ovis2.5 的卓越表现并非偶然,而是来自架构、训练与数据三方面的系统性创新。模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。性能和效果展示
Ovis2.5-9B和Ovis2.5-2B在主流多模态评测套件 OpenCompass 上均取得了同等尺寸模型的最优性能:
同时,Ovis2.5-9B在多个数学和科学推理、OCR和图表分析等基准测试上也展现出优异表现:

Case展示
Case 1:Capability 知识Image
Prompt这是哪里?哪首诗与其相关?Response...这张照片展现的是 杭州西湖 的经典景致,画面中大片盛开的荷花、荷叶,以及背景中的石桥与远山,是西湖标志性的自然与人文景观。
与其相关的诗歌 西湖自古就是文人墨客吟咏的对象,其中最贴合“荷塘盛景”的经典诗句,来自南宋诗人杨万里的《晓出净慈寺送林子方》:
接天莲叶无穷碧,映日荷花别样红这首诗以“接天莲叶”“映日荷花”精准描绘了西湖夏日荷塘的繁茂与绚烂,与照片中“满池荷叶、点缀荷花”的景象高度契合。此外,北宋文学家苏轼的《饮湖上初晴后雨》也常被用来赞美西湖之美:
欲把西湖比西子,淡妆浓抹总相宜虽未直接聚焦“荷塘”,但整体意象(西湖如美人、景致秀丽)也与西湖的诗意气质相通。这些诗歌让西湖的自然风物与文化意蕴交织,成为中华诗词中最具代表性的意象之一。Case 2:Capability OCR
Prompt提取货款费用、快递内容、追踪号、详细发货人地址、详细收货人地址,并以JSON格式返回Response<think>...</think>{ "货款费用": "110元", "快递内容": "重要文件83", "追踪号": "1390670676823", "发货人地址": "北京市朝阳区光华路50号", "收货人地址": "浙江省杭州市余杭区阿里巴巴西溪园区C1小邮局"}Case 3:Capability 图表
Prompt在“教育和健康服务”类别中,教育部分所占的百分比是多少?Response
Case 4:Capability 推理
Prompt求解此题。Response
Case 5:Capability 定位(备注:图中红框用于可视化模型输出,并非原始输入图像的一部分)Prompt定位飞机,输出坐标。Response(0.612,0.083),(0.629,0.107) 本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号
如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao
阅读原文
跳转微信打开