我爱计算机视觉 09月25日
OCRBench v2榜单揭示大模型OCR能力现状
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华中科技大学白翔团队联合多方发布新一代OCR评测基准OCRBench v2及最新榜单。榜单显示,Seed1.6-vision、Qwen3-Omni-30B-A3B-Instruct和Gemini-2.5-Pro位列中英榜单前三,但即便是顶尖模型,平均得分也仅达及格线,表明现有LMMs在复杂OCR任务上仍有提升空间。OCRBench v2覆盖23种细分任务,细化为8个核心能力维度,旨在更全面地评估模型在文本定位、关系抽取、知识推理等方面的真实表现。榜单结果反映出,国产模型进步迅速,开源模型竞争力增强,但多数模型存在“偏科”现象,尤其在细粒度空间感知和结构化理解任务上得分偏低,多语言能力均衡性也待提升。

📊 **OCRBench v2全面评估LMMs OCR能力**:该新一代评测基准旨在超越传统OCR任务,涵盖文本定位、复杂场景理解与推理等23种细分任务,并划分为文本识别、文本定位、关系抽取、知识推理等8个核心能力维度,以更真实地反映LMMs在多样化真实应用场景下的表现。

🏆 **顶尖模型仍有提升空间,国产与开源模型竞争力显著**:尽管Seed1.6-vision、Qwen3-Omni-30B-A3B-Instruct和Gemini-2.5-Pro在榜单中名列前茅,但其平均分仅接近及格线。同时,国产模型如Seed1.6-vision表现突出,开源模型如Qwen-Omni系列也展现了强大的竞争力,部分开源模型已进入英文和中文榜单前十。

⚠️ **LMMs普遍存在“偏科”现象,细粒度理解是短板**:多数LMMs在文本识别基础任务上表现尚可,但在文本定位、文本检测识别和元素解析等需要精细空间感知和结构化理解的任务上得分普遍较低。此外,模型的多语言能力发展不均衡,部分模型在特定语言场景下表现更优。

🚀 **OCRBench v2整合至权威评测平台,推动领域发展**:OCRBench v2已收录于NeurIPS 2025(Datasets and Benchmarks Track),并集成到LMM-eval和VLMEvalKit等权威LMMs测评平台,为研究社区提供了一个标准化的评估工具,以持续追踪LMMs在OCR领域的最新进展。

原创 52CV 2025-09-25 00:02 江苏

尽管闭源模型保持领先,但优秀开源模型已具备强大竞争力

导读:现有多模态大模型(LMMs)在复杂多样的OCR任务中表现如何?华中科技大学白翔团队联合华南理工大学、阿德莱德大学和字节跳动联合推出新一代OCR评测基准OCRBench v2,并发布最新私有数据榜单(2025年9月)。

Seed1.6-vision、Qwen3-Omni-30B-A3B-Instruct和Gemini-2.5-Pro包揽了中英榜单前三名,但即便是这些最先进的模型,其平均分也仅勉强达到“60分”的及格线,这表明它们仍难以完全满足复杂多样的真实应用需求。

最新榜单发布

OCRBench v2榜单测试范围广泛,囊括了从2023年至2025年间的全球58个主流LMMs。其中既有来自谷歌(Gemini 2.5 Pro)、字节跳动(Seed1.6-vision)、OpenAI(GPT-5)的闭源模型,也有来自阿里巴巴(Qwen-VL)、上海人工智能实验室(InternVL)的优秀开源LMMs,可以看到LMMs在OCR任务上的表现有着显著进步。

与此同时,榜单还给出了LMMs在文本定位、知识推理等8个核心能力维度的细分指标,直观量化了模型在各类应用场景上的真实表现。此外,榜单也受到了包括NVIDIA等前沿研究团队的重视,并进行了深度测评合作。

榜单将按季度更新,持续追踪领域的前沿进展。最新榜单结果如下:

图1 OCRBench v2私有数据英文榜单(25年9月)图2 OCRBench v2私有数据中文榜单(25年9月)什么是OCRBench v2?

以往针对LMMs的OCR评测基准主要关注基础的文字识别任务,但随着大模型的普及,现实世界的OCR需求已超越简单的“读出文字”。文档中的表格、图表、手写笔记、复杂的版式,文字图像的文本定位,以及基于文本的推理,都是LMMs面临的挑战。

然而,现有评测基准大多任务单一、场景有限,导致模型得分迅速饱和,难以真实反映其在复杂应用中的能力。为此,OCRBench v2旨在提出一个综合全面的OCR测评基准,评估LMMs在面对文字定位、复杂场景理解与推理等广泛OCR任务时的真实表现。

OCRBench v2涵盖23种细分任务,图3展示了这些任务的典型样例,覆盖了实际应用中常见的OCR需求场景。OCRBench v2将这些任务精心划分为8个核心能力维度:文本识别、文本定位、文本检测识别、关系抽取、元素解析、数学计算、视觉文本理解和知识推理。评价榜单中分别展示了模型在各个能力维度上的具体表现。

OCRBench v2的公开数据集包含来自80余个学术数据集及部分自有数据的1万条高质量QA,并经过人工审核,确保覆盖真实OCR应用中的多样化场景。

此外,OCRBench v2还包括了独立的私有数据,这部分数据包含人工采集并标注的1500条QA,其任务设置和场景覆盖范围均与公开数据保持一致。

实验发现,公开数据与私有数据榜单排名具有较高的一致性(详见论文分析),这证明了OCRBench v2任务设计、数据构造和评价指标的合理性,体现了其在衡量LMMs现有局限方面的重要价值。

图3 OCRBench v2涵盖任务的典型样例榜单深度解析

观察表格可见,国产大模型正在快速进步。国产模型首次登顶OCRBench v2榜单,Seed1.6-vision超越Gemini-2.5-Pro等顶尖商用模型,获英文榜冠军、中文榜亚军。

而开源阵营中,Qwen3-Omni-30B-A3B-Instruct分别取得英文榜第二名和中文榜第三名的好成绩,此外,InternVL、Qwen-VL、SAIL-VL、Ovis等系列国产模型也表现突出,与顶尖模型差距不大。

通过分析模型的各项核心能力表现可以发现,LMMs普遍存在“偏科”现象,没有一个模型能在所有核心能力上都表现出色,即便是排名靠前的模型,在英文和中文任务中的平均分也仅约为 60分(满分100)。

此外,各个模型的擅长方面也略有不同,例如Gemini-2.5-Pro等商用模型在计算类题目上,具有明显优势,展示出其强大逻辑推理能力;Llama-3.1-Nemotron-Nano-VL-8B-V1则凭借其强大的文字定位能力,取得英文榜单第四名的成绩。而大多数模型在基础的文本识别上表现尚可,但在文本定位(Referring)、文本检测识别(Spotting)和元素解析(Parsing)等对细粒度空间感知与结构化理解要求高的任务上,得分普遍偏低。例如,即使是榜单冠军Seed1.6-vision,在Spotting得分也仅为38.0,这也限制了其在场景文字、图文混杂文档等真实场景下的应用效果。

此外,通过对比中英文榜单,可以发现许多模型的多语言能力并不均衡。例如Llama-3.1-Nemotron-Nano-VL-8B-V1在英文榜单上高居第四名(平均分56.4),但在中文榜单上仅排第31名(平均分40.1),显示其在英文场景更具优势,这可能与数据分布或训练策略相关。相对地,中文榜单前10名中,有8个国产模型,体现了国产模型在中文理解方面具有一定优势。

与此同时,尽管闭源模型保持领先,但优秀开源模型已具备强大竞争力。从榜单来看,Gemini系列、GPT5、Seed1.6-vision等闭源模型的整体性能更胜一筹,但Qwen-Omni、InternVL、SAIL-VL、Ovis等系列的开源模型已具备强劲竞争力,英文榜单前10的模型中有5个为开源模型,而中文榜单前10的模型中,有7个为开源模型。开源模型在诸如文字定位、元素提取、视觉文字理解等类型任务上也能够达到顶尖水平。

OCRBench v2现已收录于NeurIPS 2025(Datasets and Benchmarks Track)。OCR能力已成为LMMs在处理实际应用时的“识别+理解+推理”一体化能力的重要组成部分,因此,端到端地评测各类文字相关的任务,才能够更真实反映LMMs在富文本场景中的实际表现。

此外,OCRBench v2已集成到LMM-eval(https://github.com/EvolvingLMMs-Lab/lmms-eval)和VLMEvalKit(https://github.com/open-compass/VLMEvalKit)等权威LMMs测评平台,帮助社区研究者快速完成评测与结果对比。

OCRBench v2的前作OCRBench是首个大规模的文字大模型评测基准,自发布以来就有着广泛的社区影响力,被图灵奖得主Yann LeCun(Cambrian-1,NIPS 2024 Oral)、Serge Belongie等知名学者引用,并被收录于司南、LMMs-Eval等多个权威评测榜单,全球研究团队访问使用超过11万次。

未来展望

该工作展示了现有LMMs在复杂多样的OCR任务上的表现,但值得一提的是,目前该数据集的研究对象仍未涵盖多页、多文档、长视频等超长文字内容数据,这类数据更加考验模型的长上下文理解能力。此外,当前工作未纳入交互式智能体任务,这类任务衡量模型在网页或APP等富文本交互环境中,主动对任务进行分解与执行的能力。

与此同时,后续评估工作也应考量模型的可解释性,帮助衡量模型在输出视觉证据、展现完整推理链条,和表达不确定性等方面的能力,以提升模型在决策过程的可靠性。在全球化的背景下,模型对小语种文字内容的识别与理解能力,也应被视为重要的评价指标。

相关资源:

论文链接 (arXiv):

https://arxiv.org/abs/2501.00321

项目主页 (GitHub):

https://github.com/Yuliang-Liu/MultimodalOCR

OCRBench v2私有数据榜单:

https://99franklin.github.io/ocrbench_v2

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OCRBench v2 多模态大模型 LMMs OCR 人工智能 评测基准 文本识别 文本定位 知识推理 国产模型 开源模型 OCRBench v2 Large Multimodal Models LMMs OCR Artificial Intelligence Benchmark Text Recognition Text Localization Knowledge Reasoning Domestic Models Open-Source Models
相关文章