孔某人的低维认知 前天 23:00
OCR模型效率与文本表示的再思考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文对DeepSeek-OCR模型的技术报告进行了分析,指出其与最新OCR模型的对比数据不完整,且压缩率指标的计算方式存在不公平之处。文章探讨了视觉token与文本token的本质区别,并提出DeepSeek-OCR并非突破性创新,Gemini模型也采用了类似的视觉token处理方式。作者进一步强调,当前文本token作为中间表示存在瓶颈,未能充分利用LLM模型的能力,并提出应重新审视和设计文本tokenizer,以提高信息表示密度,降低计算成本,并暗示了其他可能的文本表示方案。

📊 **模型对比与压缩率指标的局限性**:DeepSeek-OCR的论文对比数据仅包含MinerU 2.0,未能与最新的MinerU 2.5及其他前沿OCR模型进行比较,因此其“登顶”的说法有待商榷。此外,文章指出,将视觉token(连续的1280维embedding)与文本token(离散的整数)直接比较压缩率是不公平的,因为两者本质不同,视觉token的“压缩”更像是维度转换,而非真正的压缩。

💡 **文本Token的瓶颈与LLM潜力**:文章核心观点之一是,当前的文本token作为LLM的中间表示,未能充分发挥模型预留的表示能力。这导致了输入和输出效率的低下。作者认为,创造信息密度更高的tokenizer方案,能够更充分地利用LLM的表示能力,从而降低计算成本。

🖼️ **图像作为中间表示的意义与替代方案**:虽然DeepSeek-OCR的图像作为中间表示可能并非突破,但它提示了文本token作为中间表示的瓶颈。对于PDF、扫描件等数据源,图像表示可以直接处理。文章还提出了一个替代方案:将连续的16个文本token作为一个chunk,并加入8个token的overlap,使用LSTM聚合输出一个embedding,实现16:1的压缩率,证明了非图像的文本表示压缩也是可行的。

🚀 **呼吁重新审视传统Tokenizer设计**:基于以上分析,文章最后呼吁对现有的、已沿用多年的文本tokenizer设计进行重新审视。旧的tokenizer在输入和输出效率上都存在不足,是时候探索更高效、信息密度更高的表示方法,以适应当前大型语言模型的发展需求。

原创 孔某人 2025-10-22 00:43 北京

又一个被媒体抬高的工作

其实本来没想说特地评论这个模型,但到现在其实各种分析也都攒得七七八八了,就来凑数一篇模型层相关话题的文章。

https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

https://huggingface.co/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR的效果

首先DeepSeek OCR论文上跟其他OCR的对比结果,只有跟MinerU 2.0的,没有跟最新的MinerU 2.5比。也没有跟其他最新的OCR模型来比。所以还不能说DeepSeek-OCR已经登顶,或者说目前来看大概率没有登顶。

另外对于文章中着重提到的压缩率问题。该方案的准确率标准是较为严格的,是整页全部正确的比例。但压缩率的指标其实不是很公平。视觉token和文本token其实是很不同的,文本token就是一个几十万~几百万水平的整数,经过embedding之后也仍然只是几十万到几百万的独立向量值。但该方案的视觉token并没有经过离散化过程,而是直接投影到1280维内部表示的,相当于是个1280维的embedding,如果统计视觉token embedding取值的分布,你会发现它是连续分布,有非常多的取值。所以两者虽然维度一样,但本质完全不同。从1维整数的表示到1280维浮点数表示,压缩率10-20x,是不是听起来就正常了很多?甚至会觉得就这?DeepSeek-OCR并没有创造奇迹。

如果你用Gemini模型,输入PDF,你会发现它计算token的方式是每页258个token。说明Gemini其实也是使用了这样视觉token的方式,当然实际上Gemini是全模态的模型,它支持文本和图片token,而不限于它们。当然从一些看到的测试来看,Gemini模型对于中文字符的支持并没有英文那么好。在专门训练的角度来说Gemini 2.5系列模型仍然对于非英语字符有些欠训练。

视觉Tokenizer给我们的启示

当然把文本转成图片再进行tokenize也并不是一无是处。你认真琢磨这个方案和它的效果,你会认识到目前文本token作为一个中间表示的瓶颈。目前的文本token并不能充分地利用LLM模型内部给每个token预留的表示能力。

从这个角度上来说,我们创造一种能够更加充分利用LLM模型对于token表示能力的tokenizer可能是有益的。特别是token的数量直接关联到LLM模型的计算成本,换用一种信息表示密度更高的tokenizer方案至少可以降低计算成本。

但这并非非要通过图片作为中间表示,只是图像作为中间表示适合于一些这方面的数据源,例如文件的扫描件、PDF文件等,模型变得可以直接处理它们。

这里简单抛一个其他表示方案的baseline:把连续的16个token的文本作为一个chunk,再向前padding之前的8个token做overlap,使用一个LSTM结构进行处理,聚合输出为一个embedding表示。这个方式也可以把文本token压缩为一个更高密度的表示,压缩率16:1。

所以其实目前到了一个应该重新review我们上古的文本tokenizer设计的时候了。旧的tokenizer不止输入上的效率不高,输出也是按token来的,效率其实更低。

结语

整体上,我对这个工作技术报告的OCR之外的部分,感觉是噱头成分较高的,相对于DeepSeek的其他工作来说。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024

本文于2025.10.22 首发于微信公众号。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-OCR OCR 文本表示 LLM Tokenizer 模型效率 人工智能 计算机视觉 DeepSeek-OCR OCR Text Representation LLM Tokenizer Model Efficiency Artificial Intelligence Computer Vision
相关文章