DeepSeek-OCR：视觉压缩革新长文本处理

原创池建强 2025-10-24 14:09 北京

10 月海外 AI 圈热闹非凡，Google 在 AI Studio 推出了 AI Coding 构建 App 的功能，Claude Code 推出了 Web 版，Claude 推出了桌面版，Gemini 3.0蠢蠢欲动，Dia 发布了 1.0，Open AI 发布了视频 App Sora，推出了自己的浏览器 Atlas……

国内大厂好像一股脑在国庆长假前把产品发完了，最近几周的新发布不多，比较有吸引力的是 DeepSeek-OCR。事实上 DeepSeek 还是很有影响力的，无论发什么都能引发讨论，不过这次很多媒体直接根据名字误读了这个产品，以为是 AI 技术在光学字符识别（OCR）工具上的创新，其实人家是个创新的视觉语言模型（VLM）。

了解这种产品最好的方法是去读产品的论文，DeepSeek 团队的学术素养极高，论文写的清晰易懂，我都能读明白。

DeepSeek-OCR 显然不是简单的“文字识别工具”，而是一个为“大文档／长上下文／表格＋图表＋文字混合”场景优化的“视觉压缩＋识别”系统。

比如有一篇 100 页的长文档，靠常规方法去读，需要耗费 AI 大量的 Token。现在的大模型系统都有个难题，随着交互次数增多，上下文会越来越多，输入长度一翻倍，计算量就会飙升，如果你有过和 AI 多轮会话的经历，就会发现 AI 越到后面越不靠谱，不如新开一个 Chat。

这就是所谓“上下文长度难题”——模型记住太多字了，这简直要命。有没有办法不靠无限加长序列窗口，就能让 AI 高效的“过目不忘”呢？

DeepSeek 的答案是：别让 AI 逐字念经了，干脆给它看图。把长文本变成一张图片，再让模型看图识字，如此一来，同样信息量可以用远少于文本的 token 表示。俗话说“一图抵千言”，DeepSeek-OCR 正是要验证这话在 AI 上下文压缩上的真实性能。

DeepSeek 以前搞过通用视觉模型。这回他们盯上了 OCR，但做的是“视觉压缩长文本”的难题。OCR 天生就是视觉到文本的映射，有明确的“压缩-解压”评价标准，很适合作为试验田。DeepSeek-OCR 的诞生源于一个朴素却深刻的想法：“一张 A4 纸上的一千字，如果拍成图再喂给大模型，能不能又快又准还省内存呢？”

这个脑洞听着离经叛道，却击中了痛点——毕竟咱们人眼一扫，一页纸内容就能尽收眼底，AI 凭啥不行？

说起来容易做起来难。把文字变图再变回文字，中间的信息损耗和模型挑战可想而知。过去传统 OCR 都是流水线：先检测文字块，再逐行识别，像工厂作业一样。后来有了端到端 OCR 模型，比如百度的开源产品 PaddleOCR，可以直接图片进、文本出。DeepSeek 想走出一条新路：让较小的多模态模型以极高效率完成文档理解，既保证准确率，又大幅减少计算开销。

DeepSeek-OCR 的架构很有新意：它不是简单地照搬现成的视觉 Transformer，而是定制了一套“两段式”编码器。如上图所示，首先 DeepEncoder 作为视觉“压缩引擎”，由 SAM-base 和 CLIP-large 两大模块串联组成，中间加了一个 16 倍下采样的卷积“漏斗”。

这种设计有点像“望远镜”：先用轻量级的 SAM 模块（80M 参数）做局部窗口注意力，相当于前端镜头，扫描图像细节；然后经过卷积层把图像特征 map 压缩 16 倍，token 数量猛降，如 1024×1024 分辨率能从 4096 个 patch 压到 256 个；最后把浓缩后的视觉 token 交给重型的 CLIP 编码器提取全局语义（300M 参数）。整个过程既保证了高分辨输入下不会“耗尽显存”，又尽量减少了后续需要处理的 token 数量。可以说，DeepEncoder 一手抓细节一手抓全局，中间用卷积桥梁把信息“挤一挤水分”，让视觉表示既精准又精简。

接下来登场的是 DeepSeek-3B-MoE 解码器，这是一个 3 亿激活参数规模的稀疏专家模型（总参数 3B，但每次只激活部分专家）。它就像图中的“大脑”，负责把 DeepEncoder 输出的视觉 token 序列翻译回文本。MoE 的好处是在保证模型表达能力的同时显著降低推理计算：只有 6 个专家（共约 5.7 亿参数）参与每个 token 的推理。因此，虽然总参数上亿，但推理时相当于只有几亿参数在跑，小模型的开销，大模型的智慧。

这一编码 + 解码组合让 DeepSeek-OCR 成为端到端 OCR：输入整页图像，直接输出完整结构化文本，比传统 OCR 的“检测-识别”流水线简单利落，也避免了多步骤误差累积。

更妙的是，DeepSeek-OCR 设计了多分辨率模式。并不是每张文档都得用最高规格处理——文字少的页只需“小图模式”就够，文字密集复杂的才用“大图模式”。

例如模型定义了 Tiny/Small/Base/Large 四档：分别对应图片缩放到 512、640、1024、1280 宽高，产生 64、100、256、400 个视觉 token。如果一页内容特别多，还有所谓 Gundam 模式，将页面切块组合处理，相当于局部高精度 + 整体低精度并用，既兼顾细节又照顾全局。通过位置编码插值等技术，DeepEncoder 能够在一个模型里兼容不同分辨率训练和推理。这种灵活性让开发者可以按需权衡精度与速度：文字少就快马加鞭，文字多就稳扎稳打。传统 OCR 要做到这点很麻烦，而 DeepSeek-OCR 只需切换模式即可，非常实用。

DeepSeek-OCR 不仅自身架构新颖，在训练上也很有讲究。

它采用“两步走”策略：第一步先训练编码器 DeepEncoder。DeepSeek 借鉴了 OpenAI CLIP 等的做法，用了海量的图文对来训练编码器的“视觉词汇”能力。这里面既有 30 万页真实 PDF 生成的图文数据（覆盖 100 种语言，还对中英 2M 页做了精标注，包括检测框和识别文本一起作为监督）；也有各种 OCR 2.0 合成数据，比如 1000 万张图表、500 万张化学式、100 万张几何图形等，让编码器学会读取不同类型非纯文字内容；另外还有从 LAION 挑的 1 亿张一般图像作辅助，确保编码器不“只认字不认图”而保留一定通用视觉能力。

训练目标很简单，就是给定图像预测下一个 token（语言模型式训练），这样 DeepEncoder 学会把图像内容映射到对的文本 token 序列上。

第二步是端到端训练整个 DeepSeek-OCR 模型，把解码器也加进来一起学。此时数据除了之前的 OCR 图文，还混入了 10% 纯文本数据，避免模型只会照图说话，不会正常语言表达。

为了让训练保持稳定，DeepSeek 冻结了 DeepEncoder 的一部分：将 DeepEncoder 前面的 SAM 模块和卷积压缩层固定参数不训练，只训练后面的 CLIP 部分和整个解码器。这样做类似“锁住眼睛，只训练大脑”，因为前半部分视觉提取已经在第一阶段学得不错了，固定它可以防止端到端训练时过度调优破坏视觉底层特征，同时节省算力。

这一系列精妙的训练套路，再加上 20 台 8×A100 GPU 的算力，使得 DeepSeek-OCR 模型成功收敛，掌握了“看图压缩/解压长文”的本领。

值得一提的是，DeepSeek-OCR 在模型体量上并不算夸张：编码器 3.8 亿，解码器激活 5.7 亿，总共十亿级别，比那些动画模型（InternVL 76B、Qwen-VL 72B 等）小了一个量级。这使它推理起来相当轻快，加上视觉 token 又少，DeepSeek 称一张 40G 显存 A100 卡一天能处理 20 万页文档。

这已经远远超过了常规的开源 OCR 的能力：一次只能识别一个文本框，处理整页需要遍历所有行块，遇到复杂版面就会很耗时。

DeepSeek-OCR 则是端到端看整页，充分利用 Transformer 全局并行优势，推理效率更高。

DeepSeek-OCR 聚焦文档解析，专门优化了视觉 token 压缩，在保证精度的同时把输入长度降到极低，这对实际部署意义重大。

DeepSeek-OCR 走的是 “少而精” 路线，用尽量少的视觉 token 支撑起强大的 OCR 能力。这在技术路径上与过去追求大模型、大特征图的思路截然不同。

实际效果如何呢？这是 DeepSeek-OCR 的成绩单。

上图 (a) 展示了在 Fox 基准上的压缩实验：横轴是压缩率（文本 token 数/视觉 token 数），纵轴是 OCR 精度（编辑距离计算精度）。可以看到，当压缩率在 10× 以内时，DeepSeek-OCR 的精度基本保持在 97% 以上，几乎跟无损一样；即使压到 20× 那么极致，精度也有六成左右，考虑到压缩掉 95% 的信息量，这已经很夸张了。图 (b) 则对比了 OmniDocBench 文档解析任务的综合性能。

DeepSeek-OCR（几种模式）在编辑距离指标上达到当前端到端 OCR 模型的最好水平，尤其令人瞩目的是，它用的视觉 token 远少于别的模型。

例如，相当于“Small 模式”的 DeepSeek-OCR 只用 100 个 token，就比需要 256 token 的 GOT-OCR2.0 还准；再开“大模式”400 token，效果追平甚至略超一些传统 OCR pipeline 方法，但输入长度却小几个数量级（例如相比 MinerU 2.0 平均 6000+ token，它用不到 800）。

换言之，DeepSeek-OCR 做到了“用最少的眼睛读最多的书”。更难得的是，它不仅读得准，还读得“深”：一般 OCR 遇到文档里夹杂的图表、公式往往无能为力，DeepSeek-OCR 因为在训练中见过这类数据，生成文本时可以直接输出结构化结果。

例如它能识别金融报告里的柱状图，把数据变成 HTML 表格；看见化学分子结构图，吐出对应的 SMILES 字符串；甚至对论文里的几何示意图也能解析出关键点和线段关系，生成描述或代码。

上面的例子展示了模型对复杂财经图表的解析：左侧是论文的 PDF 页面含多张图，DeepSeek-OCR 在“转换为 Markdown”指令下，右侧生成了带图表描述和数据表格的结构化结果；下方还示范了对其中柱状图的深度解析，模型不仅检测出图中各元素，还列出了数值表格和标注，使机器读懂图表内容成为可能。这样的“图文混合”能力，正是 DeepSeek-OCR 相较传统 OCR 的杀手锏之一。

DeepSeek-OCR 给我们带来的启示是多方面的。

首先，它证明了视觉作为压缩介质的可行性：原本几千字才能描述的信息，可以压成一张图让模型去“看”，而且几乎不损失精度。这对于解决大模型长上下文问题是一个全新思路。过去大家绞尽脑汁扩展 Attention 窗口，不如退一步，用视觉编码来 “曲线救国”。

想象未来的 LLM 有了视觉模块后，可以把之前聊天的长篇对话偷偷压成图片嵌入，这样既节省内存又实现了类似人类“模糊记忆”的效果：新内容清晰保留，旧内容逐渐压缩变模糊。

DeepSeek-OCR 展示了 AI 用这种能力来自我压缩记忆的潜力，有些“让 AI 用人的方式记忆”的意味。

其次，DeepSeek-OCR 对于 OCR 行业本身也是重大突破。长期以来，OCR 都是管中窥豹式的：该技术能识别单词行，但难以理解整页的版面和内容。DeepSeek-OCR 作为统一模型，不但完成识别，还输出了结构化结果和版面理解（表格、标题、图注等）。这使其有望成为文档 AI 的多面手。

开发者只需一个 DeepSeek-OCR，就能取代过去流水线中的版面分析、文字识别、表格解析、公式识别、图像说明等多个模块。

对于创业者，这意味着构建智能文档处理系统的门槛降低：开源模型拿来微调部署，即可做成通用文档数智化服务，应用于金融报告解析、合同要点提取、试卷阅卷等各种场景。而且模型开源 MIT 协议，数据和代码都公开透明，可商用可定制，这在 OCR 领域也是难得的机会。

再一次，DeepSeek-OCR 体现了小而精模型在特定任务上的竞争力。以前大家觉得“模型越大效果越好”，但 DeepSeek 团队用不到 10 亿的体量，实现了媲美上百亿模型的文档理解能力，还顺带碾压了传统 OCR 方案。这给我们的启发是：问题导向的创新往往比盲目堆砌参数更有效。如果明确目标是高效 OCR，那就应围绕“如何更高效”做文章——比如减少视觉 token、压缩中间表示——而不是简单增加模型宽度和深度。DeepSeek-OCR 正是抓住了 OCR 的独特结构（视觉-文本天然对应）进行优化，取得事半功倍的效果。

喔，终于写完了，这篇文章耗时几天，不过写到最后还是挺痛快的。DeepSeek 这家公司不仅技术扎实，创新能力也强，几乎每个发布的产品都有巨大的工业价值，给我们这些创业者很多启发。

这篇内容比较多，查了很多资料，如有错误，欢迎指出：）

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签