MacTalk - 微信公众号 前天 17:23
DeepSeek-OCR:视觉压缩革新长文本处理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-OCR并非传统的文字识别工具,而是创新的视觉语言模型(VLM),专为“大文档/长上下文/表格+图表+文字混合”场景优化。它通过将长文本转化为图像,再进行识别,大幅减少AI处理所需的Token数量,有效解决了大模型“上下文长度难题”。其“两段式”编码器设计,先通过SAM和CLIP模块进行视觉压缩,再由DeepSeek-3B-MoE解码器输出文本,实现了端到端的高效识别。该模型支持多分辨率模式,并经过精心训练,在保持高精度的同时,大幅降低计算开销,为智能文档处理提供了新思路。

💡 **视觉压缩解决长上下文难题**:DeepSeek-OCR创新性地将长文本内容转化为图像,让AI通过“看图识字”来处理,而非逐字逐句阅读。这种方法显著减少了AI处理所需的Token数量,有效缓解了大型模型在处理长文本时面临的“上下文长度难题”,使得AI能够更高效地“过目不忘”,而非因信息过载而性能下降。

⚙️ **创新的“两段式”编码器架构**:该模型的核心在于其定制的“两段式”编码器DeepEncoder。它结合了SAM(细节扫描)和CLIP(全局语义提取)两大模块,中间通过卷积层进行16倍下采样,实现视觉信息的“压缩”。这种设计在保证高分辨率输入下不耗尽显存的同时,大幅减少了后续需要处理的Token数量,兼顾了细节捕捉与全局理解。

🧠 **高效的解码器与多分辨率处理**:模型采用DeepSeek-3B-MoE稀疏专家解码器,在保证强大表达能力的同时,显著降低了推理计算量。此外,DeepSeek-OCR支持多分辨率模式(Tiny/Small/Base/Large)以及Gundam模式,允许用户根据文档内容密度灵活选择处理方式,权衡精度与速度,极大地提升了实际部署的灵活性和效率。

📚 **多场景的深度解析能力**:DeepSeek-OCR不仅能精准识别纯文本,还能处理文档中夹杂的图表、公式、几何图形等复杂内容。通过在训练中引入大量多样化数据,它能够直接输出结构化结果,如将金融报告中的图表数据转化为HTML表格,或将化学分子式表示为SMILES字符串,使其成为文档AI领域的强大通用工具。

原创 池建强 2025-10-24 14:09 北京

10 月海外 AI 圈热闹非凡,Google 在 AI Studio 推出了 AI Coding 构建 App 的功能,Claude Code 推出了 Web 版,Claude 推出了 桌面版,Gemini 3.0蠢蠢欲动,Dia 发布了 1.0,Open AI 发布了视频 App Sora,推出了自己的浏览器 Atlas……

国内大厂好像一股脑在国庆长假前把产品发完了,最近几周的新发布不多,比较有吸引力的是 DeepSeek-OCR。事实上 DeepSeek 还是很有影响力的,无论发什么都能引发讨论,不过这次很多媒体直接根据名字误读了这个产品,以为是 AI 技术在光学字符识别(OCR)工具上的创新,其实人家是个创新的视觉语言模型(VLM)

了解这种产品最好的方法是去读产品的论文,DeepSeek 团队的学术素养极高,论文写的清晰易懂,我都能读明白。

1

DeepSeek-OCR 显然不是简单的“文字识别工具”,而是一个为“大文档/长上下文/表格+图表+文字混合”场景优化的“视觉压缩+识别”系统。

比如有一篇 100 页的长文档,靠常规方法去读,需要耗费 AI 大量的 Token。现在的大模型系统都有个难题,随着交互次数增多,上下文会越来越多,输入长度一翻倍,计算量就会飙升,如果你有过和 AI 多轮会话的经历,就会发现 AI 越到后面越不靠谱,不如新开一个 Chat。

这就是所谓“上下文长度难题”——模型记住太多字了,这简直要命。有没有办法不靠无限加长序列窗口,就能让 AI 高效的“过目不忘”呢?

DeepSeek 的答案是:别让 AI 逐字念经了,干脆给它看图。把长文本变成一张图片,再让模型看图识字,如此一来,同样信息量可以用远少于文本的 token 表示。俗话说“一图抵千言”,DeepSeek-OCR 正是要验证这话在 AI 上下文压缩上的真实性能。

2

DeepSeek 以前搞过通用视觉模型。这回他们盯上了 OCR,但做的是“视觉压缩长文本”的难题。OCR 天生就是视觉到文本的映射,有明确的“压缩-解压”评价标准,很适合作为试验田。DeepSeek-OCR 的诞生源于一个朴素却深刻的想法:“一张 A4 纸上的一千字,如果拍成图再喂给大模型,能不能又快又准还省内存呢?”

这个脑洞听着离经叛道,却击中了痛点——毕竟咱们人眼一扫,一页纸内容就能尽收眼底,AI 凭啥不行?

说起来容易做起来难。把文字变图再变回文字,中间的信息损耗和模型挑战可想而知。过去传统 OCR 都是流水线:先检测文字块,再逐行识别,像工厂作业一样。后来有了端到端 OCR 模型,比如百度的开源产品 PaddleOCR,可以直接图片进、文本出。DeepSeek 想走出一条新路:让较小的多模态模型以极高效率完成文档理解,既保证准确率,又大幅减少计算开销。

3

DeepSeek-OCR 的架构很有新意:它不是简单地照搬现成的视觉 Transformer,而是定制了一套“两段式”编码器。如上图所示,首先 DeepEncoder 作为视觉“压缩引擎”,由 SAM-base 和 CLIP-large 两大模块串联组成,中间加了一个 16 倍下采样的卷积“漏斗”。

这种设计有点像“望远镜”:先用轻量级的 SAM 模块(80M 参数)做局部窗口注意力,相当于前端镜头,扫描图像细节;然后经过卷积层把图像特征 map 压缩 16 倍,token 数量猛降,如 1024×1024 分辨率能从 4096 个 patch 压到 256 个;最后把浓缩后的视觉 token 交给重型的 CLIP 编码器提取全局语义(300M 参数)。整个过程既保证了高分辨输入下不会“耗尽显存”,又尽量减少了后续需要处理的 token 数量。可以说,DeepEncoder 一手抓细节一手抓全局,中间用卷积桥梁把信息“挤一挤水分”,让视觉表示既精准又精简。

接下来登场的是 DeepSeek-3B-MoE 解码器,这是一个 3 亿激活参数规模的稀疏专家模型(总参数 3B,但每次只激活部分专家)。它就像图中的“大脑”,负责把 DeepEncoder 输出的视觉 token 序列翻译回文本。MoE 的好处是在保证模型表达能力的同时显著降低推理计算:只有 6 个专家(共约 5.7 亿参数)参与每个 token 的推理。因此,虽然总参数上亿,但推理时相当于只有几亿参数在跑,小模型的开销,大模型的智慧。

这一编码 + 解码组合让 DeepSeek-OCR 成为端到端 OCR:输入整页图像,直接输出完整结构化文本,比传统 OCR 的“检测-识别”流水线简单利落,也避免了多步骤误差累积。

更妙的是,DeepSeek-OCR 设计了多分辨率模式。并不是每张文档都得用最高规格处理——文字少的页只需“小图模式”就够,文字密集复杂的才用“大图模式”。

例如模型定义了 Tiny/Small/Base/Large 四档:分别对应图片缩放到 512、640、1024、1280 宽高,产生 64、100、256、400 个视觉 token。如果一页内容特别多,还有所谓 Gundam 模式,将页面切块组合处理,相当于局部高精度 + 整体低精度并用,既兼顾细节又照顾全局。通过位置编码插值等技术,DeepEncoder 能够在一个模型里兼容不同分辨率训练和推理。这种灵活性让开发者可以按需权衡精度与速度:文字少就快马加鞭,文字多就稳扎稳打。传统 OCR 要做到这点很麻烦,而 DeepSeek-OCR 只需切换模式即可,非常实用。

DeepSeek-OCR 不仅自身架构新颖,在训练上也很有讲究。

它采用“两步走”策略:第一步先训练编码器 DeepEncoder。DeepSeek 借鉴了 OpenAI CLIP 等的做法,用了海量的图文对来训练编码器的“视觉词汇”能力。这里面既有 30 万页真实 PDF 生成的图文数据(覆盖 100 种语言,还对中英 2M 页做了精标注,包括检测框和识别文本一起作为监督);也有各种 OCR 2.0 合成数据,比如 1000 万张图表、500 万张化学式、100 万张几何图形等,让编码器学会读取不同类型非纯文字内容;另外还有从 LAION 挑的 1 亿张一般图像作辅助,确保编码器不“只认字不认图”而保留一定通用视觉能力。

训练目标很简单,就是给定图像预测下一个 token(语言模型式训练),这样 DeepEncoder 学会把图像内容映射到对的文本 token 序列上。

第二步是端到端训练整个 DeepSeek-OCR 模型,把解码器也加进来一起学。此时数据除了之前的 OCR 图文,还混入了 10% 纯文本数据,避免模型只会照图说话,不会正常语言表达。

为了让训练保持稳定,DeepSeek 冻结了 DeepEncoder 的一部分:将 DeepEncoder 前面的 SAM 模块和卷积压缩层固定参数不训练,只训练后面的 CLIP 部分和整个解码器。这样做类似“锁住眼睛,只训练大脑”,因为前半部分视觉提取已经在第一阶段学得不错了,固定它可以防止端到端训练时过度调优破坏视觉底层特征,同时节省算力。

这一系列精妙的训练套路,再加上 20 台 8×A100 GPU 的算力,使得 DeepSeek-OCR 模型成功收敛,掌握了“看图压缩/解压长文”的本领。

值得一提的是,DeepSeek-OCR 在模型体量上并不算夸张:编码器 3.8 亿,解码器激活 5.7 亿,总共十亿级别,比那些动画模型(InternVL 76B、Qwen-VL 72B 等)小了一个量级。这使它推理起来相当轻快,加上视觉 token 又少,DeepSeek 称一张 40G 显存 A100 卡一天能处理 20 万页文档。

这已经远远超过了常规的开源 OCR 的能力:一次只能识别一个文本框,处理整页需要遍历所有行块,遇到复杂版面就会很耗时。

DeepSeek-OCR 则是端到端看整页,充分利用 Transformer 全局并行优势,推理效率更高。

DeepSeek-OCR 聚焦文档解析,专门优化了视觉 token 压缩,在保证精度的同时把输入长度降到极低,这对实际部署意义重大。

DeepSeek-OCR 走的是 “少而精” 路线,用尽量少的视觉 token 支撑起强大的 OCR 能力。这在技术路径上与过去追求大模型、大特征图的思路截然不同。

4

实际效果如何呢?这是 DeepSeek-OCR 的成绩单。

上图 (a) 展示了在 Fox 基准上的压缩实验:横轴是压缩率(文本 token 数/视觉 token 数),纵轴是 OCR 精度(编辑距离计算精度)。可以看到,当压缩率在 10× 以内时,DeepSeek-OCR 的精度基本保持在 97% 以上,几乎跟无损一样;即使压到 20× 那么极致,精度也有六成左右,考虑到压缩掉 95% 的信息量,这已经很夸张了。图 (b) 则对比了 OmniDocBench 文档解析任务的综合性能。

DeepSeek-OCR(几种模式)在编辑距离指标上达到当前端到端 OCR 模型的最好水平,尤其令人瞩目的是,它用的视觉 token 远少于别的模型。

例如,相当于“Small 模式”的 DeepSeek-OCR 只用 100 个 token,就比需要 256 token 的 GOT-OCR2.0 还准;再开“大模式”400 token,效果追平甚至略超一些传统 OCR pipeline 方法,但输入长度却小几个数量级(例如相比 MinerU 2.0 平均 6000+ token,它用不到 800)。

换言之,DeepSeek-OCR 做到了“用最少的眼睛读最多的书”。更难得的是,它不仅读得准,还读得“深”:一般 OCR 遇到文档里夹杂的图表、公式往往无能为力,DeepSeek-OCR 因为在训练中见过这类数据,生成文本时可以直接输出结构化结果。

例如它能识别金融报告里的柱状图,把数据变成 HTML 表格;看见化学分子结构图,吐出对应的 SMILES 字符串;甚至对论文里的几何示意图也能解析出关键点和线段关系,生成描述或代码。

上面的例子展示了模型对复杂财经图表的解析:左侧是论文的 PDF 页面含多张图,DeepSeek-OCR 在“转换为 Markdown”指令下,右侧生成了带图表描述和数据表格的结构化结果;下方还示范了对其中柱状图的深度解析,模型不仅检测出图中各元素,还列出了数值表格和标注,使机器读懂图表内容成为可能。这样的“图文混合”能力,正是 DeepSeek-OCR 相较传统 OCR 的杀手锏之一。

5

DeepSeek-OCR 给我们带来的启示是多方面的。

首先,它证明了视觉作为压缩介质的可行性:原本几千字才能描述的信息,可以压成一张图让模型去“看”,而且几乎不损失精度。这对于解决大模型长上下文问题是一个全新思路。过去大家绞尽脑汁扩展 Attention 窗口,不如退一步,用视觉编码来 “曲线救国”

想象未来的 LLM 有了视觉模块后,可以把之前聊天的长篇对话偷偷压成图片嵌入,这样既节省内存又实现了类似人类“模糊记忆”的效果:新内容清晰保留,旧内容逐渐压缩变模糊。

DeepSeek-OCR 展示了 AI 用这种能力来自我压缩记忆的潜力,有些“让 AI 用人的方式记忆”的意味。

其次,DeepSeek-OCR 对于 OCR 行业本身也是重大突破。长期以来,OCR 都是管中窥豹式的:该技术能识别单词行,但难以理解整页的版面和内容。DeepSeek-OCR 作为统一模型,不但完成识别,还输出了结构化结果和版面理解(表格、标题、图注等)。这使其有望成为文档 AI 的多面手。

开发者只需一个 DeepSeek-OCR,就能取代过去流水线中的版面分析、文字识别、表格解析、公式识别、图像说明等多个模块。

对于创业者,这意味着构建智能文档处理系统的门槛降低:开源模型拿来微调部署,即可做成通用文档数智化服务,应用于金融报告解析、合同要点提取、试卷阅卷等各种场景。而且模型开源 MIT 协议,数据和代码都公开透明,可商用可定制,这在 OCR 领域也是难得的机会。

再一次,DeepSeek-OCR 体现了小而精模型在特定任务上的竞争力。以前大家觉得“模型越大效果越好”,但 DeepSeek 团队用不到 10 亿的体量,实现了媲美上百亿模型的文档理解能力,还顺带碾压了传统 OCR 方案。这给我们的启发是:问题导向的创新往往比盲目堆砌参数更有效。如果明确目标是高效 OCR,那就应围绕“如何更高效”做文章——比如减少视觉 token、压缩中间表示——而不是简单增加模型宽度和深度。DeepSeek-OCR 正是抓住了 OCR 的独特结构(视觉-文本天然对应)进行优化,取得事半功倍的效果。

喔,终于写完了,这篇文章耗时几天,不过写到最后还是挺痛快的。DeepSeek 这家公司不仅技术扎实,创新能力也强,几乎每个发布的产品都有巨大的工业价值,给我们这些创业者很多启发。

这篇内容比较多,查了很多资料,如有错误,欢迎指出:)

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-OCR 视觉语言模型 长文本处理 上下文长度 AI压缩 文档理解 OCR Vision-Language Model Long Text Processing Context Length AI Compression Document Understanding OCR
相关文章