ai咨询互联 15小时前
DeepSeek-OCR:高效低成本的开源OCR模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-OCR是一款新近开源的OCR模型,以其3B参数、10倍压缩和97%的识别精度脱颖而出。该模型的核心优势在于其创新的DeepEncoder和DeepSeek3B-MoE解码器,能够以极少的视觉Token处理大量文本信息。DeepEncoder采用双塔结构,结合SAM-base进行局部细节提取和CLIP-large进行全局信息概览,并通过卷积层高效压缩Patch Token。模型支持五种分辨率模式,以适应不同场景需求。MoE解码器仅激活570M参数,显著降低了计算和显存消耗。实测表明,该模型在文本压缩、精度保持、处理速度和多语言支持方面表现出色,尤其适用于学术文档、企业数字化和多语言文本处理等场景,为长文本处理提供了高效的解决方案。

💡 **高效文本压缩与高精度识别**:DeepSeek-OCR通过创新的DeepEncoder(结合SAM-base进行局部细节提取和CLIP-large进行全局概览)和MoE解码器,实现了对视觉Token的10倍压缩,同时保持了高达97%的OCR识别精度,显著降低了处理长文本的成本和效率瓶颈。

⚙️ **灵活多样的分辨率模式与低资源消耗**:模型提供Tiny、Small、Base、Large和Gundam五种分辨率模式,可根据需求动态调整,适应从移动端到超大图处理的各种场景。MoE解码器仅激活570M参数,大幅降低了计算和显存需求,使其在单卡A100上即可实现日处理20万页PDF的高效生产力。

🚀 **广泛的应用场景与多语言支持**:DeepSeek-OCR在学术界(如化学公式、数学符号转LaTeX)、企业数字化(合同、报表处理)以及多语言文本识别(支持100种语言,包括阿拉伯文等)方面展现出强大能力,为不同领域的文本信息提取提供了便捷且经济的解决方案。

原创 技术Z先生 2025-10-20 22:24 广东

DeepSeek-OCR最新开源模型详解

* 戳上方蓝字“AI资讯互联”关注我

大家好,我是技术Z先生,一名热爱分享的AI程序员!

上周五下午 3 点 17 分,正在公司吭哧吭哧加班,突然看到 DeepSeek 官网弹出消息提醒:

🌈

“3B 参数的 OCR 模型,10 倍压缩,97% 精度,开源。”

作为一名 AI 博主,这么重要的模型那必须得尝尝鲜测试下了!要知道 GPT-4V 处理一页 PDF 得吃掉上千 Token,钱包直接破防。结果 DeepSeek-OCR 说:“兄弟,我只要你的十分之一 Token 数量!”

它到底怎么做到的?那 DeepSeek 最新的 OCR 模型是如何做到能够使用少量视觉 token 就完成了海量文本压缩的?这主要得益于它的两个强大核心组件:DeepEncoder 和 DeepSeek3B-MoE 解码器!今天我们就来详细剖析下这两样组件是啥以及都有什么能力!

1. 双塔结构——SAM 抠细节,CLIP 看全局DeepEncoder 这玩意儿像个双头怪

中间夹一个 16× 卷积压缩层,两步 stride=2 的卷积,把 4096 个 patch token 直接砍到 256 个。简单粗暴,效果拔群。

2. 五种分辨率模式——从 Tiny 到 Gundam

模式

分辨率

输出 Token

适用场景

Tiny

512×512

64

手机端实时拍

Small

640×640

100

轻量服务器

Base

1024×1024

256

默认,平衡

Large

1280×1280

400

高清扫描

Gundam

动态

自适应

超大图分块

3. MoE 解码器——570M 激活参数,省钱又省显存解码器用 DeepSeek-3B-MoE-A570M,每次只激活 570M 参数。公式长这样:

翻译成人话:把 256 个视觉 Token 翻译成几千个文本 Token,但算力只花 570M 的份。

实测数据——真的没吹牛● 10 倍压缩:OCR 精度 97%,跟原版几乎没差。

● 20 倍压缩:还能剩 60% 准确率,应急够用。

● 单卡 A100-40G:一天干 20 万页 PDF,生产队驴都没它能打。

它能干啥?1. 学术狗福音——化学公式、数学符号一键转 LaTeX🌈

“之前我用 Mathpix 转公式,一页 3 美元,现在直接本地跑,钱包回血。”

🌈

—— 某 985 研二学生,昨晚刚跑完 500 页论文

2. 企业数字化——合同、报表秒变可搜索文本某跨国律所上周上线,一天扫完 10 年历史合同,老板一下又节省了上万的人工成本!

3. 多语言地狱——僧伽罗文、阿拉伯文都不虚官方数据:支持识别100 种语言,包括中文、英文、阿拉伯文、僧伽罗文……
实测阿拉伯语 PDF,连从右往左的排版都没翻车。

怎么玩?GitHub 一把梭git clone https://github.com/deepseek-ai/DeepSeek-OCR
pip install -r requirements.txt
python demo.py --image your.pdf --output out.mdHuggingFace 两行代码搞定从 HuggingFace 看,下载完工程后只需要执行以下两行代码,即可快速上手使用!

from deepseek_ocr import DeepSeekOCR
model = DeepSeekOCR.from_pretrained("deepseek-ai/DeepSeek-OCR")
out = model.predict("paper.png", prompt="Convert to markdown.")最后说两句说白了,DeepSeek-OCR 就是给长文本处理装上了涡轮增压——
同样的内容,别人烧 1000 Token,你只要 100 个,而且识别的精度还更高。

毕竟谁不想省钱又省显存呢?

想本地部署的可以从以下仓库区下载源码,官网附带了详细部署教程

GitHub 仓库:https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

end

今天的分享就到这里了,大家快去体验下吧!喜欢的小伙伴请点击下方免费的👍点赞 📤分享 ❤️推荐

关注我,实时掌握最新一手AI资讯,助你轻松应对未来挑战!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-OCR OCR 开源模型 AI 深度学习 自然语言处理 计算机视觉 文本识别 DeepSeek MoE SAM CLIP AI资讯互联
相关文章