36氪 - 科技频道 10月24日 19:49
DeepSeek发布OCR新模型,用“看图识字”解决长文本难题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek团队开源了30亿参数的DeepSeek-OCR模型,创新性地提出“光学压缩”概念,将文本转化为图像“视觉Token”来处理,有效解决大语言模型处理长文本算力消耗大的问题。该模型能将1000个文本Token压缩至100个视觉Token,准确率仍高达97%,实现了10倍的效率提升。模型由DeepEncoder(压缩)和DeepSeek3B-MoE(解码)组成,前者结合SAM和CLIP进行图像压缩,后者利用MoE架构高效解码。DeepSeek-OCR在大量多语言文档和图像数据上训练,并在OmniDocBench测试中表现出色,性能超越现有模型。此外,该技术还引发了关于AI模拟人类记忆与遗忘的哲学思考,预示着AI进化可能更侧重于“精明记忆”而非“海量记忆”。

💡 **创新“光学压缩”技术:** DeepSeek-OCR模型引入“光学压缩”概念,将文本信息编码为图像“视觉Token”,而非传统的“文本Token”。这一突破性方法旨在根本上解决大语言模型在处理长文本时面临的算力瓶颈。通过将大量文本压缩成视觉表示,模型能够以更低的计算成本处理更长的上下文,从而显著提高效率。

🚀 **高效压缩与高准确率:** 该模型在压缩能力上表现卓越,能够将1000个文本Token压缩至仅100个视觉Token,同时仍能保持高达97%的OCR准确率。即使在20倍压缩率下,准确率也能维持在60%左右。这意味着AI在“看图识字”方面的效率甚至可能超越传统的“逐字阅读”,大幅降低了显存和计算资源的消耗。

🛠️ **先进模型架构与训练:** DeepSeek-OCR由DeepEncoder(压缩引擎)和DeepSeek3B-MoE(解码器)两部分构成。DeepEncoder整合了SAM和CLIP等先进视觉模型,并利用卷积模块进行高效压缩;DeepSeek3B-MoE则采用混合专家(MoE)架构,仅激活少量参数即可达到高性能。其训练数据量庞大,涵盖3000万页PDF、300万条Word文档以及海量场景图,并运用了“模型飞轮”等自训练技术,确保了模型的强大泛化能力和准确性。

🧠 **模拟人类记忆与遗忘:** 该研究的另一亮点在于探索了光学压缩在模拟人类记忆与遗忘机制上的潜力。通过将久远的历史对话渲染成尺寸逐渐缩小的图像,模型可以实现信息的选择性“遗忘”,只保留关键信息。这一设想挑战了AI无限记忆的传统观念,提出了“记得精”而非“记得多”的新范式,为超长对话和记忆管理提供了新的思路。

💡 **重新定义“上下文”概念:** DeepSeek-OCR的出现,不仅仅是一个OCR技术的升级,更是在尝试定义一种新的信息承载和处理范式。它表明,通过视觉模态高效承载语言信息是可行的,并且在追求模型“更大、更长、更贵”的普遍趋势下,DeepSeek选择了“更小、更快、更巧”的路径,强调了减法在AI进化中的优雅作用。

最近 AI 圈又出新花活儿了,DeepSeek 团队悄咪咪地开源了一个 30 亿参数的小模型,名叫DeepSeek-OCR

别看体量不大,想法可是够炸的:他们居然打算让 AI用看图的方式去读文本

没错,真“看图识字”。

而且不只是识字,而是让“视觉模态”成为一种文本压缩介质,用图片来代表文字,用“视觉 token”取代“文本 token”,实现所谓的光学压缩(Optical Compression)

说实话,老狐看到这论文内容的时候,第一反应是:他们是想让语言模型也上美术课?

不过仔细一想,还真挺有道理。

大语言模型(LLM)最大的痛点是什么?处理长文本太烧算力。

大家都知道,大模型的注意力机制复杂度是平方级的。你给它2倍的输入,它要算4倍的东西;你让它记住一整个长文档,它立刻开始“烧卡烧心”。

那能不能换个思路?DeepSeek 团队说:既然一张图能装下好多字,那不如把文本直接变成图像,再让模型去看图!

论文里有个特别直观的例子:原本 1000 个 token 才能表达的内容,现在只用 100 个视觉 token 搞定,压缩 10 倍,还能保留 97% 的 OCR 准确率。

再狠点,压缩 20 倍也还能保留约 60% 的准确率。这意味着,模型“读图”的效率,居然比“读字”还高。

换句话说,模型没丢太多信息,但算力负担轻了十倍。

不少网友看到这里都傻了:AI 处理图像用量比长文本还少?这反人类直觉啊!

也有网友感叹:DeepSeek 这是想让模型“看文档像刷朋友圈”一样轻松。

老狐觉得,这波操作可以称得上“反向降维打击”。

过去我们都在想办法让模型更懂文字、看得更远;DeepSeek 直接反着来:让模型把字变成画,再“看画识文”。有点像回到了人类最原始的沟通方式:象形。

说到这儿,得聊聊这模型到底咋做的。DeepSeek-OCR 由两部分组成:DeepEncoder(看图压缩)+DeepSeek3B-MoE(解码还原)。

前者是整个系统的“压缩引擎”,它把两大视觉猛将 SAM-base 和 CLIP-large 串起来:

SAM 负责盯细节的“窗口注意力”,CLIP 负责抓整体的“全局注意力”。中间还塞了个 16× 卷积压缩模块,专门砍 token。

比如说,一张 1024×1024 的图片,理论上要被切成 4096 块去处理,现在被这个压缩模块一刀下去,直接瘦身成几百个 token。

这样一来,既保留了清晰度,又不炸显存。

而且它还支持多档分辨率模式:Tiny、Small、Base、Large,还有一个代号叫 “Gundam(高达)” 的动态模式。

你没看错,这模型甚至取名都带点“中二魂”。

解码器部分则是 DeepSeek 的老本行:MoE(混合专家)架构

64 个专家中每次只激活 6 个,再加两个共享专家,实际算力只动用了约 5.7 亿参数,但性能媲美 30 亿模型。又快又省,堪称“节能灯中的战斗机”。

它的任务也不复杂,就是从那些压缩后的视觉 token 里,把文字“解码”回来。

整个过程有点像 OCR 的升级版,不过,这次是模型自己在“看图猜字”,而不是人类教它识字,而且猜得非常准。

当然,要把这玩意训好,得先喂够粮。DeepSeek 这回可是下了血本:整整 3000 万页 PDF 文档,涵盖 100 种语言,其中中英文就占 2500 万页。

他们还整了个“模型飞轮”:先用一个版面分析模型粗标数据,再用 GOT-OCR 之类的模型做精标,训练一遍,再反过来标更多数据。

循环往复,模型自己喂自己长大。

除此之外,还有 300 万条 Word 文档,专门练公式识别、HTML 表格提取,甚至包括金融图表、化学结构式、几何图形等奇奇怪怪的图像结构,也都被塞进训练集中。

DeepSeek 还从 LAION、Wukong 这些开源数据集抓了中英文各 1000 万张场景图,用 PaddleOCR 标注。

可以说,这波训练,真的是“从理工科到艺术科全覆盖”,真真正正用数据砸出来的聪明脑袋。

那效果咋样?论文里放了几组结果,非常能打。

在 OmniDocBench 测试上,DeepSeek-OCR 用100 个视觉 token就超过了 GOT-OCR2.0(每页 256 token)。用不到800 个视觉 token,又超越了 MinerU2.0(每页 6000+ token)。

性能更强、输入更短、推理更快。

这速度,简直是“AI 印刷机”。

不过,最让老狐拍案叫绝的,是论文最后那个脑洞:光学压缩还能模拟人类遗忘?

人脑的记忆会随时间衰退,旧事模糊,新事清晰。DeepSeek 团队就琢磨:那 AI 能不能也学会“忘”?

如果 AI 也能像人一样“选择性记忆”,是不是就能在超长对话里活得更轻松?

他们设计了一个实验设想:超过第 k 轮的历史对话内容,就渲染成图像;先压一遍,减少 10 倍 token;再久远一点,继续缩小图像尺寸;图像越小,信息越模糊,最终就“忘掉”了。

有网友看完直接感叹:这不就是在模拟人脑记忆机制嘛!

当然,也有人泼冷水:DeepSeek 的幻觉高得惊人,这要是再给它学会“忘”,怕是忘得比人还快。

老狐看完这部分,是真觉得有点哲学意味。AI 的记忆,到底该无限延展,还是学会遗忘?

DeepSeek 给出的答案是后者,它用视觉的方式,让模型在“压缩”的同时,也“过滤”掉冗余。就像人脑那样:只留有用的信息。

这背后的意义,比 OCR 本身更大。它在重新定义“上下文”的概念:不是记得多,而是记得精。

说到底,DeepSeek-OCR 看似是个 OCR 模型,实则是在试探一种新范式:能不能用视觉模态来高效承载语言信息?

在所有人都往“更大、更长、更贵”的方向卷的时候,DeepSeek 却反手做了个“更小、更快、更巧”的模型。

这事儿本身就很 DeepSeek。

老狐最后想说一句:AI 的进化,可能并不总是加法,有时候减法更优雅。

DeepSeek-OCR 就是个活生生的例子:一个 3B 小模型,玩出了长文本压缩的新思路,甚至顺手摸到了“记忆与遗忘”的边界。

如果说去年是“谁能记住更多”,那今年,可能是“谁能忘得更聪明”。而 DeepSeek,这次又走在了前头。

本文来自微信公众号“科技狐”(ID:kejihutv),作者:老狐,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-OCR 光学压缩 长文本处理 大语言模型 AI效率 视觉Token OCR MoE 人工智能 DeepSeek Optical Compression Long Text Processing LLM AI Efficiency Visual Tokens AI Memory Simulation
相关文章