DeepSeek在GitHub上正式开源了其最新的OCR研究成果——DeepSeek-OCR模型。该模型拥有约30亿参数,是团队在长文本上下文处理中探索“光学二维映射压缩”技术可行性的首次尝试。其核心由DeepEncoder和DeepSeek3B-MoE-A570M解码器组成,DeepEncoder能在高分辨率输入下实现高压缩比并生成适量视觉token,而解码器则负责精准文本转化。实验表明,在视觉token十倍于文本token(压缩率<10x)时,OCR识别精度高达97%,即使压缩率提升至20x,准确率仍可维持在60%左右。此项研究为长上下文压缩技术及大模型记忆遗忘机制研究提供了新思路。
📚 **DeepSeek开源DeepSeek-OCR模型**:DeepSeek在GitHub上发布了其最新的OCR模型DeepSeek-OCR,该模型拥有约30亿参数,旨在解决长文本上下文处理中的挑战,是团队在“光学二维映射压缩”技术上的首次探索。
💡 **创新的光学压缩与解码机制**:模型的核心由DeepEncoder和DeepSeek3B-MoE-A570M解码器构成。DeepEncoder能够处理高分辨率输入,实现高压缩比并生成少量视觉token,而解码器则负责将这些视觉信息准确地转化为文本。
📈 **高效的压缩率与高识别精度**:实验结果显示,当文本token数量不超过视觉token的10倍(压缩率<10x)时,DeepSeek-OCR的OCR识别精度可达97%。即使在压缩率提升至20x的情况下,模型准确率也能维持在60%左右,展现了其在长文本处理上的潜力。
🚀 **为大模型研究提供新思路**:DeepSeek-OCR的成果不仅在OCR领域具有重要意义,也为长上下文压缩技术以及大语言模型的记忆与遗忘机制研究开辟了新的方向,预示着模型在处理长序列信息方面可能取得的突破。
快科技10月21日消息,据媒体报道,DeepSeek在GitHub上开源了其最新研究成果——DeepSeek-OCR模型。
据介绍,DeepSeek-OCR的参数量约为3B,是研究团队对“光学二维映射压缩”技术在长文本上下文处理中可行性的首次探索。
该模型核心由DeepEncoder与DeepSeek3B-MoE-A570M解码器构成:DeepEncoder能够在高分辨率输入条件下保持低激活状态,实现高压缩比并生成适量的视觉token;解码器则负责将这些视觉token准确转化为文本信息。
实验数据显示,当文本token数量控制在视觉token的10倍以内(压缩率<10 x )时,OCR识别精度可达97%;即使压缩率提升至20×,模型准确率仍能维持在60%左右。
研究团队表示,这一成果为长上下文压缩技术以及大语言模型的记忆与遗忘机制研究提供了新的思路与方向。
论文标题:DeepSeek-OCR: Contexts Optical Compression
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR