免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek又开源,这次是OCR模型!附论文解读!

发布日期:2025-10-20 17:30:48 浏览次数: 1788
作者:刘聪NLP

微信搜一搜,关注“刘聪NLP”

推荐语

DeepSeek再放大招!开源OCR模型实现文本视觉压缩革命,用更少Token处理更多信息。

核心内容:
1. DeepSeek-OCR创新视觉编码结构DeepEncoder的技术突破
2. 模型在OmniDocBench基准测试中的卓越表现
3. 多分辨率支持与高效Token压缩机制详解

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是刘聪NLP。

刚刚,DeepSeek又开源了,这次是OCR模型,整个模型大小在3B。

DeepSeek-OCR的提出,是为了探索,是否可以通过视觉模态进行文本信息的高效压缩,

也就是把文档内容,用图像Token表示,其Token数量会远小于原始文本Tokens数,

说白了,你1w字,可能需要5000个Token,但用图像来表示,可能只需要512 个 Token。

实话实说,直接升华了,

我之前研究VLM做OCR,就是解决PDF转成文本的问题,没想到DeepSeek,是在想用图像视觉压缩文本。

秀~

先说结论,

  • 这次DeepSeek提出了一个新的视觉编码结构DeepEncoder,
  • 同时做了一个关于视觉-文本token压缩比的全面定量分析,
  • DeepSeek-OCR的整体也很不错,在OmniDocBench上,使用更少的视觉token达到最好的效果。

模型地址,HF:https://huggingface.co/deepseek-ai/DeepSeek-OCR

DeepSeek-OCR模型也是三件套,图像编码器、映射层和文本解码器组成,其中图像编码器时特色,为DeepEncoder,参数为380M,文本解码器是一个deepseekv2-3b的模型-,参数为3B,2个共享专家,64个激活专家,每次激活6个专家,激活参数为570M。

现有VLM的视觉部分,主要是三种,双塔架构,tile-based方法,自适应分辨率编码方法,如下,存在多次预处理、高分辨率时Token数量过多等问题。

提出DeepEncoder,为了可以能够处理高分辨率图像、在高分辨率下激活值低、输出视觉Token少、支持多分辨率输入。结构如下,参数量为380M,主要由一个80M的SAM-base模型和一个300M的CLIP-large模型串联构成。

其中,SAM-base模型以窗口注意力感知局部特征,CLIP-large模型以密集全局注意力提取全局语义信息。

模型之间,采用一个两层卷积模块对视觉token进行16倍下采样,每个卷积层的kernel size为3,stride为2,padding为1,通道数从256增加到1024。

举例,输入图像大小为1024×1024,DeepEncoder首先划分为1024/16 × 1024/16 = 4096个patch token,在对4096个token进行压缩,数量变为4096/16 = 256。

DeepEncoder支持多分辨率,有两种,原生分辨率和动态分辨率

原始分辨率,包括Tiny-512×512(64 token)、Small-640×640(100 token)、Base-1024×1024(256 token)、Large-1280×1280(400 token)四种。

Tiny和Small模式是直接对图像进行resize处理,Base和Large模式是保持原始图像的宽高比利用padding方式处理。

动态分辨率包括Gundam-640×640+1024×1024(n x 100 + 256)、Gundam-M-1024×1024+1280×1280(n x 256 + 400)两种,是由n个局部视图+一个全局视图,其中局部的tile数在2到9之间。对于宽高都小于640的图像,n设为0,Gundam退化成Base,Gundam-M退化成Large。

整体训练数据由4部分组成,

OCR1.0数据(43M张图片-文本对),由传统OCR任务组成,如图像OCR和文档OCR;

OCR2.0数据(16M张图片-文本对),包含复杂的图像解析任务,如图表、化学公式、平面几何等;

通用视觉数据(占比20%),用于注入通用图像理解能力;

纯文本数据(占比10%),用于确保模型的语言能力。

模型训练采用两阶段训练,先训练DeepEncoder部分,再全部参数联合训练。

训练DeepEncoder阶段,采用OCR1.0和OCR2.0数据,以及从LAION数据集中采样的100M通用数据,训练 2 个 epoch,BS为1280,优化器为AdamW,学习率调度器为cosine annealing ,初始学习率为 5e-5,最大长度为 4096。

全部参数训练阶段,采用20个A100-40G*8的节点进行PP训练,BS为 640,优化器为 AdamW,初始学习率为3e-5。

最后,

还没测,后面看看跟新出的PaddleOCR-VL 0.9B哪个更强。

OCR也是卷起来了~

PS:都看到这里,来个点赞、在看、关注吧。 您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,交个朋友吧,一起学习,一起进步!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询