微信扫码
添加专属顾问
我要投稿
DeepSeek再放大招!开源OCR模型实现文本视觉压缩革命,用更少Token处理更多信息。核心内容: 1. DeepSeek-OCR创新视觉编码结构DeepEncoder的技术突破 2. 模型在OmniDocBench基准测试中的卓越表现 3. 多分辨率支持与高效Token压缩机制详解
大家好,我是刘聪NLP。
刚刚,DeepSeek又开源了,这次是OCR模型,整个模型大小在3B。
DeepSeek-OCR的提出,是为了探索,是否可以通过视觉模态进行文本信息的高效压缩,
也就是把文档内容,用图像Token表示,其Token数量会远小于原始文本Tokens数,
说白了,你1w字,可能需要5000个Token,但用图像来表示,可能只需要512 个 Token。
实话实说,直接升华了,
我之前研究VLM做OCR,就是解决PDF转成文本的问题,没想到DeepSeek,是在想用图像视觉压缩文本。
秀~
先说结论,
模型地址,HF:https://huggingface.co/deepseek-ai/DeepSeek-OCR
DeepSeek-OCR模型也是三件套,图像编码器、映射层和文本解码器组成,其中图像编码器时特色,为DeepEncoder,参数为380M,文本解码器是一个deepseekv2-3b的模型-,参数为3B,2个共享专家,64个激活专家,每次激活6个专家,激活参数为570M。
现有VLM的视觉部分,主要是三种,双塔架构,tile-based方法,自适应分辨率编码方法,如下,存在多次预处理、高分辨率时Token数量过多等问题。
提出DeepEncoder,为了可以能够处理高分辨率图像、在高分辨率下激活值低、输出视觉Token少、支持多分辨率输入。结构如下,参数量为380M,主要由一个80M的SAM-base模型和一个300M的CLIP-large模型串联构成。
其中,SAM-base模型以窗口注意力感知局部特征,CLIP-large模型以密集全局注意力提取全局语义信息。
模型之间,采用一个两层卷积模块对视觉token进行16倍下采样,每个卷积层的kernel size为3,stride为2,padding为1,通道数从256增加到1024。
举例,输入图像大小为1024×1024,DeepEncoder首先划分为1024/16 × 1024/16 = 4096个patch token,在对4096个token进行压缩,数量变为4096/16 = 256。
DeepEncoder支持多分辨率,有两种,原生分辨率和动态分辨率。
原始分辨率,包括Tiny-512×512(64 token)、Small-640×640(100 token)、Base-1024×1024(256 token)、Large-1280×1280(400 token)四种。
Tiny和Small模式是直接对图像进行resize处理,Base和Large模式是保持原始图像的宽高比利用padding方式处理。
动态分辨率包括Gundam-640×640+1024×1024(n x 100 + 256)、Gundam-M-1024×1024+1280×1280(n x 256 + 400)两种,是由n个局部视图+一个全局视图,其中局部的tile数在2到9之间。对于宽高都小于640的图像,n设为0,Gundam退化成Base,Gundam-M退化成Large。
整体训练数据由4部分组成,
OCR1.0数据(43M张图片-文本对),由传统OCR任务组成,如图像OCR和文档OCR;
OCR2.0数据(16M张图片-文本对),包含复杂的图像解析任务,如图表、化学公式、平面几何等;
通用视觉数据(占比20%),用于注入通用图像理解能力;
纯文本数据(占比10%),用于确保模型的语言能力。
模型训练采用两阶段训练,先训练DeepEncoder部分,再全部参数联合训练。
训练DeepEncoder阶段,采用OCR1.0和OCR2.0数据,以及从LAION数据集中采样的100M通用数据,训练 2 个 epoch,BS为1280,优化器为AdamW,学习率调度器为cosine annealing ,初始学习率为 5e-5,最大长度为 4096。
全部参数训练阶段,采用20个A100-40G*8的节点进行PP训练,BS为 640,优化器为 AdamW,初始学习率为3e-5。
最后,
还没测,后面看看跟新出的PaddleOCR-VL 0.9B哪个更强。
OCR也是卷起来了~
PS:都看到这里,来个点赞、在看、关注吧。 您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,交个朋友吧,一起学习,一起进步!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-20
重磅:阿里的 Qoder CLI 正式发布
2025-10-20
想做独立产品的人,趁早放弃Coze拥抱编程
2025-10-20
DeepSeek开源的不仅仅是个新OCR模型。。。
2025-10-18
免费的OpenAI Operator平替?这款AI浏览器插件火了!
2025-10-18
对话Plaud许高:模仿者如果真相信「Plaud」,该停掉所有业务,只干这个
2025-10-18
Anthropic Skills 深度解析:当通用 Agent 学会专业技能
2025-10-17
阿里开源通义DeepResearch:智能体训练全流程揭秘
2025-10-17
美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-08-20
2025-07-29
2025-07-31
2025-07-29
2025-08-26
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16