免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法

发布日期:2025-10-20 17:35:07 浏览次数: 1559
作者:大模型自然语言处理

微信搜一搜,关注“大模型自然语言处理”

推荐语

DeepSeek-OCR突破性地解决了多模态文档解析中的视觉token压缩难题,为高效处理长文本提供了创新方案。

核心内容:
1. DeepSeek-OCR的架构设计:DeepEncoder与MoE解码器的协同工作
2. 视觉token压缩技术:16倍下采样与多分辨率支持实现高效处理
3. 模型性能优势:相比现有VLMs显著降低内存消耗并提升处理能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近接连开源多模态文档解析模型:

DeepSeek-OCR是一个端到端的多模态文档解析模型,是Vary、GOT-OCR2.0的后续,前期也有详细介绍《【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节》。其核心目标是用极少的视觉 token(vision tokens)解码出大量文本 token(text tokens)。

视觉token压缩比和性能比较
视觉token压缩比和性能比较
VLMs中的典型视觉编码器:处理长文本时视觉 token 过多、激活内存大的问题
VLMs中的典型视觉编码器:处理长文本时视觉 token 过多、激活内存大的问题

多模态文档解析相关就不再过多介绍了,详细可以看专栏《文档智能

模型架构

如下图,DeepSeek-OCR的架构由编码器(DeepEncoder)和解码器(DeepSeek3B-MoE-A570M)组成。

DeepSeek-OCR的架构
DeepSeek-OCR的架构

DeepEncoder

DeepEncoder设计

DeepEncoder是DeepSeek-OCR的最核心部分(高分辨率下的轻量视觉压缩器),专门解决现有VLMs视觉编码器(如Vary、InternVL2.0)的痛点:高分辨率输入时token过多、激活内存大、不支持多分辨率。包含三个组件:

  • 模块1:视觉感知(窗口注意力主导)
    采用SAM-base(Segment Anything Model,80M参数),输入图像被分割为16×16的patch(如1024×1024图像生成4096个patch token)。这个在vary和got中均使用。
    作用:通过窗口注意力(局部注意力)捕捉图像细节(如文本位置、字体),避免全局注意力的高内存消耗。
  • 模块2:16×卷积压缩器
    位于SAM和CLIP之间,由2层卷积构成(核大小3×3,步长2,通道数从256→1024),实现视觉token的16倍下采样。
    作用:将SAM输出的4096个token压缩为256个(1024×1024输入场景),大幅减少后续全局注意力模块的计算量,控制激活内存。
  • 模块3:视觉知识(全局注意力主导)
    采用CLIP-large(300M参数),但移除第一层patch嵌入层(输入改为压缩后的token)。
    作用:通过全局注意力整合压缩后的token,提炼图像全局语义(如文档布局、文本逻辑),为解码提供结构化视觉知识。
多分辨率支持:适配不同压缩比需求
DeepEncoder的多分辨率支持。为了研究和应用目的,设计了具有多种原生分辨率和动态分辨率模式的DeepEncoder
DeepEncoder的多分辨率支持。为了研究和应用目的,设计了具有多种原生分辨率和动态分辨率模式的DeepEncoder

Base/Large模式通过“ padding 保留宽高比”,有效token数按公式下面公式计算(避免无效token浪费)。

MoE解码器

解码器使用的是DeepSeek3B-MoE,由3B参数的MoE模型,包含64个routed experts和2个shared experts。推理时仅激活6个routed experts+2个shared experts,实际激活参数约570M(仅为3B模型的19%)。这样做既保留3B模型的文本生成能力,又将推理速度提升至“500M小模型”级别,适合大规模部署。

数据

1. OCR 1.0数据

OCR 1.0数据和前面的vary、got-ocr数据构建相似,主要用于训练模型识别传统OCR场景(文档、自然场景文本)。 构成如下:

  • 文档数据:30M页多语言PDF(100种语言,中英占25M页),含“粗标注”(fitz工具提取,教模型识别文本)和“细标注”(2M页中英,用PP-DocLayout+MinerU2.0标注布局+文本,教模型理解排版);
  • 自然场景数据:20M页图像(LAION+Wukong数据集,用PaddleOCR标注,支持中英场景文本识别);
  • Word数据:3M页,无布局干扰,优化公式、HTML表格的识别。
OCR 1.0示例:将真实值格式化为交错布局和文本格式,其中每段文本前都附有其在原始图像中的坐标和标签。所有坐标都归一化到1000个区间内。
OCR 1.0示例:将真实值格式化为交错布局和文本格式,其中每段文本前都附有其在原始图像中的坐标和标签。所有坐标都归一化到1000个区间内。
2. OCR 2.0数据

支持图表、化学公式、几何图形的结构化解析。

  • 图表数据:10M张(线图、柱状图等),标注为HTML表格(而非字典格式,节省token);
  • 化学公式:5M对图像-文本(SMILES格式数据源,RDKit工具渲染图像);
  • 平面几何:1M张(Slow Perception方法生成,标注线段、端点坐标,支持几何结构重建)。
示例
示例
3. 通用视觉数据

避免模型仅适配OCR场景,保留VLMs的通用视觉能力(如图像描述、目标检测)。数据构成参考DeepSeek-VL2,生成图像描述、目标检测、视觉定位任务数据,占总数据20%。

4. 纯文本数据

目的是提升解码器的文本流畅度,避免“视觉-文本”映射导致语言能力退化。 10%的内部纯文本数据,统一处理为8192 token长度(与模型序列长度一致)。

训练流程

训练分两阶段进行,先优化编码器质量,再训练端到端模型。

1. 阶段1:独立训练DeepEncoder

与vary相似,让编码器学会“高分辨率输入→压缩视觉token”的映射,保证token质量。使用上述所有OCR 1.0和2.0数据,以及从LAION数据集中抽取的1亿条通用数据。

2. 阶段2:训练端到端DeepSeek-OCR

联合优化“编码器→解码器”的映射,提升OCR精度与泛化性。采用流水线并行(PP=4),DeepEncoder占2段(SAM+压缩器冻结,CLIP解冻),解码器占2段(12层MoE分6层/段);

Gundam-M模式微调适配超高清文档(如报纸),但避免与其他模式共训拖慢速度。在预训练好的DeepSeek-OCR上,用6M采样数据继续训练Gundam-M模式(1024×1024局部+1280×1280全局)。

实验

视觉-文本压缩比
视觉-文本压缩比
OmniDocBench评测
OmniDocBench评测
OmniDocBench中不同类别文档的编辑距离
OmniDocBench中不同类别文档的编辑距离

参考文献:DeepSeek-OCR: Contexts Optical Compression,https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
权重地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询