我要投稿

端到端的多模态文档解析模型-DeepSeek-OCR架构、数据、训练方法

发布日期：2025-10-20 17:35:07 浏览次数： 2933

作者：大模型自然语言处理

微信搜一搜，关注“大模型自然语言处理”

最近接连开源多模态文档解析模型：

再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法
如何打造一个文档解析的多模态大模型？MinerU2.5架构、数据、训练方法

DeepSeek-OCR是一个端到端的多模态文档解析模型，是Vary、GOT-OCR2.0的后续，前期也有详细介绍《【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节》。其核心目标是用极少的视觉 token（vision tokens）解码出大量文本 token（text tokens）。

VLMs中的典型视觉编码器：处理长文本时视觉 token 过多、激活内存大的问题

多模态文档解析相关就不再过多介绍了，详细可以看专栏《文档智能》

模型架构

如下图，DeepSeek-OCR的架构由编码器（DeepEncoder）和解码器（DeepSeek3B-MoE-A570M）组成。

DeepEncoder

DeepEncoder设计

DeepEncoder是DeepSeek-OCR的最核心部分（高分辨率下的轻量视觉压缩器），专门解决现有VLMs视觉编码器（如Vary、InternVL2.0）的痛点：高分辨率输入时token过多、激活内存大、不支持多分辨率。包含三个组件：

模块1：视觉感知（窗口注意力主导）
采用SAM-base（Segment Anything Model，80M参数），输入图像被分割为16×16的patch（如1024×1024图像生成4096个patch token）。这个在vary和got中均使用。
作用：通过窗口注意力（局部注意力）捕捉图像细节（如文本位置、字体），避免全局注意力的高内存消耗。
模块2：16×卷积压缩器
位于SAM和CLIP之间，由2层卷积构成（核大小3×3，步长2，通道数从256→1024），实现视觉token的16倍下采样。
作用：将SAM输出的4096个token压缩为256个（1024×1024输入场景），大幅减少后续全局注意力模块的计算量，控制激活内存。
模块3：视觉知识（全局注意力主导）
采用CLIP-large（300M参数），但移除第一层patch嵌入层（输入改为压缩后的token）。
作用：通过全局注意力整合压缩后的token，提炼图像全局语义（如文档布局、文本逻辑），为解码提供结构化视觉知识。

多分辨率支持：适配不同压缩比需求

DeepEncoder的多分辨率支持。为了研究和应用目的，设计了具有多种原生分辨率和动态分辨率模式的DeepEncoder

Base/Large模式通过“ padding 保留宽高比”，有效token数按公式下面公式计算（避免无效token浪费）。

MoE解码器

解码器使用的是DeepSeek3B-MoE，由3B参数的MoE模型，包含64个routed experts和2个shared experts。推理时仅激活6个routed experts+2个shared experts，实际激活参数约570M（仅为3B模型的19%）。这样做既保留3B模型的文本生成能力，又将推理速度提升至“500M小模型”级别，适合大规模部署。

数据

1. OCR 1.0数据

OCR 1.0数据和前面的vary、got-ocr数据构建相似，主要用于训练模型识别传统OCR场景（文档、自然场景文本）。构成如下：

文档数据：30M页多语言PDF（100种语言，中英占25M页），含“粗标注”（fitz工具提取，教模型识别文本）和“细标注”（2M页中英，用PP-DocLayout+MinerU2.0标注布局+文本，教模型理解排版）；
自然场景数据：20M页图像（LAION+Wukong数据集，用PaddleOCR标注，支持中英场景文本识别）；
Word数据：3M页，无布局干扰，优化公式、HTML表格的识别。