微信扫码
添加专属顾问
我要投稿
DeepSeek-OCR突破性地解决了多模态文档解析中的视觉token压缩难题,为高效处理长文本提供了创新方案。核心内容: 1. DeepSeek-OCR的架构设计:DeepEncoder与MoE解码器的协同工作 2. 视觉token压缩技术:16倍下采样与多分辨率支持实现高效处理 3. 模型性能优势:相比现有VLMs显著降低内存消耗并提升处理能力
最近接连开源多模态文档解析模型:
DeepSeek-OCR是一个端到端的多模态文档解析模型,是Vary、GOT-OCR2.0的后续,前期也有详细介绍《【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节》。其核心目标是用极少的视觉 token(vision tokens)解码出大量文本 token(text tokens)。
多模态文档解析相关就不再过多介绍了,详细可以看专栏《文档智能》
如下图,DeepSeek-OCR的架构由编码器(DeepEncoder)和解码器(DeepSeek3B-MoE-A570M)组成。
DeepEncoder是DeepSeek-OCR的最核心部分(高分辨率下的轻量视觉压缩器),专门解决现有VLMs视觉编码器(如Vary、InternVL2.0)的痛点:高分辨率输入时token过多、激活内存大、不支持多分辨率。包含三个组件:
Base/Large模式通过“ padding 保留宽高比”,有效token数按公式下面公式计算(避免无效token浪费)。
解码器使用的是DeepSeek3B-MoE,由3B参数的MoE模型,包含64个routed experts和2个shared experts。推理时仅激活6个routed experts+2个shared experts,实际激活参数约570M(仅为3B模型的19%)。这样做既保留3B模型的文本生成能力,又将推理速度提升至“500M小模型”级别,适合大规模部署。
OCR 1.0数据和前面的vary、got-ocr数据构建相似,主要用于训练模型识别传统OCR场景(文档、自然场景文本)。 构成如下:
支持图表、化学公式、几何图形的结构化解析。
避免模型仅适配OCR场景,保留VLMs的通用视觉能力(如图像描述、目标检测)。数据构成参考DeepSeek-VL2,生成图像描述、目标检测、视觉定位任务数据,占总数据20%。
目的是提升解码器的文本流畅度,避免“视觉-文本”映射导致语言能力退化。 10%的内部纯文本数据,统一处理为8192 token长度(与模型序列长度一致)。
训练分两阶段进行,先优化编码器质量,再训练端到端模型。
与vary相似,让编码器学会“高分辨率输入→压缩视觉token”的映射,保证token质量。使用上述所有OCR 1.0和2.0数据,以及从LAION数据集中抽取的1亿条通用数据。
联合优化“编码器→解码器”的映射,提升OCR精度与泛化性。采用流水线并行(PP=4),DeepEncoder占2段(SAM+压缩器冻结,CLIP解冻),解码器占2段(12层MoE分6层/段);
Gundam-M模式微调适配超高清文档(如报纸),但避免与其他模式共训拖慢速度。在预训练好的DeepSeek-OCR上,用6M采样数据继续训练Gundam-M模式(1024×1024局部+1280×1280全局)。
参考文献:DeepSeek-OCR: Contexts Optical Compression,https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
权重地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-20
万字长文深度解析最新Deep Research技术:前沿架构、核心技术与未来展望
2025-10-20
Prompt 工程进阶——让 DeepSeek 学会你的测试风格
2025-10-20
美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准
2025-10-20
几乎都在挂羊头卖狗肉,AI Agent的泡沫现在到底有多大?
2025-10-20
AI Agent 上下文管理:基于搭叩的七大原则与实践
2025-10-20
当 AI 走进前端开发:代理插件的全流程开发实践
2025-10-20
AI Workflow Builder王炸劝退:n8n、Coze、Dify等AI工作流不要学了
2025-10-20
AIOps探索:做AIOps智能体,是直接调用公共大模型还是要部署私有大模型?
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-09-17
2025-08-19
2025-10-02
2025-09-29
2025-10-20
2025-10-20
2025-10-19
2025-10-18
2025-10-18
2025-10-18
2025-10-16
2025-10-16