免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

DeepSeek出品,必是精品!DeepSeek-OCR 2发布:让LLM像人一样读懂复杂文档,效果超Gemini 3 Pro

发布日期:2026-01-27 20:24:23 浏览次数: 1560
作者:AI寒武纪

微信搜一搜,关注“AI寒武纪”

推荐语

DeepSeek-OCR 2突破传统视觉模型局限,模拟人类动态视觉扫描,实现91.09%的SOTA性能,超越Gemini 3 Pro。

核心内容:
1. 传统视觉语言模型的局限与DeepSeek-OCR 2的创新
2. DeepEncoder V2架构的双轨并行处理机制
3. 在复杂文档解析上的突破性表现与开源信息

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家



↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新

 

DeepSeek 在25年10月份发了deepseek-ocr的论文,当时引爆了网络,DeepSeek-OCR是一种探索通过光学2D映射来压缩长上下文的新方法。

我之前的文章:

DeepSeek OCR论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来99%都是光子

DeepSeek王炸:10倍压缩率,97%解码精度!上下文光学压缩登场

刚刚DeepSeek又推出了DeepSeek-OCR 2,提出了一种全新的“视觉因果流”,模拟人类视觉的动态扫描模式,让模型能根据图像内容语义,智能地重排阅读顺序。基于这一新范式,DeepSeek-OCR 2在关键文档解析基准上实现了91.09%的SOTA性能,阅读顺序的错误率大幅降低,效果超越同视觉Token预算的Gemini 3 Pro。目前,代码和模型权重均已开源

当你看一篇论文或一张海报时,你的眼睛会怎么动?

大概率不是像机器一样,严格地从左上角到右下角进行光栅扫描。相反,你会根据标题、图表、段落等逻辑结构,灵活地、有重点地移动视线。每一次“注视”都和前一次的理解有关,这是一个遵循因果逻辑的序列过程。

然而,传统的视觉语言模型(VLM)在处理图像时,恰恰违背了这种人类视觉的认知机制。它们将图像块展平为一维序列,用固定的位置编码强行赋予一个僵化的阅读顺序,这引入了“不合理的归纳偏见”,尤其是在处理布局复杂的文档、表格和公式时,会严重影响理解能力。

为了解决这个问题,DeepSeek 推出了 DeepSeek-OCR 2,其核心是提出了一种全新的视觉编码器——DeepEncoder V2,旨在赋予模型因果推理的能力。

这项工作探索了一个全新的范式:能否通过两个级联的一维因果推理结构,来高效实现二维图像的理解?

这或许是通往真正“2D推理”的一条新路径。

核心革新:从CLIP到LLM,引入“视觉因果流”

DeepSeek-OCR 2的架构革新,集中在它的视觉编码器DeepEncoder V2上。

相较于前代DeepEncoder使用CLIP作为视觉知识压缩模块,V2版本做了一个大胆的替换:用一个紧凑的LLM风格架构(Qwen2 500M)取而代之

这一改变带来了最关键的特性。通过定制化的注意力掩码(Attention Mask),DeepEncoder V2实现了“双轨并行”的信息处理:

1.原始视觉Token:采用双向注意力,允许每个图像块看到全局信息,保留了类似ViT的全图感知能力

2.可学习查询:引入一组与视觉Token等量的“因果流查询”,采用因果注意力。每个查询Token只能关注它之前的所有查询Token以及全部的视觉Token。

这种设计使得“因果流查询”可以在看到完整视觉信息的基础上,逐步、有序地对这些信息进行重新梳理和排列,形成一个符合内容逻辑的“新阅读顺序”。

最终,只有这些经过重排序的“因果流查询”输出的特征,才会被送入后续的大语言模型解码器中。

这个过程,研究团队称之为 “视觉因果流”(Visual Causal Flow)

DeepEncoder V2 架构拆解

DeepSeek-OCR 2的整体架构依然由编码器和解码器组成,关键升级在于DeepEncoder V2。

1. 视觉分词器

与前代类似,V2首先使用一个80M参数的SAM-base和两个卷积层构成的视觉分词器,对输入图像进行处理。它能实现16倍的视觉Token压缩,极大地降低了后续模块的计算和存储开销。

2. 作为视觉编码器的语言模型

这是架构的核心。通过将视觉Token作为前缀(prefix)输入,并后缀拼接上可学习的“因果流查询”,整个模块可以在一个统一的Transformer架构内,同时完成全局信息建模和序列因果重排。

研究团队发现,这种“前缀+后缀”的解码器式(decoder-only)架构至关重要。相比之下,将视觉Token隔离在独立编码器中的类mBART架构,在实验中无法收敛。这表明,让视觉Token在所有层中保持“激活”状态,与因果流查询进行充分的信息交换是成功的关键。

为了处理不同分辨率的图像,模型采用了多裁剪(multi-crop)策略。一个1024x1024的全局视图产生256个Token,每个768x768的局部视图产生144个Token。通过组合0到6个局部视图,最终送入LLM的视觉Token数量在256到1120之间动态变化,与Gemini 3 Pro的最大视觉Token预算相当。

3. 定制化的注意力掩码

为了实现上述“双轨”机制,DeepEncoder V2使用了如下图所示的注意力掩码。

该掩码由两部分拼接而成:

左侧对应视觉Token,是一个全1的矩阵,实现双向注意力。

右侧对应因果流查询,是一个下三角矩阵,实现因果注意力。

这种设计巧妙地让模型在一个前向传播中,同时实现了对视觉内容的无序感知和有序梳理。

4. 整体流程

整个DeepSeek-OCR 2的前向传播可以概括为:编码器通过因果流查询对视觉Token进行语义重排,而解码器(沿用前代的DeepSeek-MoE 3B模型)则对这个已经符合逻辑顺序的序列进行自回归推理,生成最终结果。

这实际上构建了一个“两阶段级联的因果推理”:编码器负责阅读逻辑推理,解码器负责视觉任务推理

实验结果:全面超越前代,性能SOTA

研究团队在主流的文档理解基准 OmniDocBench v1.5上对DeepSeek-OCR 2进行了全面评估。该基准包含杂志、学术论文、报告等9大类共1355页文档,覆盖中英双语。

主要结果

如上表所示,DeepSeek-OCR 2在所有端到端模型中,使用最小的视觉Token上限(1120个),取得了91.09% 的SOTA综合得分。

与基线模型DeepSeek-OCR相比,在训练数据源相似的情况下,性能提升了3.73%

最关键的指标是阅读顺序(R-order)的编辑距离,该指标从0.085大幅降低至0.057(降低了32.9%),这强有力地证明了DeepEncoder V2能够有效根据图像信息,对视觉Token进行选择和排序,显著改善了模型的逻辑理解能力。

性能对比

在与Gemini 3 Pro的比较中,DeepSeek-OCR 2在相似的视觉Token预算下(1120),其整体编辑距离为0.100,优于Gemini 3 Pro的0.115,展现了更高的视觉信息压缩率和更强的性能

实用性验证

在生产环境中,模型的一个关键指标是重复率,它能反映模型是否真正理解了内容逻辑

结果显示,无论是处理在线用户日志图像还是PDF数据,DeepSeek-OCR 2的重复率都显著低于前代模型,证明了其架构在提升逻辑视觉理解能力方面的有效性。

下一步:迈向真正的2D推理与原生多模态

DeepSeek-OCR 2的探索并未止步于OCR。研究团队认为,这种架构为更宏大的目标铺平了道路。

1. 迈向真正的2D推理

“编码器重排阅读逻辑,解码器执行视觉任务”这种将2D理解分解为两个互补的1D因果推理子任务的模式,可能成为实现真正2D推理的突破口。未来,通过使用更长的因果流Token序列,模型或许能够实现对视觉内容的多次重检和多跳推理。

2. 迈向原生多模态

DeepEncoder V2验证了LLM风格编码器在视觉任务上的可行性。更重要的是,它有潜力演化成一个统一的全模态编码器

可以想象,未来只需要一个共享参数的编码器,通过加载不同模态(如文本、语音、视觉)专属的可学习查询,就能处理所有类型的信息。DeepSeek-OCR 2的光学压缩是向原生多模态迈出的第一步,而其LLM-style的编码器架构,则标志着更进一步的探索。

目前,DeepSeek-OCR 2的代码和模型权重均已在GitHub上开源。

GitHub地址:

http://github.com/deepseek-ai/DeepSeek-OCR-2

 

 

 


--end--


最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询