微信扫码
添加专属顾问
我要投稿
DeepSeek-OCR 2突破传统视觉模型局限,模拟人类动态视觉扫描,实现91.09%的SOTA性能,超越Gemini 3 Pro。核心内容: 1. 传统视觉语言模型的局限与DeepSeek-OCR 2的创新 2. DeepEncoder V2架构的双轨并行处理机制 3. 在复杂文档解析上的突破性表现与开源信息
DeepSeek 在25年10月份发了deepseek-ocr的论文,当时引爆了网络,DeepSeek-OCR是一种探索通过光学2D映射来压缩长上下文的新方法。
我之前的文章:
DeepSeek OCR论文引爆网络!Andrej Karpathy:我很喜欢;马斯克:未来99%都是光子
DeepSeek王炸:10倍压缩率,97%解码精度!上下文光学压缩登场
刚刚DeepSeek又推出了DeepSeek-OCR 2,提出了一种全新的“视觉因果流”,模拟人类视觉的动态扫描模式,让模型能根据图像内容语义,智能地重排阅读顺序。基于这一新范式,DeepSeek-OCR 2在关键文档解析基准上实现了91.09%的SOTA性能,阅读顺序的错误率大幅降低,效果超越同视觉Token预算的Gemini 3 Pro。目前,代码和模型权重均已开源
当你看一篇论文或一张海报时,你的眼睛会怎么动?
大概率不是像机器一样,严格地从左上角到右下角进行光栅扫描。相反,你会根据标题、图表、段落等逻辑结构,灵活地、有重点地移动视线。每一次“注视”都和前一次的理解有关,这是一个遵循因果逻辑的序列过程。
然而,传统的视觉语言模型(VLM)在处理图像时,恰恰违背了这种人类视觉的认知机制。它们将图像块展平为一维序列,用固定的位置编码强行赋予一个僵化的阅读顺序,这引入了“不合理的归纳偏见”,尤其是在处理布局复杂的文档、表格和公式时,会严重影响理解能力。
为了解决这个问题,DeepSeek 推出了 DeepSeek-OCR 2,其核心是提出了一种全新的视觉编码器——DeepEncoder V2,旨在赋予模型因果推理的能力。
这项工作探索了一个全新的范式:能否通过两个级联的一维因果推理结构,来高效实现二维图像的理解?
这或许是通往真正“2D推理”的一条新路径。
DeepSeek-OCR 2的架构革新,集中在它的视觉编码器DeepEncoder V2上。
相较于前代DeepEncoder使用CLIP作为视觉知识压缩模块,V2版本做了一个大胆的替换:用一个紧凑的LLM风格架构(Qwen2 500M)取而代之
这一改变带来了最关键的特性。通过定制化的注意力掩码(Attention Mask),DeepEncoder V2实现了“双轨并行”的信息处理:
1.原始视觉Token:采用双向注意力,允许每个图像块看到全局信息,保留了类似ViT的全图感知能力
2.可学习查询:引入一组与视觉Token等量的“因果流查询”,采用因果注意力。每个查询Token只能关注它之前的所有查询Token以及全部的视觉Token。
这种设计使得“因果流查询”可以在看到完整视觉信息的基础上,逐步、有序地对这些信息进行重新梳理和排列,形成一个符合内容逻辑的“新阅读顺序”。
最终,只有这些经过重排序的“因果流查询”输出的特征,才会被送入后续的大语言模型解码器中。
这个过程,研究团队称之为 “视觉因果流”(Visual Causal Flow)。
DeepSeek-OCR 2的整体架构依然由编码器和解码器组成,关键升级在于DeepEncoder V2。
1. 视觉分词器
与前代类似,V2首先使用一个80M参数的SAM-base和两个卷积层构成的视觉分词器,对输入图像进行处理。它能实现16倍的视觉Token压缩,极大地降低了后续模块的计算和存储开销。
2. 作为视觉编码器的语言模型
这是架构的核心。通过将视觉Token作为前缀(prefix)输入,并后缀拼接上可学习的“因果流查询”,整个模块可以在一个统一的Transformer架构内,同时完成全局信息建模和序列因果重排。
研究团队发现,这种“前缀+后缀”的解码器式(decoder-only)架构至关重要。相比之下,将视觉Token隔离在独立编码器中的类mBART架构,在实验中无法收敛。这表明,让视觉Token在所有层中保持“激活”状态,与因果流查询进行充分的信息交换是成功的关键。
为了处理不同分辨率的图像,模型采用了多裁剪(multi-crop)策略。一个1024x1024的全局视图产生256个Token,每个768x768的局部视图产生144个Token。通过组合0到6个局部视图,最终送入LLM的视觉Token数量在256到1120之间动态变化,与Gemini 3 Pro的最大视觉Token预算相当。
3. 定制化的注意力掩码
为了实现上述“双轨”机制,DeepEncoder V2使用了如下图所示的注意力掩码。
该掩码由两部分拼接而成:
左侧对应视觉Token,是一个全1的矩阵,实现双向注意力。
右侧对应因果流查询,是一个下三角矩阵,实现因果注意力。
这种设计巧妙地让模型在一个前向传播中,同时实现了对视觉内容的无序感知和有序梳理。
4. 整体流程
整个DeepSeek-OCR 2的前向传播可以概括为:编码器通过因果流查询对视觉Token进行语义重排,而解码器(沿用前代的DeepSeek-MoE 3B模型)则对这个已经符合逻辑顺序的序列进行自回归推理,生成最终结果。
这实际上构建了一个“两阶段级联的因果推理”:编码器负责阅读逻辑推理,解码器负责视觉任务推理
研究团队在主流的文档理解基准 OmniDocBench v1.5上对DeepSeek-OCR 2进行了全面评估。该基准包含杂志、学术论文、报告等9大类共1355页文档,覆盖中英双语。
主要结果
如上表所示,DeepSeek-OCR 2在所有端到端模型中,使用最小的视觉Token上限(1120个),取得了91.09% 的SOTA综合得分。
与基线模型DeepSeek-OCR相比,在训练数据源相似的情况下,性能提升了3.73%
最关键的指标是阅读顺序(R-order)的编辑距离,该指标从0.085大幅降低至0.057(降低了32.9%),这强有力地证明了DeepEncoder V2能够有效根据图像信息,对视觉Token进行选择和排序,显著改善了模型的逻辑理解能力。
性能对比
在与Gemini 3 Pro的比较中,DeepSeek-OCR 2在相似的视觉Token预算下(1120),其整体编辑距离为0.100,优于Gemini 3 Pro的0.115,展现了更高的视觉信息压缩率和更强的性能
实用性验证
在生产环境中,模型的一个关键指标是重复率,它能反映模型是否真正理解了内容逻辑
结果显示,无论是处理在线用户日志图像还是PDF数据,DeepSeek-OCR 2的重复率都显著低于前代模型,证明了其架构在提升逻辑视觉理解能力方面的有效性。
DeepSeek-OCR 2的探索并未止步于OCR。研究团队认为,这种架构为更宏大的目标铺平了道路。
1. 迈向真正的2D推理
“编码器重排阅读逻辑,解码器执行视觉任务”这种将2D理解分解为两个互补的1D因果推理子任务的模式,可能成为实现真正2D推理的突破口。未来,通过使用更长的因果流Token序列,模型或许能够实现对视觉内容的多次重检和多跳推理。
2. 迈向原生多模态
DeepEncoder V2验证了LLM风格编码器在视觉任务上的可行性。更重要的是,它有潜力演化成一个统一的全模态编码器。
可以想象,未来只需要一个共享参数的编码器,通过加载不同模态(如文本、语音、视觉)专属的可学习查询,就能处理所有类型的信息。DeepSeek-OCR 2的光学压缩是向原生多模态迈出的第一步,而其LLM-style的编码器架构,则标志着更进一步的探索。
目前,DeepSeek-OCR 2的代码和模型权重均已在GitHub上开源。
GitHub地址:
http://github.com/deepseek-ai/DeepSeek-OCR-2
--end--
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-27
DeepSeek-OCR 2 来了,让 AI 也能像人一样,带着逻辑去看图
2026-01-27
刚刚,DeepSeek又探索新架构了,开源OCR 2
2026-01-22
文心大模型5.0正式版,上线!
2026-01-21
构建物理 AI 的引擎:NVIDIA Cosmos
2026-01-20
多模态RAG不止知识问答:文搜图与图搜图的四种实现方案
2026-01-16
KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”
2026-01-10
Pulsar特性在AI场景中的使用
2026-01-10
多模态检索新突破!Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么,从图片到视频全拿下!
2025-11-10
2025-12-15
2025-12-06
2025-12-07
2025-10-31
2025-11-19
2025-12-11
2025-12-17
2026-01-10
2026-01-05
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26