免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

DeepSeek-OCR 2 来了,让 AI 也能像人一样,带着逻辑去看图

发布日期:2026-01-27 15:09:57 浏览次数: 1648
作者:Ai学习的老章

微信搜一搜,关注“Ai学习的老章”

推荐语

DeepSeek-OCR 2 突破传统OCR局限,让AI像人类一样智能阅读复杂文档,视觉因果流技术带来革命性进步。

核心内容:
1. 传统OCR模型的局限性及DeepSeek-OCR 2的创新解决方案
2. 视觉因果流技术原理与DeepEncoder V2架构解析
3. 新模型在复杂文档处理上的性能提升与应用前景

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是 Ai 学习的老章

关于 大模型 OCR,我之前写过不少:

阿里Qwen3-Max-Thinking来了,加上TTS更强了,依然不开源昨天深夜刚发布,刚刚,DeepSeek 不声不响地开源了 DeepSeek-OCR 2

deepseek 起来干活.jpeg

这次不仅仅是版本号加了 1 这么简单,它提出了一个非常有意思的概念:视觉因果流(Visual Causal Flow)

简单来说,DeepSeek 觉得现有的 OCR 模型都在“死记硬背”,从左到右、从上到下地扫描图片,太僵硬了。而人类看东西是有逻辑的,我们会根据内容跳跃式地阅读,先看标题,再看图表,最后看正文。

DeepSeek-OCR 2 就是想让 AI 也能像人一样,带着逻辑去看图

简介

DeepSeek-OCR 2 的核心是为了解决传统视觉语言模型(VLM)在处理复杂文档时的“智障”行为。

传统的模型读取图片,就像一个只会按顺序念书的机器人,不管排版多么复杂(比如报纸、复杂的表格、数学公式),它都傻傻地按像素扫描顺序(光栅扫描顺序)来处理。这导致了很多逻辑上的错误,比如把分栏的文章读串行了,或者看不懂复杂的公式结构。

DeepSeek-OCR 2 引入了一个全新的编码器 DeepEncoder V2。这货最牛的地方是,它不像 CLIP 那样只是个“看图说话”的工具,它本身就是一个小型的 LLM(基于 Qwen2-0.5B 魔改)。

DeepEncoder V2 能够把图片里的视觉信息,重新排列组合,整理成符合人类逻辑的顺序,再喂给后面的大模型去生成文字。

这就像是你把一堆乱七八糟的拼图碎片交给你朋友之前,先把它们拼好了一部分,并且按顺序标好了号,你朋友(解码器 LLM)处理起来自然就轻松多了。

下图展示了 V1 和 V2 的架构对比,V2 显示了它是如何用 Learnable Query 来重新排序视觉信息的:

DeepEncoder V2 架构对比
DeepEncoder V2 架构对比

核心技术亮点:

  • 视觉因果流(Visual Causal Flow):通过可学习的 Query(查询向量),让模型自己决定看哪里,不再死板地按顺序扫描。
  • LLM 做视觉编码器:用 Qwen2-0.5B 替换了传统的 CLIP,让视觉编码器也具备了推理能力。
  • 高效压缩:视觉 Token 的数量控制在 256 到 1120 之间,既保证了信息量,又兼顾了推理速度(这也符合 Gemini 3 Pro 的 Token 预算)。
  • 性能提升:在 OmniDocBench v1.5 基准测试中,整体准确率达到了 **91.09%**,比上一代提升了 3.73%,而且在“阅读顺序”的准确性上大幅领先。

安装

环境要求比较新,需要 CUDA 11.8 以上,PyTorch 2.6.0。

# 1. 克隆代码
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git
cd DeepSeek-OCR-2

# 2. 创建环境
conda create -n deepseek-ocr2 python=3.12.9 -y
conda activate deepseek-ocr2

# 3. 安装依赖(注意 vLLM 版本)
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
# 这个 whl 包是官方指定的,专门适配的版本
pip install https://github.com/vllm-project/vllm/releases/download/v0.8.5/vllm-0.8.5+cu118-cp312-cp312-manylinux1_x86_64.whl
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

注意:官方文档里给的 vLLM 安装命令用的是 python 3.8 的 whl 包,但我上面创建环境用的是 python 3.12,所以这里的 vLLM 安装链接我做了一下修正(假设你有对应的 whl 或者直接 pip install vllm==0.8.5 尝试,推荐完全按照官方 README 的 Python 版本来,如果官方要求 3.12,那这里需要找对应 3.12 的包)。

修正:官方 README 里给的是 vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlabi3 的包通常兼容多个 Python 版本,所以直接用官方的命令应该没问题。

使用

DeepSeek-OCR 2 支持两种推理方式:vLLM(推荐,速度快)和 Transformers

1. Transformers 方式(适合调试)

from transformers import AutoModel, AutoTokenizer
import torch
import os

# 设置显卡
os.environ["CUDA_VISIBLE_DEVICES"] = '0'

model_name = 'deepseek-ai/DeepSeek-OCR-2'

# 加载模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# 提示词技巧:
# 文档转Markdown: <image>\n<|grounding|>Convert the document to markdown.
# 纯OCR: <image>\nFree OCR.
prompt = "<image>\n<|grounding|>Convert the document to markdown. "
image_file = '你的图片路径.jpg'
output_path = './output'

# 开始推理
res = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024
    image_size=768
    crop_mode=True
    save_results=True
)

print(f"结果已保存到 {output_path}")

2. vLLM 方式(适合生产环境)

进入 DeepSeek-OCR2-vllm 目录,官方提供了几个脚本:

  • run_dpsk_ocr2_image.py: 单图流式输出
  • run_dpsk_ocr2_pdf.py: PDF 批量处理(并发能力强)
cd DeepSeek-OCR2-master/DeepSeek-OCR2-vllm
python run_dpsk_ocr2_image.py

实测与分析

虽然我还没来得及在大规模数据集上跑一遍,但从技术原理和官方数据来看,DeepSeek-OCR 2 这次解决的是“痛点”。

优点:

  1. 逻辑清晰:以前用 OCR 识别多栏排版的论文或者报纸,经常读着读着就串行了。Visual Causal Flow 就是专门治这个的。
  2. 兼容性好:架构设计上非常接近现在的纯 LLM,甚至可以说它就是一个带了特殊眼镜的 LLM,这对后续的扩展和优化非常有利。
  3. 大厂出品:DeepSeek 的技术品味一直在线,代码质量和文档虽然简洁,但关键点都给到了。

缺点/门槛:

  1. 环境依赖:需要较新的 PyTorch 和 vLLM 版本,老机器或者显卡驱动太旧的可能需要折腾一下。
  2. 资源消耗:虽然说是“紧凑型”编码器,但毕竟加了一个 0.5B 的 LLM 做编码,加上原本的解码器,对显存和计算资源的要求肯定比单纯的 CNN 模型要高一些。

总结

DeepSeek-OCR 2 最大的贡献可能不是刷了多少榜,而是验证了 “用语言模型做视觉编码器” 这条路是通的,甚至是很宽的。

它告诉我们,看图不仅仅是像素的罗列,更是逻辑的重组。

如果你正在做文档解析、RAG(检索增强生成)或者需要处理复杂版面的业务,强烈建议你试一试 DeepSeek-OCR 2。它可能是目前开源界处理复杂文档逻辑最好的模型之一。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询