微信扫码
添加专属顾问
我要投稿
DeepSeek-OCR 2 突破传统OCR局限,让AI像人类一样智能阅读复杂文档,视觉因果流技术带来革命性进步。核心内容: 1. 传统OCR模型的局限性及DeepSeek-OCR 2的创新解决方案 2. 视觉因果流技术原理与DeepEncoder V2架构解析 3. 新模型在复杂文档处理上的性能提升与应用前景
大家好,我是 Ai 学习的老章
关于 大模型 OCR,我之前写过不少:
阿里Qwen3-Max-Thinking来了,加上TTS更强了,依然不开源昨天深夜刚发布,刚刚,DeepSeek 不声不响地开源了 DeepSeek-OCR 2。
这次不仅仅是版本号加了 1 这么简单,它提出了一个非常有意思的概念:视觉因果流(Visual Causal Flow)。
简单来说,DeepSeek 觉得现有的 OCR 模型都在“死记硬背”,从左到右、从上到下地扫描图片,太僵硬了。而人类看东西是有逻辑的,我们会根据内容跳跃式地阅读,先看标题,再看图表,最后看正文。
DeepSeek-OCR 2 就是想让 AI 也能像人一样,带着逻辑去看图。
DeepSeek-OCR 2 的核心是为了解决传统视觉语言模型(VLM)在处理复杂文档时的“智障”行为。
传统的模型读取图片,就像一个只会按顺序念书的机器人,不管排版多么复杂(比如报纸、复杂的表格、数学公式),它都傻傻地按像素扫描顺序(光栅扫描顺序)来处理。这导致了很多逻辑上的错误,比如把分栏的文章读串行了,或者看不懂复杂的公式结构。
DeepSeek-OCR 2 引入了一个全新的编码器 DeepEncoder V2。这货最牛的地方是,它不像 CLIP 那样只是个“看图说话”的工具,它本身就是一个小型的 LLM(基于 Qwen2-0.5B 魔改)。
DeepEncoder V2 能够把图片里的视觉信息,重新排列组合,整理成符合人类逻辑的顺序,再喂给后面的大模型去生成文字。
这就像是你把一堆乱七八糟的拼图碎片交给你朋友之前,先把它们拼好了一部分,并且按顺序标好了号,你朋友(解码器 LLM)处理起来自然就轻松多了。
下图展示了 V1 和 V2 的架构对比,V2 显示了它是如何用 Learnable Query 来重新排序视觉信息的:
核心技术亮点:
环境要求比较新,需要 CUDA 11.8 以上,PyTorch 2.6.0。
# 1. 克隆代码
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git
cd DeepSeek-OCR-2
# 2. 创建环境
conda create -n deepseek-ocr2 python=3.12.9 -y
conda activate deepseek-ocr2
# 3. 安装依赖(注意 vLLM 版本)
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
# 这个 whl 包是官方指定的,专门适配的版本
pip install https://github.com/vllm-project/vllm/releases/download/v0.8.5/vllm-0.8.5+cu118-cp312-cp312-manylinux1_x86_64.whl
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation
注意:官方文档里给的 vLLM 安装命令用的是 python 3.8 的 whl 包,但我上面创建环境用的是 python 3.12,所以这里的 vLLM 安装链接我做了一下修正(假设你有对应的 whl 或者直接 pip install vllm==0.8.5 尝试,推荐完全按照官方 README 的 Python 版本来,如果官方要求 3.12,那这里需要找对应 3.12 的包)。
修正:官方 README 里给的是 vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl,abi3 的包通常兼容多个 Python 版本,所以直接用官方的命令应该没问题。
DeepSeek-OCR 2 支持两种推理方式:vLLM(推荐,速度快)和 Transformers。
from transformers import AutoModel, AutoTokenizer
import torch
import os
# 设置显卡
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'
# 加载模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)
# 提示词技巧:
# 文档转Markdown: <image>\n<|grounding|>Convert the document to markdown.
# 纯OCR: <image>\nFree OCR.
prompt = "<image>\n<|grounding|>Convert the document to markdown. "
image_file = '你的图片路径.jpg'
output_path = './output'
# 开始推理
res = model.infer(
tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=768,
crop_mode=True,
save_results=True
)
print(f"结果已保存到 {output_path}")
进入 DeepSeek-OCR2-vllm 目录,官方提供了几个脚本:
run_dpsk_ocr2_image.py: 单图流式输出run_dpsk_ocr2_pdf.py: PDF 批量处理(并发能力强)cd DeepSeek-OCR2-master/DeepSeek-OCR2-vllm
python run_dpsk_ocr2_image.py
虽然我还没来得及在大规模数据集上跑一遍,但从技术原理和官方数据来看,DeepSeek-OCR 2 这次解决的是“痛点”。
优点:
缺点/门槛:
DeepSeek-OCR 2 最大的贡献可能不是刷了多少榜,而是验证了 “用语言模型做视觉编码器” 这条路是通的,甚至是很宽的。
它告诉我们,看图不仅仅是像素的罗列,更是逻辑的重组。
如果你正在做文档解析、RAG(检索增强生成)或者需要处理复杂版面的业务,强烈建议你试一试 DeepSeek-OCR 2。它可能是目前开源界处理复杂文档逻辑最好的模型之一。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-28
一文带你读懂DeepSeek-OCR 2的细节!附实测!
2026-01-27
DeepSeek出品,必是精品!DeepSeek-OCR 2发布:让LLM像人一样读懂复杂文档,效果超Gemini 3 Pro
2026-01-27
刚刚,DeepSeek又探索新架构了,开源OCR 2
2026-01-22
文心大模型5.0正式版,上线!
2026-01-21
构建物理 AI 的引擎:NVIDIA Cosmos
2026-01-20
多模态RAG不止知识问答:文搜图与图搜图的四种实现方案
2026-01-16
KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”
2026-01-10
Pulsar特性在AI场景中的使用
2025-11-10
2025-12-15
2025-12-06
2025-12-07
2025-10-31
2025-11-19
2025-12-11
2025-12-17
2026-01-10
2026-01-05
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26