我要投稿

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

发布日期：2026-01-27 15:09:57 浏览次数： 2403

作者：Ai学习的老章

微信搜一搜，关注“Ai学习的老章”

大家好，我是 Ai 学习的老章

关于大模型 OCR，我之前写过不少：

阿里Qwen3-Max-Thinking来了，加上TTS更强了，依然不开源昨天深夜刚发布，刚刚，DeepSeek 不声不响地开源了 DeepSeek-OCR 2。

这次不仅仅是版本号加了 1 这么简单，它提出了一个非常有意思的概念：视觉因果流（Visual Causal Flow）。

简单来说，DeepSeek 觉得现有的 OCR 模型都在“死记硬背”，从左到右、从上到下地扫描图片，太僵硬了。而人类看东西是有逻辑的，我们会根据内容跳跃式地阅读，先看标题，再看图表，最后看正文。

DeepSeek-OCR 2 就是想让 AI 也能像人一样，带着逻辑去看图。

简介

DeepSeek-OCR 2 的核心是为了解决传统视觉语言模型（VLM）在处理复杂文档时的“智障”行为。

传统的模型读取图片，就像一个只会按顺序念书的机器人，不管排版多么复杂（比如报纸、复杂的表格、数学公式），它都傻傻地按像素扫描顺序（光栅扫描顺序）来处理。这导致了很多逻辑上的错误，比如把分栏的文章读串行了，或者看不懂复杂的公式结构。

DeepSeek-OCR 2 引入了一个全新的编码器 DeepEncoder V2。这货最牛的地方是，它不像 CLIP 那样只是个“看图说话”的工具，它本身就是一个小型的 LLM（基于 Qwen2-0.5B 魔改）。

DeepEncoder V2 能够把图片里的视觉信息，重新排列组合，整理成符合人类逻辑的顺序，再喂给后面的大模型去生成文字。

这就像是你把一堆乱七八糟的拼图碎片交给你朋友之前，先把它们拼好了一部分，并且按顺序标好了号，你朋友（解码器 LLM）处理起来自然就轻松多了。

下图展示了 V1 和 V2 的架构对比，V2 显示了它是如何用 Learnable Query 来重新排序视觉信息的：

核心技术亮点：

视觉因果流（Visual Causal Flow）：通过可学习的 Query（查询向量），让模型自己决定看哪里，不再死板地按顺序扫描。
LLM 做视觉编码器：用 Qwen2-0.5B 替换了传统的 CLIP，让视觉编码器也具备了推理能力。
高效压缩：视觉 Token 的数量控制在 256 到 1120 之间，既保证了信息量，又兼顾了推理速度（这也符合 Gemini 3 Pro 的 Token 预算）。
性能提升：在 OmniDocBench v1.5 基准测试中，整体准确率达到了 **91.09%**，比上一代提升了 3.73%，而且在“阅读顺序”的准确性上大幅领先。

安装

环境要求比较新，需要 CUDA 11.8 以上，PyTorch 2.6.0。

# 1. 克隆代码
git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git
cd DeepSeek-OCR-2

# 2. 创建环境
conda create -n deepseek-ocr2 python=3.12.9 -y
conda activate deepseek-ocr2

# 3. 安装依赖（注意 vLLM 版本）
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
# 这个 whl 包是官方指定的，专门适配的版本
pip install https://github.com/vllm-project/vllm/releases/download/v0.8.5/vllm-0.8.5+cu118-cp312-cp312-manylinux1_x86_64.whl
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

注意：官方文档里给的 vLLM 安装命令用的是 python 3.8 的 whl 包，但我上面创建环境用的是 python 3.12，所以这里的 vLLM 安装链接我做了一下修正（假设你有对应的 whl 或者直接 pip install vllm==0.8.5 尝试，推荐完全按照官方 README 的 Python 版本来，如果官方要求 3.12，那这里需要找对应 3.12 的包）。

修正：官方 README 里给的是 vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl，abi3 的包通常兼容多个 Python 版本，所以直接用官方的命令应该没问题。

使用

DeepSeek-OCR 2 支持两种推理方式：vLLM（推荐，速度快）和 Transformers。

1. Transformers 方式（适合调试）

from transformers import AutoModel, AutoTokenizer
import torch
import os

# 设置显卡
os.environ["CUDA_VISIBLE_DEVICES"] = '0'

model_name = 'deepseek-ai/DeepSeek-OCR-2'

# 加载模型
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# 提示词技巧：
# 文档转Markdown: <image>\n<|grounding|>Convert the document to markdown.
# 纯OCR: <image>\nFree OCR.
prompt = "<image>\n<|grounding|>Convert the document to markdown. "
image_file = '你的图片路径.jpg'
output_path = './output'

# 开始推理
res = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

print(f"结果已保存到 {output_path}")

2. vLLM 方式（适合生产环境）

进入 DeepSeek-OCR2-vllm 目录，官方提供了几个脚本：

run_dpsk_ocr2_image.py: 单图流式输出
run_dpsk_ocr2_pdf.py: PDF 批量处理（并发能力强）

cd DeepSeek-OCR2-master/DeepSeek-OCR2-vllm
python run_dpsk_ocr2_image.py

实测与分析

虽然我还没来得及在大规模数据集上跑一遍，但从技术原理和官方数据来看，DeepSeek-OCR 2 这次解决的是“痛点”。

优点：

逻辑清晰：以前用 OCR 识别多栏排版的论文或者报纸，经常读着读着就串行了。Visual Causal Flow 就是专门治这个的。
兼容性好：架构设计上非常接近现在的纯 LLM，甚至可以说它就是一个带了特殊眼镜的 LLM，这对后续的扩展和优化非常有利。
大厂出品：DeepSeek 的技术品味一直在线，代码质量和文档虽然简洁，但关键点都给到了。

缺点/门槛：

环境依赖：需要较新的 PyTorch 和 vLLM 版本，老机器或者显卡驱动太旧的可能需要折腾一下。
资源消耗：虽然说是“紧凑型”编码器，但毕竟加了一个 0.5B 的 LLM 做编码，加上原本的解码器，对显存和计算资源的要求肯定比单纯的 CNN 模型要高一些。

总结

DeepSeek-OCR 2 最大的贡献可能不是刷了多少榜，而是验证了 “用语言模型做视觉编码器” 这条路是通的，甚至是很宽的。

它告诉我们，看图不仅仅是像素的罗列，更是逻辑的重组。

如果你正在做文档解析、RAG（检索增强生成）或者需要处理复杂版面的业务，强烈建议你试一试 DeepSeek-OCR 2。它可能是目前开源界处理复杂文档逻辑最好的模型之一。

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-12

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-11

Gemini Embedding 2：首个原生五模态 embedding 模型

2026-03-11

Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

2026-03-11

谷歌首个原生多模态向量模型发布：Agent 可以用文字搜图片、用图片搜视频了...

2026-03-05

零帧起手 Codex × Figma 双向工作流实操

2026-02-27

NanoBanana 2.0 来了，对比前一代和即梦 5.0 lite，它依旧强的离谱

2026-02-25

AI真人数字人语音对话性能优化实践总结

2026-02-13

“思考”更深，生成更准｜Seedream 5.0 Lite 发布

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

2026-01-10

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

Seedance 2.0 正式发布

2026-02-12

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

2026-01-27

KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理“知其然，更知其所以然”

2026-01-16

Seedance 2.0上线火山方舟体验中心，API即将开放

2026-02-12

面向业务落地的AI产品评测体系设计与平台实现

2025-12-17

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw