我要投稿

给PM的DeepSeek-OCR深度解析，智能体上下文工程的范式转变

发布日期：2025-10-22 19:22:31 浏览次数： 2078

作者：辛康在进化

微信搜一搜，关注“辛康在进化”

最近，DeepSeek 发布了 DeepSeek-OCR 视觉-语言模型（VLM），虽然名字里带了个 OCR ，但是两者其实有本质的区别。

传统的 OCR 是把图片里的文字识别并提取成文本。DeepSeek-OCR 是将长篇的文本内容压缩成一张信息密度极高的“视觉快照”，然后让大模型直接“看图”理解内容。

这种方式用更少的上下文窗口容纳了更多、更丰富的信息，同时计算成本指数级下降、处理速度也更快。

深度分析下来，除了论文提到的视觉记忆衰减机制，我认为这项技术将为智能体的上下文工程、RAG带来新的思路。接下来我就从产品经理的角度聊聊：

•

DeepSeek-OCR 究竟是什么？

•

它如何在信息量不变的情况下保持信息不过载？

•

为什么要专门设计模型而不是直接让多模态模型处理图片？

•

它为智能体的记忆管理带来了什么新思路？

•

它会取代 RAG 吗？

官方论文：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

DeepSeek-OCR 是什么？

众所周知，大模型都有一个上下文窗口限制，也就是它们一次能记住和处理的信息量是有限的。AI 助手或 Agent 需要感知大量且形态丰富的输入，比如用户输入、历史聊天、知识库、网页，现在的做法都是转化为文字存储并在需要时输入给大模型（上下文工程），这样做文字会占用大量上下文长度，并且在信息形态转化时还会有损耗。

DeepSeek-OCR的思路就是用高度压缩的视觉形态管理上下文，在极致压缩的同时保留更多信息量。

它首先是一个端到端的视觉-语言多模态模型，这意味着它可以直接接收图片形态的输入，并理解包含的信息，最后生成文本信息。

它由两部分组成：

•

编码器（DeepEncoder）：负责拆解和压缩文档为图像，这里面有三个核心步骤：

•

细节扫描（SAM）：把文档拆成小像素块（比如 1024×1024 的图拆成 4096 个小块），逐块捕捉细节，比如文字的笔画、小图标边缘、表格的线条。

•

打包（Conv）：把上一步拆出来的4096个小像素块，压缩成256个视觉包裹（16 倍）。就像快递站把很多小包裹打包成大包裹，减少后续运输和处理的数量。压缩时不会丢关键信息，比如文字的顺序、表格的结构都能保住，只去掉重复或不重要的像素。

•

全局理解（CLIP）：把“视觉包裹” 整合起来，搞懂整个文档的 “全局逻辑”，比如哪段文字在标题下面、表格在文字左边、公式属于哪段内容。

•

解码器（DeepSeek3B-MoE）：负责翻译，也就是把编码器输出内容，翻译成人类能懂的内容。可以多专家协同，还可以指定只输出文本/带排版文本。

如何在信息量不变的情况下不过载？

不知道你有没有一样的疑问，虽然压缩以后可以把更多信息塞进上下文窗口，但是要理解的信息量是不变的，怎么保证处理信息时不会过载呢？

可以从两方面看：

•

大模型的过载，不是认知过载，而是计算过载。注意力机制的计算量与Token数量的平方成正比，所以才说计算量指数级下降。

•

传统长文本 (假设2万个Token)计算复杂度约等于4亿次的交互计算；

•

DeepSeek-OCR 压缩后 (2千个视觉 Token)计算复杂度约等于4百万次的交互计算。

•

处理单元的升级，从字母到视觉模式，模型不再是逐字逐句地“阅读”，而是在更高维度上直接“感知”整个文档的布局和内容模式。就像人类速读文档一样，大脑会并行地、整体地处理这些信息。

还有一个问题，文字之间是有逻辑关联的，通过像素块去理解，会不会忽略这些逻辑？或者其实还是转成文本再理解？

还是从两方面看：

•

像素本身不体现逻辑，但由像素构成的、人类文明几千年来沉淀下来的排版规范（标题、缩进、列表、表格），本身就是一种强大的、标准化的视觉逻辑语言。

•

视觉语言大模型并不是在像素层面去“拼凑”字母，而是建立了“文字的视觉模式”直达“语义概念”的快捷方式。

•

在 VLM 巨大的训练数据中，它已经见过无数次单词 “Apple” 的各种字体、各种大小的视觉形态。

•

当它处理文本时，它认识 Token "Apple"。

•

当它处理图像时，它认识由像素构成的视觉模式 "Apple"。

•

在它庞大的神经网络中，这两种不同来源的输入，最终会映射到同一个抽象的、内在的“苹果”概念上。

为什么要专门设计模型处理图片？

既然多模态模型能看图，PDF 本质上也是一页页的“图”，为什么不能直接把 PDF 截图（或渲染成图片）然后丢给模型呢？

这样也可以的，但效果会极其糟糕，而且成本高到无法接受。

问题一：质量与清晰度的灾难。要保证文档上的小字都能被清晰识别，图片就要高分辨率，但高分辨率又会导致 token 多。

问题二：信息编码效率极其低下。在文档图片里，白色的背景是完全无用的冗余信息，而黑色的文字笔画则是信息密度最高的部分。用通用的图像处理方式去编码文档图片，浪费了大量算力去处理无意义的白纸，效率极低。

DeepSeek-OCR 不是一个简单的截图工具，它是一个为 AI 的视觉系统量身定制的、信息密度极高的文档渲染引擎。它做了两件核心的创新：

创造了一种“AI友好”的特殊字体/字符集。它设计了一套全新的、极其紧凑的字符表示方法。在这个方法里，每一个字符都用最少的、最容易被 AI 视觉模块区分的视觉模式来表示。

智能化的版面压缩与重建。
它在渲染时，会智能地分析原始 PDF 的布局，丢弃掉所有不必要的空白。
它会把原始的文档结构（段落、表格、列表）用一种最优化的方式重新排列组合，塞进一张尺寸很小但信息密度极高的“视觉快照”里。
整个过程是可逆的，模型在“看”这张压缩图的时候，可以通过训练好的解码能力，完美地还原出原始的文档结构和所有文字。