免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


给PM的DeepSeek-OCR深度解析,智能体上下文工程的范式转变

发布日期:2025-10-22 19:22:31 浏览次数: 1539
作者:辛康在进化

微信搜一搜,关注“辛康在进化”

推荐语

DeepSeek-OCR革新了信息处理方式,用视觉快照替代传统文本压缩,为智能体上下文工程带来突破性思路。

核心内容:
1. DeepSeek-OCR的核心原理:视觉压缩与信息保留机制
2. 与传统OCR及多模态模型的本质区别与优势对比
3. 对智能体记忆管理和RAG技术的潜在影响与革新方向

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近,DeepSeek 发布了 DeepSeek-OCR 视觉-语言模型(VLM),虽然名字里带了个 OCR ,但是两者其实有本质的区别。

传统的 OCR 是把图片里的文字识别并提取成文本。DeepSeek-OCR 是将长篇的文本内容压缩成一张信息密度极高的“视觉快照”,然后让大模型直接“看图”理解内容。

这种方式用更少的上下文窗口容纳了更多、更丰富的信息,同时计算成本指数级下降、处理速度也更快。

深度分析下来,除了论文提到的视觉记忆衰减机制,我认为这项技术将为智能体的上下文工程、RAG带来新的思路。接下来我就从产品经理的角度聊聊:

DeepSeek-OCR 究竟是什么?
它如何在信息量不变的情况下保持信息不过载?
为什么要专门设计模型而不是直接让多模态模型处理图片?
它为智能体的记忆管理带来了什么新思路?
它会取代 RAG 吗?

官方论文:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

DeepSeek-OCR 是什么?

众所周知,大模型都有一个上下文窗口限制,也就是它们一次能记住和处理的信息量是有限的。AI 助手或 Agent 需要感知大量且形态丰富的输入,比如用户输入、历史聊天、知识库、网页,现在的做法都是转化为文字存储并在需要时输入给大模型(上下文工程),这样做文字会占用大量上下文长度,并且在信息形态转化时还会有损耗。

DeepSeek-OCR的思路就是用高度压缩的视觉形态管理上下文,在极致压缩的同时保留更多信息量。

它首先是一个端到端的视觉-语言多模态模型,这意味着它可以直接接收图片形态的输入,并理解包含的信息,最后生成文本信息。

它由两部分组成:

编码器(DeepEncoder):负责拆解和压缩文档为图像,这里面有三个核心步骤:
细节扫描(SAM):把文档拆成小像素块(比如 1024×1024 的图拆成 4096 个小块),逐块捕捉细节,比如文字的笔画、小图标边缘、表格的线条。
打包(Conv):把上一步拆出来的4096个小像素块,压缩成256个视觉包裹(16 倍)。就像快递站把很多小包裹打包成大包裹,减少后续运输和处理的数量。压缩时不会丢关键信息,比如文字的顺序、表格的结构都能保住,只去掉重复或不重要的像素。
全局理解(CLIP):把“视觉包裹” 整合起来,搞懂整个文档的 “全局逻辑”,比如哪段文字在标题下面、表格在文字左边、公式属于哪段内容。
解码器(DeepSeek3B-MoE):负责翻译,也就是把编码器输出内容,翻译成人类能懂的内容。可以多专家协同,还可以指定只输出文本/带排版文本。

如何在信息量不变的情况下不过载?

不知道你有没有一样的疑问,虽然压缩以后可以把更多信息塞进上下文窗口,但是要理解的信息量是不变的,怎么保证处理信息时不会过载呢?

可以从两方面看:

大模型的过载,不是认知过载,而是计算过载。注意力机制的计算量与Token数量的平方成正比,所以才说计算量指数级下降。
传统长文本 (假设2万个Token)计算复杂度约等于4亿次的交互计算;
DeepSeek-OCR 压缩后 (2千个视觉 Token)计算复杂度约等于4百万次的交互计算。
处理单元的升级,从字母到视觉模式,模型不再是逐字逐句地“阅读”,而是在更高维度上直接“感知”整个文档的布局和内容模式。就像人类速读文档一样,大脑会并行地、整体地处理这些信息。

还有一个问题,文字之间是有逻辑关联的,通过像素块去理解,会不会忽略这些逻辑?或者其实还是转成文本再理解?

还是从两方面看:

像素本身不体现逻辑,但由像素构成的、人类文明几千年来沉淀下来的排版规范(标题、缩进、列表、表格),本身就是一种强大的、标准化的视觉逻辑语言。
视觉语言大模型并不是在像素层面去“拼凑”字母,而是建立了“文字的视觉模式”直达“语义概念”的快捷方式。
在 VLM 巨大的训练数据中,它已经见过无数次单词 “Apple” 的各种字体、各种大小的视觉形态。
当它处理文本时,它认识 Token "Apple"。
当它处理图像时,它认识由像素构成的视觉模式 "Apple"。
在它庞大的神经网络中,这两种不同来源的输入,最终会映射到同一个抽象的、内在的“苹果”概念上。

为什么要专门设计模型处理图片?

既然多模态模型能看图,PDF 本质上也是一页页的“图”,为什么不能直接把 PDF 截图(或渲染成图片)然后丢给模型呢?

这样也可以的,但效果会极其糟糕,而且成本高到无法接受。

问题一:质量与清晰度的灾难。要保证文档上的小字都能被清晰识别,图片就要高分辨率,但高分辨率又会导致 token 多。

问题二:信息编码效率极其低下。在文档图片里,白色的背景是完全无用的冗余信息,而黑色的文字笔画则是信息密度最高的部分。用通用的图像处理方式去编码文档图片,浪费了大量算力去处理无意义的白纸,效率极低。

DeepSeek-OCR 不是一个简单的截图工具,它是一个为 AI 的视觉系统量身定制的、信息密度极高的文档渲染引擎。它做了两件核心的创新:

1

创造了一种“AI友好”的特殊字体/字符集。它设计了一套全新的、极其紧凑的字符表示方法。在这个方法里,每一个字符都用最少的、最容易被 AI 视觉模块区分的视觉模式来表示。

2

智能化的版面压缩与重建。
它在渲染时,会智能地分析原始 PDF 的布局,丢弃掉所有不必要的空白。
它会把原始的文档结构(段落、表格、列表)用一种最优化的方式重新排列组合,塞进一张尺寸很小但信息密度极高的“视觉快照”里。
整个过程是可逆的,模型在“看”这张压缩图的时候,可以通过训练好的解码能力,完美地还原出原始的文档结构和所有文字。

智能体记忆管理新思路

遗忘机制是人类记忆最基本的特征之一。上下文光学压缩方法可以模拟这种机制:先将前几轮的历史文本渲染为图像进行初步压缩,然后逐步调整旧图像的尺寸以实现多级压缩。在此过程中,标记数量逐渐减少,文本变得越来越模糊,从而实现文本的遗忘。

这种方式确实是一种思路,不过人类的记忆机制是复杂的,且不一定完美,这种感觉更适用于那些不重要的叙事类的记忆,至于经验沉淀、终身难忘之类的记忆可学习推理记忆可能更合适。

它会取代 RAG 吗?

它不会杀死 RAG。恰恰相反,它把 RAG 从一个受限于上下文成本和信息碎片的瘸腿巨人,解放出来,让它真正拥有了处理海量、完整、复杂文档的火眼金睛。

首先,我们回顾一下 RAG的核心流程:

1
检索 (Retrieval):当用户提问时,系统首先从一个庞大的知识库(向量数据库)中,检索出与问题最相关的几个文本片段。
2
增强 (Augmentation):系统将这些检索到的文本片段,连同用户原始的问题,一起塞进大模型的上下文窗口里。
3
生成 (Generation):大模型基于被增强了的 Prompt,生成最终的答案。

这里面有几个瓶颈:

知识库向量化的成本巨大。
文档结构/多模态信息的缺失。(现在有多模态 RAG 方案就是解决这个问题)
还有就是上下文长度限制。

DeepSeek-OCR 可以如何赋能 RAG :

检索:前期只把知识库文档的元数据向量化,把文档内容压缩成视觉快照,搜索时返回 Top-K 篇相关文档的索引。
增强:直接加载这几篇完整文档的视觉快照。
模型状态:模型像是在一目十行地快速翻阅几份完整的原始报告,对所有内容和结构了如指掌。

对于产品经理而言,这意味着我们可以构建出回答质量、处理效率和成本效益都远超当前所有 RAG 产品的下一代知识管理和分析工具。

总结

对于企业来讲,DeepSeek-OCR的核心作用是将处理海量文档的成本中心,转变为企业的效率中心和智能中心。

对AI Agent 来说,DeepSeek-OCR 为上下文工程提供了新的发展方向。

作为产品经理,也许现在正是抓住机会构建真正自主智能体的最佳时机。

最后,如果内容对你有价值,别忘了点赞、关注、推荐,你的反馈对我十分重要。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询