我要投稿

DeepSeek开源的不仅仅是个新OCR模型。。。

发布日期：2025-10-20 19:05:41 浏览次数： 2094

作者：AI工程化

微信搜一搜，关注“AI工程化”

DeepSeek刚开源了一个新OCR模型，3B参数。

这不只是又一个 OCR 模型，而是对 AI 处理长文本方式的重新思考：用视觉 token 压缩文本信息。

核心思路

传统方式处理长文档需要大量文本 token，计算成本随序列长度二次增长。DeepSeek-OCR 的想法是：既然一张图片能包含大量文字信息，为什么不用更少的视觉 token 来表示？

从实验来看，这种思路是奏效的。在 10 倍压缩比内，模型的 OCR 解码精度能达到 97%。即使在 20 倍压缩比下，准确率仍有 60% 左右。换句话说，1000 个文本 token 的内容，用 100 个视觉 token 就能基本无损表示。

核心技术

DeepSeek-OCR 包含两个核心组件：DeepEncoder 和 DeepSeek3B-MoE 解码器。

DeepEncoder 是关键创新点。它串联了 SAM（负责窗口注意力的感知组件）和 CLIP（负责全局注意力的知识组件），中间通过 16 倍卷积压缩器连接。这样设计的好处是窗口注意力处理大量视觉 token，压缩器在进入密集全局注意力之前减少 token 数量，既保证了效果又控制了内存消耗。

多分辨率支持也很实用。从 512×512 的 Tiny 模式到 1280×1280 的 Large 模式，甚至支持动态分辨率的 Gundam 模式，能灵活应对不同场景需求。

性能表现

在 OmniDocBench 测试中，DeepSeek-OCR 仅用 100 个视觉 token 就超越了使用 256 个 token 的 GOT-OCR2.0，用不到 800 个视觉 token 就超过了需要近 7000 个 token 的 MinerU2.0。

更有意思的是不同文档类型的表现差异。幻灯片文档只需 64 个视觉 token 就能获得良好效果，书籍和报告用 100 个 token 就够了，但报纸需要 Gundam 模式才能达到可接受的准确率。这反映了不同文档类型的文本密度差异。

点评

DeepSeek思路就是“刁钻”。传统OCR只是把图片转文本，他们却思考怎么用视觉信息更高效地表示文本内容。

它带来的是直接的成本降低。一个 1 万页的文档库，传统方式需要 1000 万个文本 token，现在只需要 100 万个视觉 token。成本直接降了 10 倍。

更深层次，这种压缩不只是省钱，还解决了几个一直困扰算法和工程的大问题：

训练数据瓶颈消失了。多模态模型一直受限于数据处理能力，现在这个限制基本不存在。
AI 智能体的记忆问题有了新解法。智能体最大的问题是会瞬间失忆，上下文太长就崩溃。渐进式压缩模拟了人类的遗忘曲线，让智能体能持续运行而不会因为上下文过载而失效。
RAG可能要重新考虑存在价值。既然能把整个文档库压缩到上下文窗口里，为什么还要分块检索？直接把所有内容放进去处理就行。
实时 AI 应用变得经济可行。实时文档分析、流式 OCR、带视觉上下文的实时翻译，这些应用以前成本太高，现在门槛大幅降低。

或许，这也是有人称之为AI的“JPEG”时刻的原因吧。

不过，就像论文所说，这是一项方向探索，还主要局限在 OCR 任务上，很多实际问题需要进一步的验证。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-05

开源算法能在 2025 年击败 GPT-5 吗？DeepSeek-V3.2 / Speciale 交出了一份答卷

2025-12-05

开源了首个用于诉讼的智能体框架 SuitAgent

2025-12-05

腾讯混元OCR大模型，本地部署，实测

2025-12-04

刚刚，法国Mistral 3系列模型发布，全部开源、全部多模态、全部能落地，对标中国模型

2025-12-04

Transformers来到了v5时代：从工具包到真理之源，AI时代的操作系统内核的极简进化论

2025-12-04

Mistral 3发布，14B多模态小模型表现优异

2025-12-04

ollama v0.13.1 发布：全新 Ministral-3 与 Mistral-Large-3 模型，增强工具调用与GPU

2025-12-03

从硅谷杀出来一个彻底开源的AI记忆系统，是真的优雅！

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

Claude不让用，有哪些国产模型能迎头赶上？

2025-09-08

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

发现一个超神的Github开源OCR项目，国产多模态杀疯了

2025-10-27

MiniMax悄悄发布M2，8%价格打出Claude级性能

2025-10-27

如愿以偿！Qwen3-VL再开源30B-A3B，附实测！

2025-10-03

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

大家都在问

我们为什么选择 Spring AI 开发智能体，而不是 Dify？

2025-11-12

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者？

2025-11-10

DeepSeek-OCR到底厉害在哪？

2025-11-03

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部