免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek开源的不仅仅是个新OCR模型。。。

发布日期:2025-10-20 19:05:41 浏览次数: 1573
作者:AI工程化

微信搜一搜,关注“AI工程化”

推荐语

DeepSeek开源OCR模型颠覆传统:用视觉token压缩文本,效率提升10倍,成本大幅降低!

核心内容:
1. 创新思路:用视觉token高效表示长文本,突破传统OCR局限
2. 核心技术:DeepEncoder与MoE解码器架构,支持多分辨率处理
3. 应用价值:解决训练数据瓶颈、智能体记忆问题,重塑RAG技术格局

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

DeepSeek刚开源了一个新OCR模型,3B参数。

这不只是又一个 OCR 模型,而是对 AI 处理长文本方式的重新思考:用视觉 token 压缩文本信息。

核心思路

传统方式处理长文档需要大量文本 token,计算成本随序列长度二次增长。DeepSeek-OCR 的想法是:既然一张图片能包含大量文字信息,为什么不用更少的视觉 token 来表示?

从实验来看,这种思路是奏效的。在 10 倍压缩比内,模型的 OCR 解码精度能达到 97%。即使在 20 倍压缩比下,准确率仍有 60% 左右。换句话说,1000 个文本 token 的内容,用 100 个视觉 token 就能基本无损表示。

核心技术

DeepSeek-OCR 包含两个核心组件:DeepEncoder 和 DeepSeek3B-MoE 解码器。

DeepEncoder 是关键创新点。它串联了 SAM(负责窗口注意力的感知组件)和 CLIP(负责全局注意力的知识组件),中间通过 16 倍卷积压缩器连接。这样设计的好处是窗口注意力处理大量视觉 token,压缩器在进入密集全局注意力之前减少 token 数量,既保证了效果又控制了内存消耗。

多分辨率支持也很实用。从 512×512 的 Tiny 模式到 1280×1280 的 Large 模式,甚至支持动态分辨率的 Gundam 模式,能灵活应对不同场景需求。

性能表现

在 OmniDocBench 测试中,DeepSeek-OCR 仅用 100 个视觉 token 就超越了使用 256 个 token 的 GOT-OCR2.0,用不到 800 个视觉 token 就超过了需要近 7000 个 token 的 MinerU2.0。

更有意思的是不同文档类型的表现差异。幻灯片文档只需 64 个视觉 token 就能获得良好效果,书籍和报告用 100 个 token 就够了,但报纸需要 Gundam 模式才能达到可接受的准确率。这反映了不同文档类型的文本密度差异。

点评

DeepSeek思路就是“刁钻”。传统OCR只是把图片转文本,他们却思考怎么用视觉信息更高效地表示文本内容。

它带来的是直接的成本降低。一个 1 万页的文档库,传统方式需要 1000 万个文本 token,现在只需要 100 万个视觉 token。成本直接降了 10 倍。

更深层次,这种压缩不只是省钱,还解决了几个一直困扰算法和工程的大问题:

  1. 训练数据瓶颈消失了。多模态模型一直受限于数据处理能力,现在这个限制基本不存在。

  2. AI 智能体的记忆问题有了新解法。智能体最大的问题是会瞬间失忆,上下文太长就崩溃。渐进式压缩模拟了人类的遗忘曲线,让智能体能持续运行而不会因为上下文过载而失效。

  3. RAG可能要重新考虑存在价值。既然能把整个文档库压缩到上下文窗口里,为什么还要分块检索?直接把所有内容放进去处理就行。

  4. 实时 AI 应用变得经济可行。实时文档分析、流式 OCR、带视觉上下文的实时翻译,这些应用以前成本太高,现在门槛大幅降低。

或许,这也是有人称之为AI的“JPEG”时刻的原因吧。

不过,就像论文所说,这是一项方向探索,还主要局限在 OCR 任务上,很多实际问题需要进一步的验证。

地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

关注公众号“回复”进群入群讨论。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询