微信扫码
添加专属顾问
我要投稿
DeepSeek开源OCR模型颠覆传统:用视觉token压缩文本,效率提升10倍,成本大幅降低! 核心内容: 1. 创新思路:用视觉token高效表示长文本,突破传统OCR局限 2. 核心技术:DeepEncoder与MoE解码器架构,支持多分辨率处理 3. 应用价值:解决训练数据瓶颈、智能体记忆问题,重塑RAG技术格局
DeepSeek刚开源了一个新OCR模型,3B参数。
这不只是又一个 OCR 模型,而是对 AI 处理长文本方式的重新思考:用视觉 token 压缩文本信息。
传统方式处理长文档需要大量文本 token,计算成本随序列长度二次增长。DeepSeek-OCR 的想法是:既然一张图片能包含大量文字信息,为什么不用更少的视觉 token 来表示?
从实验来看,这种思路是奏效的。在 10 倍压缩比内,模型的 OCR 解码精度能达到 97%。即使在 20 倍压缩比下,准确率仍有 60% 左右。换句话说,1000 个文本 token 的内容,用 100 个视觉 token 就能基本无损表示。
DeepSeek-OCR 包含两个核心组件:DeepEncoder 和 DeepSeek3B-MoE 解码器。
DeepEncoder 是关键创新点。它串联了 SAM(负责窗口注意力的感知组件)和 CLIP(负责全局注意力的知识组件),中间通过 16 倍卷积压缩器连接。这样设计的好处是窗口注意力处理大量视觉 token,压缩器在进入密集全局注意力之前减少 token 数量,既保证了效果又控制了内存消耗。
多分辨率支持也很实用。从 512×512 的 Tiny 模式到 1280×1280 的 Large 模式,甚至支持动态分辨率的 Gundam 模式,能灵活应对不同场景需求。
在 OmniDocBench 测试中,DeepSeek-OCR 仅用 100 个视觉 token 就超越了使用 256 个 token 的 GOT-OCR2.0,用不到 800 个视觉 token 就超过了需要近 7000 个 token 的 MinerU2.0。
更有意思的是不同文档类型的表现差异。幻灯片文档只需 64 个视觉 token 就能获得良好效果,书籍和报告用 100 个 token 就够了,但报纸需要 Gundam 模式才能达到可接受的准确率。这反映了不同文档类型的文本密度差异。
DeepSeek思路就是“刁钻”。传统OCR只是把图片转文本,他们却思考怎么用视觉信息更高效地表示文本内容。
它带来的是直接的成本降低。一个 1 万页的文档库,传统方式需要 1000 万个文本 token,现在只需要 100 万个视觉 token。成本直接降了 10 倍。
更深层次,这种压缩不只是省钱,还解决了几个一直困扰算法和工程的大问题:
训练数据瓶颈消失了。多模态模型一直受限于数据处理能力,现在这个限制基本不存在。
AI 智能体的记忆问题有了新解法。智能体最大的问题是会瞬间失忆,上下文太长就崩溃。渐进式压缩模拟了人类的遗忘曲线,让智能体能持续运行而不会因为上下文过载而失效。
RAG可能要重新考虑存在价值。既然能把整个文档库压缩到上下文窗口里,为什么还要分块检索?直接把所有内容放进去处理就行。
实时 AI 应用变得经济可行。实时文档分析、流式 OCR、带视觉上下文的实时翻译,这些应用以前成本太高,现在门槛大幅降低。
或许,这也是有人称之为AI的“JPEG”时刻的原因吧。
不过,就像论文所说,这是一项方向探索,还主要局限在 OCR 任务上,很多实际问题需要进一步的验证。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-05
开源算法能在 2025 年击败 GPT-5 吗?DeepSeek-V3.2 / Speciale 交出了一份答卷
2025-12-05
开源了首个用于诉讼的智能体框架 SuitAgent
2025-12-05
腾讯混元OCR大模型,本地部署,实测
2025-12-04
刚刚,法国Mistral 3系列模型发布, 全部开源、全部多模态、全部能落地,对标中国模型
2025-12-04
Transformers来到了v5时代:从工具包到真理之源,AI时代的操作系统内核的极简进化论
2025-12-04
Mistral 3发布,14B多模态小模型表现优异
2025-12-04
ollama v0.13.1 发布:全新 Ministral-3 与 Mistral-Large-3 模型,增强工具调用与GPU
2025-12-03
从硅谷杀出来一个彻底开源的AI记忆系统,是真的优雅!
2025-09-07
2025-10-20
2025-09-08
2025-11-19
2025-10-27
2025-10-27
2025-10-03
2025-09-17
2025-09-29
2025-10-29
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17