我要投稿

DeepSeek 和百度，把 OCR 推到了新水准

发布日期：2025-10-22 20:10:32 浏览次数： 3052

作者：AI产品阿颖

微信搜一搜，关注“AI产品阿颖”

昨天，DeepSeek OCR 那篇论文确实很火，打开 X，刷屏了。

朋友们告诉我，OCR 是 DeepSeek 团队近半年最重要的研究方向之一，他们在这上面花了很多心血。

DeepSeek-OCR 也许可以解决 LLM 处理长上下文时的计算瓶颈。

好像这两天大家都在集中讨论 DeepSeek 提出来的上下文光学压缩的新思路，很少有人测评 DeepSeek-OCR 的真实表现。

我们公司有一款扫描类的产品：聚创全能扫描王，已经做了五年时间。

过去这些年，我们一直在用百度开源的 PaddleOCR。

记得 2021 年，我们做过不少技术预研，测试了几个不同的 OCR 方案，包括云端的，还有开源的，最后觉得 PaddleOCR 是性价比最好的选择。

PaddleOCR 这些年在开源社区中影响力还是相当大，GitHub 中 Star 数超过了 60k。

2022 年参加百度的 OCR 分享，会议室里人挤人。早些年，OCR 还没被大厂重视的时候，百度确实还是做了很多事情。

对于我们这样扫描类产品而言，OCR 是核心的竞争力。

既然 DeepSeek OCR 发布了，而且还是小模型，部署成本极高。于是我们就准备做一个全面的测试，看一看它和我们之前的方案相比，哪个效果更好。

就在准备测试文档的档口，我们 CTO 发现，上周，百度也发布了 PaddleOCR 的新版本：PaddleOCR-VL。

这是一个多模态的文档解析模型，参数只有 0.9B，也就是说，它在我们的笔记本上都能顺畅地跑起来。

下面是对应的技术报告：

https://arxiv.org/pdf/2510.14528

百度这款新模型，在当时最新的权威测评榜单 OmniDocBench V1.5 中，横扫了文本识别、公式识别、表格理解、阅读顺序四项核心能力的 SOTA。

而且前几天，连续登顶 Hugging Face Trending 榜全球第一。

惭愧惭愧，我们团队孤陋寡闻了。我就说嘛，怎么昨天刷 X 时，好多老外都在评论区问它和 PadddleOCR 谁更强。

接下来，给大家看看我们团队基于 PadddleOCR-VL 和 DeepSeek-OCR 两个模型的测试结果。

根据我们的经验，测 OCR 的能力主要是需要涵盖印刷体和手写体中比较复杂的场景，比如说，多语言混合、拼音声调、数学公式、连笔字。

这些年，我们其实积累了一些 Case，所以，测试起来倒是很快。

PadddleOCR-VL 可以直接在 Hugging Face 上体验：

https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

不过目前，DeepSeek-OCR 还没有云端的 Demo 链接，我查了下，几个云平台也都没有提供一键部署的入口。

想体验的话，需要自己部署，GitHub 上有对应的操作步骤，非常简单。

我们开始。

我们先看看竖版的碑文。它有两个难点：

第一，传统的 OCR 系统通常是设计用来识别横排文字的，因此在处理竖排时，模型需要能理解文字的排列方式、字与字之间的上下关系，以及段落和行的组织结构。

第二，繁体字的结构复杂，OCR 在处理时需要更高的精准度和对字形的更深理解。特别是一些相似字形或形态较复杂的字，OCR 模型容易出现识别错误，而且不同书法风格下的写法差异也较大。

下面是我找到的碑文拓片（图片可上下滚动）。

是 PadddleOCR-VL 的识别结果：

这是 DeepSeek-OCR 的识别结果：

整体来看，百度和 DeepSeek 都没能 100% 完成内容的识别。

不过，百度的相对准确率更高一些。DeepSeek 居然把最后一列的夫字识别错了，低级错误。

我同事计算了下：百度错误率：8.16%，DeepSeek 错误率：18.37%。

咱们继续，看看手写的数学公式。下面是原图。为了方便大家复现，我都会把测试的图片给大家 Share 出来。

这些都是我们团队每次测评 OCR API 或者开源软件时，必定会用的 Case（图片可上下滚动）。

下面是 PaddleOCR-VL 的识别结果：

下面是 DeepSeek-OCR 识别结果：

DeepSeek 输出的是 LaTeX 的版本。综合对比了下，二者识别准确度一致。都对。

我们继续再看一个竖排文本（图片可上下滚动），这次的字迹有些模糊。

百度 PaddleOCR-VL 的结果：

DeepSeek-OCR 的结果：

二者的准确率都是 100%。看来在这种简单的 Case 上，大家都已经很能打了。

咱们继续往后走，加大难度，看看连笔字。这张图是我们从小红书找的现图（图片可上下滚动）。

这是 PaddleOCR-VL 的结果：

这是 DeepSeek-OCR 的结果：

在连笔字上，看来 DeepSeek 表现很差。我们连续测试了五次，结果 DeepSeek-OCR 都只能识别出来四个字。

另外，提一嘴，我发现 OCR 类模型，幻觉率很低。第一次出来的结果，和后面再重复测试，完全一样。

继续看看复杂图表：

下面是百度 PaadleOCR-VL 的结果：

下面是 DeepSeek-OCR 的结果：

很显然，百度的效果更好。DeepSeek-OCR 感觉没办法理解柱状图的意思。

降低难度，我们再测一个表格的例子。这类需求在我们产品中也非常多，我们需要 OCR 能够转为表格样式。

下面是 PaddleOCR-VL 的输出：

下面是 DeepSeek-OCR 的输出：

DeepSeek-OCR 和 PaddleOCR-VL 都能准确识别表格中的文字，这事难度不大。

但组合为结构化的表格，DeepSeek-OCR 出了一些差错，右边几列明显错位。我感觉在图表方面，DeepSeek-OCR 还有很大的优化空间。

我们再看一个化学方程式的识别。

百度 PaddleOCR-VL 的结果：

DeepSeek-OCR 的结果：

文字的识别二者都没问题。但 DeepSeek 没办法同时识别等号和反应条件.....PaddleOCR-VL 可以。

我们继续看看多语言混合场景的识别（图片可上下滚动）。

下面是百度 PaddleOCR-VL 的识别：

下面是 DeepSeek-OCR 的识别：

全对。看来多语言上，他们都很能打。

咱们再看看小学生拼音识别的语文题，这也是我们产品用户经常会用到的场景。

下面这张图的难点是需要识别出来声调，以及孩子写的有点蹩脚的汉字（图片可上下滚动）。

PaddleOCR-VL 的结果：

DeepSeek-OCR 的结果：

我们继续试试拼音放到右侧的情况（图片可上下滚动）。

下面是百度 PaddleOCR-VL 的识别结果：

下面是 DeepSeek-OCR 的识别结果（图片可上下滚动）：

这一次，二者的准确率就比较接近了。不过，如果要给它们打分的话，我们认为 DeepSeek-OCR 的表现稍好一些。

测完了。说下我的结论：

第一，毫无疑问，PaddleOCR-VL、DeepSeek-OCR，都是非常优秀的 OCR 模型。全球 Top3 的水准。

他们的识别准确率，高于市面上我们知道的其他所有产品。而且多语言支持都很不错。

第二，DeepSeek-OCR 的缺点是对于手写体，特别是连笔字的准确率很低。

而 PaddleOCR-VL 的缺点是在部分场景中，它会忽略拼音。要是二者能结合下就完美了:)

第三，从我的几个测试场景来看，整体表现 PaddleOCR-VL 优于 DeepSeek-OCR

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-12

当 AI Coding Agent 成为基础设施：我们为什么要开源 LoongSuite Pilot

2026-06-09

CPU 跑得比 Whisper GPU还快的开源语音识别，本地部署

2026-06-09

别再问我什么是爱马仕！

2026-06-09

Open Design：开源界的 Claude Design 替代品，61.7K Star，21+ Agent 都能跑，本地第一

2026-06-08

我开源了 PPT-Library：让历史 PPT 变成 AI 可复用资产

2026-06-08

knowledge-work-plugins：Anthropic 官方开源的知识工作插件集，19,000+Star

2026-06-08

从搜索、点击、表单填写到复杂网页操作，让 AI 像人一样使用浏览器

2026-06-08

比Codex快4倍！终于有开源模型卷本地Agent执行效率了～

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

2026-03-20

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部