微信扫码
添加专属顾问
我要投稿
DeepSeek与百度在OCR技术上的最新突破,谁更胜一筹?我们实测了两大模型的性能表现。核心内容: 1. DeepSeek-OCR与PaddleOCR-VL的技术特点与部署差异 2. 多场景下的OCR性能实测对比(多语言/公式/手写体) 3. 开源OCR技术的最新发展趋势与行业影响
昨天,DeepSeek OCR 那篇论文确实很火,打开 X,刷屏了。
朋友们告诉我,OCR 是 DeepSeek 团队近半年最重要的研究方向之一,他们在这上面花了很多心血。
DeepSeek-OCR 也许可以解决 LLM 处理长上下文时的计算瓶颈。
好像这两天大家都在集中讨论 DeepSeek 提出来的上下文光学压缩的新思路,很少有人测评 DeepSeek-OCR 的真实表现。
我们公司有一款扫描类的产品:聚创全能扫描王,已经做了五年时间。
过去这些年,我们一直在用百度开源的 PaddleOCR。
记得 2021 年,我们做过不少技术预研,测试了几个不同的 OCR 方案,包括云端的,还有开源的,最后觉得 PaddleOCR 是性价比最好的选择。
PaddleOCR 这些年在开源社区中影响力还是相当大,GitHub 中 Star 数超过了 60k。
2022 年参加百度的 OCR 分享,会议室里人挤人。早些年,OCR 还没被大厂重视的时候,百度确实还是做了很多事情。
对于我们这样扫描类产品而言,OCR 是核心的竞争力。
既然 DeepSeek OCR 发布了,而且还是小模型,部署成本极高。于是我们就准备做一个全面的测试,看一看它和我们之前的方案相比,哪个效果更好。
就在准备测试文档的档口,我们 CTO 发现,上周,百度也发布了 PaddleOCR 的新版本:PaddleOCR-VL。
这是一个多模态的文档解析模型,参数只有 0.9B,也就是说,它在我们的笔记本上都能顺畅地跑起来。
下面是对应的技术报告:
https://arxiv.org/pdf/2510.14528
百度这款新模型,在当时最新的权威测评榜单 OmniDocBench V1.5 中,横扫了文本识别、公式识别、表格理解、阅读顺序四项核心能力的 SOTA。
而且前几天,连续登顶 Hugging Face Trending 榜全球第一。
惭愧惭愧,我们团队孤陋寡闻了。我就说嘛,怎么昨天刷 X 时,好多老外都在评论区问它和 PadddleOCR 谁更强。
接下来,给大家看看我们团队基于 PadddleOCR-VL 和 DeepSeek-OCR 两个模型的测试结果。
根据我们的经验,测 OCR 的能力主要是需要涵盖印刷体和手写体中比较复杂的场景,比如说,多语言混合、拼音声调、数学公式、连笔字。
这些年,我们其实积累了一些 Case,所以,测试起来倒是很快。
PadddleOCR-VL 可以直接在 Hugging Face 上体验:
https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
不过目前,DeepSeek-OCR 还没有云端的 Demo 链接,我查了下,几个云平台也都没有提供一键部署的入口。
想体验的话,需要自己部署,GitHub 上有对应的操作步骤,非常简单。
我们开始。
我们先看看竖版的碑文。它有两个难点:
第一,传统的 OCR 系统通常是设计用来识别横排文字的,因此在处理竖排时,模型需要能理解文字的排列方式、字与字之间的上下关系,以及段落和行的组织结构。
第二,繁体字的结构复杂,OCR 在处理时需要更高的精准度和对字形的更深理解。特别是一些相似字形或形态较复杂的字,OCR 模型容易出现识别错误,而且不同书法风格下的写法差异也较大。
下面是我找到的碑文拓片(图片可上下滚动)。
是 PadddleOCR-VL 的识别结果:
这是 DeepSeek-OCR 的识别结果:
整体来看,百度和 DeepSeek 都没能 100% 完成内容的识别。
不过,百度的相对准确率更高一些。DeepSeek 居然把最后一列的夫字识别错了,低级错误。
我同事计算了下:百度错误率:8.16%,DeepSeek 错误率:18.37%。
咱们继续,看看手写的数学公式。下面是原图。为了方便大家复现,我都会把测试的图片给大家 Share 出来。
这些都是我们团队每次测评 OCR API 或者开源软件时,必定会用的 Case(图片可上下滚动)。
下面是 PaddleOCR-VL 的识别结果:
下面是 DeepSeek-OCR 识别结果:
DeepSeek 输出的是 LaTeX 的版本。综合对比了下,二者识别准确度一致。都对。
我们继续再看一个竖排文本(图片可上下滚动),这次的字迹有些模糊。
百度 PaddleOCR-VL 的结果:
DeepSeek-OCR 的结果:
二者的准确率都是 100%。看来在这种简单的 Case 上,大家都已经很能打了。
咱们继续往后走,加大难度,看看连笔字。这张图是我们从小红书找的现图(图片可上下滚动)。
这是 PaddleOCR-VL 的结果:
这是 DeepSeek-OCR 的结果:
在连笔字上,看来 DeepSeek 表现很差。我们连续测试了五次,结果 DeepSeek-OCR 都只能识别出来四个字。
另外,提一嘴,我发现 OCR 类模型,幻觉率很低。第一次出来的结果,和后面再重复测试,完全一样。
继续看看复杂图表:
下面是百度 PaadleOCR-VL 的结果:
下面是 DeepSeek-OCR 的结果:
很显然,百度的效果更好。DeepSeek-OCR 感觉没办法理解柱状图的意思。
降低难度,我们再测一个表格的例子。这类需求在我们产品中也非常多,我们需要 OCR 能够转为表格样式。
下面是 PaddleOCR-VL 的输出:
下面是 DeepSeek-OCR 的输出:
DeepSeek-OCR 和 PaddleOCR-VL 都能准确识别表格中的文字,这事难度不大。
但组合为结构化的表格,DeepSeek-OCR 出了一些差错,右边几列明显错位。我感觉在图表方面,DeepSeek-OCR 还有很大的优化空间。
我们再看一个化学方程式的识别。
百度 PaddleOCR-VL 的结果:
DeepSeek-OCR 的结果:
文字的识别二者都没问题。但 DeepSeek 没办法同时识别等号和反应条件.....PaddleOCR-VL 可以。
我们继续看看多语言混合场景的识别(图片可上下滚动)。
下面是百度 PaddleOCR-VL 的识别:
下面是 DeepSeek-OCR 的识别:
全对。看来多语言上,他们都很能打。
咱们再看看小学生拼音识别的语文题,这也是我们产品用户经常会用到的场景。
下面这张图的难点是需要识别出来声调,以及孩子写的有点蹩脚的汉字(图片可上下滚动)。
PaddleOCR-VL 的结果:
DeepSeek-OCR 的结果:
我们继续试试拼音放到右侧的情况(图片可上下滚动)。
下面是百度 PaddleOCR-VL 的识别结果:
下面是 DeepSeek-OCR 的识别结果(图片可上下滚动):
这一次,二者的准确率就比较接近了。不过,如果要给它们打分的话,我们认为 DeepSeek-OCR 的表现稍好一些。
测完了。说下我的结论:
第一,毫无疑问,PaddleOCR-VL、DeepSeek-OCR,都是非常优秀的 OCR 模型。全球 Top3 的水准。
他们的识别准确率,高于市面上我们知道的其他所有产品。而且多语言支持都很不错。
第二,DeepSeek-OCR 的缺点是对于手写体,特别是连笔字的准确率很低。
而 PaddleOCR-VL 的缺点是在部分场景中,它会忽略拼音。要是二者能结合下就完美了:)
第三,从我的几个测试场景来看,整体表现 PaddleOCR-VL 优于 DeepSeek-OCR。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-22
字节开源了一个让人上头的 Context 项目
2025-10-22
Zilliz,源于Milvus,高于Milvus
2025-10-22
OpenAgents:只需几条命令即可构建协作式 AI 网络
2025-10-21
不想给 Claude 付费,但想玩 Skills?我用国产模型搞定了
2025-10-20
重磅:阿里的 Qoder CLI 正式发布
2025-10-20
想做独立产品的人,趁早放弃Coze拥抱编程
2025-10-20
DeepSeek开源的不仅仅是个新OCR模型。。。
2025-10-20
DeepSeek又开源,这次是OCR模型!附论文解读!
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-07-29
2025-07-31
2025-07-29
2025-08-26
2025-07-27
2025-08-22
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16