微信扫码
添加专属顾问
我要投稿
三大在线文档解析服务深度评测,帮你找到最适合企业知识库的解决方案。 核心内容: 1. 文档解析服务对知识库质量的关键影响 2. MinerU、TextIn、MonkeyOCR三款产品的横向对比测试 3. 针对PDF、Word等常用格式的详细测试方案与结果分析
文档解析服务是知识库数据集的源头,它直接决定了问答的准确性。特别是在海量文档规模场景下,文档解析服务质量直接决定了知识库产品的交付成本。
在知识库交付的过程中,经常会出现这样的问题:表格错位、公式展示不出来、标题识别错乱,没有层级关系、图文结构信息丢失等。这些问题会导致后续的分块、检索召回动作都是基于一个错误的数据源基础上错上加错,结果可想而知。
对于 KnowFlow 而言,我们想找到一种相对最优的解析服务,尽可能的提升数据源质量,降低数据治理成本。
经过我们社区同学日常沟通交流,我选择了 MinerU、TextIn、MonkeyOCR 这三款产品进行横向比较。
PaddleOCR 体验网站上 OCR 结果无法生成 Markdown 文件,所以不在此次测试范围之内;另外 Dolphin 在线体验地址,只能上传文件,无法预览 Markdown
由于本地部署比较耗时,我们统一采用在线官方体验地址进行比较,离线/开源版本不在本次测评范围之内。
模型优先采用 VLM 模型,确保更好的识别效果。测试结果优先以 Markdown 文件 产物作为标准,因为对于知识库而言 Markdown 非常友好。
这里有一点需要注意,文档转换成 Markdown 必然会损失一些信息,因为 Markdown 是一种轻量级标记语言,专注于文本内容,不能表达复杂的排版和样式。
由于评测文档样例有限,本次测评仅面向于样例文档解析服务的表现,且以官方服务默认参数为前提,并不代表服务厂商其他文档表现。
考虑到文档格式多样性,本次以 PDF 、Word 这两种最常用的文档格式为主。
文档结构层面,重点关注表格、图文混排、分页、目录识别、复杂版式,测试指标以 Makrdown 文档还原度为核心指标,
围绕上述测试标准和方案,精心挑选了以下文档:
该文档使用说明书图文混排复杂,重点关注文档结构还原、图片提取能力。
文档含表格内嵌表格,文本中包含删除线等特殊格式。重点关注 word 文档表格还原能力。
全英文文档,关注目录级别识别效果,以及文中存在的跨页表格识别效果
4 煤矿安全规程2022版(pdf)
图文混排,表格加文字和公式,重点关注表格呢的公式符号还原程度。
客观来说,这个文档结构还是非常复杂的。
整体文本还原度是可以的,不知道是配置问题或是其他。无序列表的层级关系没有表达出来,而是合并成一段,丢失了列表排版。
• 左手按高度调节按钮,固定解除,再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。(如图2)- 按到最低时,升降杆可以固定。其它位置都不可固定。
左手按高度调节按钮, 固定解除, 再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。 (如图2)
● 按到最低时,升降杆可以固定。其它位置都不可固定。
层级关系和图片都丢失了,整体表现较差
无序列表的关系还原出来了,另外图片也还原回来了,和原文没有区别。
·左手按高度调节按钮,固定解除,再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。(如图2)
·按到最低时,升降杆可以固定。其它位置都不可固定。
从该文档结构还原来看,TextIn 表现最优
为什么选择这个文件?这个文件格式比较特殊,表格相互嵌套,而且存在特殊格式删除线,这个文件本地 liboffice 转 pdf 直接崩溃。
由于表格跨页,第一页的表格 MinerU 识别的特别好,但第二页列已经对不上了。
MonkeyOCR 在线体验地址不支持 doc 文件,此文件无法进行对比。
将部分单元格进行了错误的合并,整体来看,还原度比较高,体结构信息能够维持。
除却 MonkeyOCR 在线网址不支持 doc 意外,TextIn 表格还原相对好点。
预期是连续表格,实际识别出来被标题分割在中间,不符合预期。
正确识别出跨页的表格,但没有合并操作。
测试结果超出我的预期,完美合并。
不知道为啥这个表格识别的这么差,表格最后两列直接丢失了;表格标题识别到了表格下方,整体效果还是不尽人意。
识别基本准确,「说明」一列的合并单元格识别有误,但基本上效果还是挺好的
识别准确,完美还原。
本次给的文档客观来说都有点超标,结构较复杂,围绕是以「知识库问答系统」为目的的文档解析服务。
由于样本文档、参数配置的局限性,本次测试可能存在一定的随机性。 相对而言,TextIn 在线解析服务在表格识别、文档结构、跨页表格场景下比较优秀。
从文档解析服务全局来看,文档排版、复杂图标、表格单元格仍然是文档解析的难点,而文档分级目录相对简单。
对于重视文档解析质量的企业来说,搭建企业知识库,在线文档解析服务 TextIn 当下来看是个很不错的选择。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-15
2025-07-15
2025-05-12
2025-05-28
2025-06-15
2025-05-25
2025-05-21
2025-05-22
2025-05-26
2025-07-15