支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

发布日期:2025-08-07 08:27:29 浏览次数: 1519
作者:KnowFlow 企业知识库

微信搜一搜,关注“KnowFlow 企业知识库”

推荐语

三大在线文档解析服务深度评测,帮你找到最适合企业知识库的解决方案。

核心内容:
1. 文档解析服务对知识库质量的关键影响
2. MinerU、TextIn、MonkeyOCR三款产品的横向对比测试
3. 针对PDF、Word等常用格式的详细测试方案与结果分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

在线文档解析服务横评:TextIn、MinerU、MonkeyOCR 谁最适合企业知识库?

文档解析服务是知识库数据集的源头,它直接决定了问答的准确性。特别是在海量文档规模场景下,文档解析服务质量直接决定了知识库产品的交付成本

在知识库交付的过程中,经常会出现这样的问题:表格错位、公式展示不出来、标题识别错乱,没有层级关系、图文结构信息丢失等。这些问题会导致后续的分块、检索召回动作都是基于一个错误的数据源基础上错上加错,结果可想而知。

对于 KnowFlow 而言,我们想找到一种相对最优的解析服务,尽可能的提升数据源质量,降低数据治理成本。

测试标准

经过我们社区同学日常沟通交流,我选择了 MinerU、TextIn、MonkeyOCR 这三款产品进行横向比较。

PaddleOCR 体验网站上 OCR 结果无法生成 Markdown 文件,所以不在此次测试范围之内;另外 Dolphin 在线体验地址,只能上传文件,无法预览 Markdown

由于本地部署比较耗时,我们统一采用在线官方体验地址进行比较,离线/开源版本不在本次测评范围之内。

模型优先采用 VLM 模型,确保更好的识别效果。测试结果优先以 Markdown 文件 产物作为标准,因为对于知识库而言 Markdown 非常友好。

这里有一点需要注意,文档转换成 Markdown 必然会损失一些信息,因为 Markdown 是一种轻量级标记语言,专注于文本内容,不能表达复杂的排版和样式。

由于评测文档样例有限,本次测评仅面向于样例文档解析服务的表现,且以官方服务默认参数为前提,并不代表服务厂商其他文档表现。

测试方案

考虑到文档格式多样性,本次以 PDF 、Word 这两种最常用的文档格式为主。

文档结构层面,重点关注表格、图文混排、分页、目录识别、复杂版式,测试指标以 Makrdown 文档还原度为核心指标,

测试数据集

围绕上述测试标准和方案,精心挑选了以下文档:

  1. 1. 某知名品牌电风扇使用说明书 (pdf)

该文档使用说明书图文混排复杂,重点关注文档结构还原、图片提取能力。



  1. 2. 邮件模版 EMAIL(doc)

文档含表格内嵌表格,文本中包含删除线等特殊格式。重点关注 word 文档表格还原能力。

  1. 3. 跨页表格(pdf)

全英文文档,关注目录级别识别效果,以及文中存在的跨页表格识别效果

4 煤矿安全规程2022版(pdf)

图文混排,表格加文字和公式,重点关注表格呢的公式符号还原程度

测试网址

  • • MinerU:https://mineru.net/OpenSourceTools/Extractor
  • • TextIn:https://cc.co/16YSVg
  • • MonkeyOCR:http://vlrlabmonkey.xyz:7685/

测试过程

测试案例一:某品牌电风扇使用说明书 PDF 文档

客观来说,这个文档结构还是非常复杂的。

MinerU 实测表现

整体文本还原度是可以的,不知道是配置问题或是其他。无序列表的层级关系没有表达出来,而是合并成一段,丢失了列表排版。

• 左手按高度调节按钮,固定解除,再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。(如图2)- 按到最低时,升降杆可以固定。其它位置都不可固定。

MonkeyOCR 实测表现

左手按高度调节按钮, 固定解除, 再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。 (如图2)
● 按到最低时,升降杆可以固定。其它位置都不可固定。

层级关系和图片都丢失了,整体表现较差

TextIn 实测表现

无序列表的关系还原出来了,另外图片也还原回来了,和原文没有区别。

·左手按高度调节按钮,固定解除,再用右手捏着升降杆向上升或向下降并根据喜好来调节高度。(如图2)
·按到最低时,升降杆可以固定。其它位置都不可固定。

从该文档结构还原来看,TextIn 表现最优

测试案例二:邮件模版 EMAIL doc

为什么选择这个文件?这个文件格式比较特殊,表格相互嵌套,而且存在特殊格式删除线,这个文件本地 liboffice 转 pdf 直接崩溃。

MinerU 实测表现

由于表格跨页,第一页的表格 MinerU 识别的特别好,但第二页列已经对不上了。

MonkeyOCR 实测表现

MonkeyOCR 在线体验地址不支持 doc 文件,此文件无法进行对比。

TextIn 实测表现

将部分单元格进行了错误的合并,整体来看,还原度比较高,体结构信息能够维持。

除却 MonkeyOCR 在线网址不支持 doc 意外,TextIn 表格还原相对好点。

跨页表格 PDF

MinerU 实测表现

预期是连续表格,实际识别出来被标题分割在中间,不符合预期。

MonkeyOCR 实测表现

正确识别出跨页的表格,但没有合并操作。

TextIn 实测表现

测试结果超出我的预期,完美合并。

煤矿安全规程2022版 PDF

MinerU 实测表现

不知道为啥这个表格识别的这么差,表格最后两列直接丢失了;表格标题识别到了表格下方,整体效果还是不尽人意。

MonkeyOCR 实测表现

识别基本准确,「说明」一列的合并单元格识别有误,但基本上效果还是挺好的

TextIn 实测表现

识别准确,完美还原。

测试结论

本次给的文档客观来说都有点超标,结构较复杂,围绕是以「知识库问答系统」为目的的文档解析服务。

由于样本文档、参数配置的局限性,本次测试可能存在一定的随机性。 相对而言,TextIn 在线解析服务在表格识别、文档结构、跨页表格场景下比较优秀。

从文档解析服务全局来看,文档排版、复杂图标、表格单元格仍然是文档解析的难点,而文档分级目录相对简单。

对于重视文档解析质量的企业来说,搭建企业知识库,在线文档解析服务 TextIn 当下来看是个很不错的选择。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询