微信扫码
与创始人交个朋友
我要投稿
前言
最近在做知识库,遇到了很多文档解析的难题。个人一直坚信知识问答就像大厨做菜,如果备菜环节出问题,后面铁定是没法吃。
为此,仔细研究了最近RAG排名比较靠前的ragflow和Qanything,希望能借鉴一些成熟的方法。
相较于Qanything,ragflow在文档解析方面更胜一筹,其对照式的扫描文档解析堪称一绝,但是实际干活的时候,就会发现现实非常骨感:
一是文档片段之间的排列算法很low,经常出现衔接问题;
二是页数过多时,会出现内容严重混乱的情况。
幸好,我发现了一个利器——doc2x。
一、Doc2X简介
Doc2X(Doc to X)是武汉智识无垠科技有限公司于今年4月份推出的一款超强悍的(受限&暂时)免费文档识别工具,它能够将PDF或图片中的文字、公式等内容准确识别并转换为Word(带公式)、LaTeX、Markdown(MD)等多种可编辑文档格式。这一功能极大地提高了文档处理的效率,使得用户能够更加方便地编辑、修改和重用文档内容。
Doc2X的官方上可以看到,公司每天为普通用户提供免费的500页文档转换和200页翻译服务,这对于需要频繁处理文档的用户来说无疑是一个超级巨大的福音。用户只需注册并登录Doc2X的官方网站(https://doc2x.noedgeai.com/login?invite_code=DEB096),即可享受这一便捷服务。
二、Doc2X的主要功能
1. 多样化的输出格式
Doc2X支持将PDF或图片中的内容转换为多种可编辑的文档格式,目前主要包括Word、LaTeX、Markdown等。这些格式各有特点,适用于不同的场景和需求。
Word:作为最常用的文档处理软件之一,Word文档具有广泛的兼容性和丰富的编辑功能。Doc2X能够将PDF或图片中的文字、公式等内容完美地转换为Word文档,并保留原有的排版和格式,方便用户进行进一步的编辑和修改。据最新消息,本月内即将推出能够识别标题大纲级别的模型,到时候转换出来的word文档格式会更加强悍,特别适用于知识库的建立。
LaTeX:LaTeX是一种基于TeX的排版系统,广泛应用于学术论文、科技报告等领域。Doc2X能够将文档中的数学公式等复杂内容转换为LaTeX代码,使得用户能够更加方便地进行学术写作和排版。
Markdown:Markdown是一种轻量级的标记语言,具有简洁的语法和易读性强的特点。Doc2X支持将文档内容转换为Markdown格式,方便用户进行博客写作、技术文档编写等。
2. 强大的解析能力
Doc2X在文档解析方面表现出色,能够准确识别并提取PDF(包括扫描版PDF)或图片中的文字、公式、表格、图片、图表等内容,其识别模型涵盖了实际文档中的各种特殊情况,识别成功率特别高,大篇幅矩阵、二分栏、横版的表格等特殊排版都不在话下,这些功能在处理包含复杂排版和公式的文档时尤为重要,能够大大提高用户的工作效率。
文字识别:Doc2X采用先进的OCR技术,能够准确识别图片中的文字内容,并将其转换为可编辑的文本格式。这一功能在处理扫描件、截图等图片文档时尤为有用。
公式识别:对于包含数学公式的文档,Doc2X能够准确识别并转换为LaTeX代码或Word中的公式对象。这使得用户在处理学术论文、科技报告等文档时能够更加便捷地编辑和修改公式。
表格识别:Doc2X还能够识别PDF或图片中的表格内容,并将其转换为可编辑的表格格式,同时保证表格内的布局与原文档一模一样,包括连续表格的妥善处理,这一功能在处理包含大量数据的文档时尤为重要,能够大大节省用户的时间和精力。
3. 多语言翻译
除了强大的文档解析和转换功能外,Doc2X还支持多语言翻译功能。基于glm4和deepseek技术,Doc2X能够为用户提供准确的翻译服务,并提供“原文”、“译文”、“中英对照”三种格式的导出,这使得用户能够更加方便地处理跨语言文档。
三、Doc2X的使用体验
为了更好地验证Doc2X的强大功能,我使用了焊接大部头《焊接手册》以及AWS的《Welding Handbook》进行了实际测试。以下是测试过程中的一些感受和发现。
1. 简洁明了的用户界面
Doc2X的官方网站界面简洁明了,用户可以轻松找到所需的功能和选项。注册和登录过程也非常简单快捷,只需几步即可完成。
2. 高效的文档转换
在实际测试中,我们将大部头进行拆分,每份大概200页左右,包含文字、公式、表格和图片,将PDF文档上传至Doc2X后,后台即进入解析状态,官方宣传的是在后台清闲+带宽给力的情况下,可以在13s内给出结果。我个人的实际体验是网速对获得结果的总时长影响比较大,普通手机热点情况下,大概需要1~2min。如果选择Word作为输出格式。不到一分钟的时间,我们就可以获得转换后的Word文档。打开文档后,我们发现原有的排版和格式都得到了很好的保留,文字、公式和表格的识别率也非常高。
3. 准确的翻译服务
我们还测试了Doc2X的多语言翻译功能。将一段英文文档上传至Doc2X,并选择中文作为翻译目标语言。很快,我们就收到了翻译后的中文文档。通过对比原文和译文,我们发现Doc2X的翻译质量非常高,能够准确传达原文的意思。
4.具体效果
官方针对常见的文档进行多方面对比,相关结果可以看这个DOC2X竞品分析报告https://noedgeai.feishu.cn/wiki/K1NGwjuuqiI9nukgapEcUAALnLh,里面详细列举了doc2x是怎么完爆同类产品的,需要注意的是mathpix是他们全球范围内的主要竞争对手,虽然它已经很强了,在全球范围内应用颇广,但是在doc2x面前,还是只能称作弟弟。
四 技术原理猜测
事先声明,仅仅是个人猜测,关于doc2x技术原理的介绍,在网上没有搜到,试用交流群里也有人问,但是工作人员三缄其口,不予作答。
以下是我的猜测,大概率是错的:
(1)开发了专门的内容识别模型,这个和ragflow应该是一个套路,甚至有可能也是基于YOLO来训练的,能够精准识别各种文档里的文本、图片、图片标题、表格、表格标题、公式、以及各种干扰分块。值得注意的是,他们的训练材料里肯定包含了很多横版的表格,同时整个识别训练的材料数量应该非常庞大。
(2)开发了专门的公式识别用的OCR模型,能够把公式里每个字符按照相对位置,完整地“扣”出来。同理,应该也存在一个矩阵OCR模型,相关训练数据量应该也很大。
(3)开发了专用的表格识别处理模型,具体的就不晓得了。
(4)开发内容分块的组织算法,从两栏pdf的出色处理结果来看,块与块之间的衔接大概率是用非常出色的逻辑判断来进行处理的,当然,也不排除使用了文本配对检测、或者直接模型识别处理等技术。
(5)识别的内容与markdown的表达形式进行深度绑定。
五、Doc2X的应用场景
Doc2X的强大功能和高效性能使得它在多个领域都有广泛的应用场景:
1. 学术研究
对于学者和研究人员来说,Doc2X能够帮助他们快速将PDF格式的学术论文转换为Word、LaTeX或Markdown格式,便于编辑和引用。特别是在处理包含复杂数学公式和图表的研究论文时,Doc2X的公式识别和表格转换功能尤为出色,能够大大提升研究工作的效率。
2. 教育培训
在教育领域,教师们经常需要准备教学材料,包括教材、课件和试卷等。这些材料往往以PDF或图片形式存在,但在编辑和修改时却非常不便。Doc2X能够将这些材料转换为可编辑的Word文档,让教师们能够轻松地进行修改和补充,提高教学准备工作的效率。同时,学生们也可以使用Doc2X将课堂笔记或扫描的教材转换为电子文档,便于复习和整理。
3. 商务办公
在商务办公环境中,文档处理是不可或缺的一部分。无论是合同、报告还是会议纪要,都需要进行频繁的编辑和修改。Doc2X能够将PDF或图片格式的商务文档转换为Word文档,使得编辑和修改变得更加容易。此外,Doc2X还支持多语言翻译功能,能够帮助跨国企业处理多语言文档,促进国际交流与合作。
4. 自助出版与博客写作
对于自助出版者和博客作者来说,文档转换和编辑是日常工作的重要部分。他们经常需要将PDF格式的书籍章节或文章转换为Markdown格式,以便在博客或网站上发布。Doc2X提供了这一便捷的转换功能,使得自助出版者和博客作者能够更加专注于内容的创作和发布。
5. 数据分析与报告制作
在数据分析领域,经常需要处理包含大量数据和图表的报告。这些报告往往以PDF或图片形式存在,但在进一步分析和修改时却非常不便。Doc2X的表格识别功能能够将PDF或图片中的表格内容转换为可编辑的Excel或Word表格,使得数据分析师能够更加方便地进行数据分析和报告制作。
六、Doc2X的优势与不足
优势
多样化的输出格式:支持Word、LaTeX、Markdown等多种可编辑文档格式,满足不同场景下的需求。
强大的解析能力:能够准确识别并提取PDF或图片中的文字、公式、表格等内容,保持原有的排版和格式。
高效的处理速度:转换速度快,能够迅速完成大量文档的转换工作。
多语言翻译功能:基于先进的翻译技术,提供准确的多语言翻译服务。
免费使用:每天提供500页的免费转换额度,对于一般用户来说足够使用。
不足
转换精度仍有上升空间:尽管Doc2X在文档解析和转换方面表现出色,但在处理一些复杂排版或特殊格式的文档时,还是会出现一些问题,不过从与公司的技术人员沟通来看,他们一直以欢迎的姿态来接受反馈的问题,并表示后面会持续优化。
依赖网络连接,并且不支持本地部署:作为一款在线工具,Doc2X需要非常稳定的网络连接才能正常使用。在网络不稳定或无法连接的情况下,用户会无法正常使用该工具。另外,有人也提出寻求本地部署的解决方法,但是被官方明确告知不提供本地部署。
免费额度限制:虽然每天提供500页的免费转换额度,但对于一些需要大量转换工作的用户来说可能不够用,虽然目前已传出按页收费的消息,但是具体的收费标准目前还没有公布。
总结与展望
Doc2X作为一款强大的文档解析与转换工具,以其多样化的输出格式、强大的解析能力和高效的处理速度赢得了广大用户的青睐。它不仅能够提高文档处理的效率,还能够满足不同场景下的需求。随着数字化时代的到来,文档处理的需求将越来越多样化和复杂化,Doc2X有望在未来继续优化和升级其功能,为用户提供更加便捷和高效的文档处理体验。
同时,也期待Doc2X能够考虑引入更多的人工智能元素,如智能排版、自动摘要、知识问答等功能,进一步提升用户的使用体验。
1
END
1
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-10
科研助力神器:Scholar GPT,百倍提升你的研究效率!
2024-07-06
我对多智能体协作过程自动演化架构设计
2024-07-06
可穿戴AI,底层逻辑的变化
2024-07-06
一文彻底搞懂Transformer - Word Embedding(词嵌入)
2024-07-06
AI动态 | 腾讯元宝AI搜索能力升级:深度搜索模式上线
2024-07-06
智能手表 + AI ,都已经这么智能了??
2024-07-06
死磕10万卡GPU算力集群,腾讯星脉网络2.0有什么秘密武器?
2024-07-06
可灵(Kling)AI 视频保姆级教程,小白看完 1 分钟上手(内含变现方式)
2024-03-30
2024-04-26
2024-04-12
2024-05-10
2024-05-14
2024-05-28
2024-07-18
2024-04-25
2024-04-26
2024-05-22
2024-12-04
2024-12-03
2024-12-02
2024-12-01
2024-12-01
2024-12-01
2024-11-30
2024-11-29