微信扫码
添加专属顾问
我要投稿
EasyDoc创新结合小模型与大模型,重新定义文档智能解析技术路线,为RAG知识库构建带来全新可能。 核心内容: 1. 传统OCR技术路线与多模态大模型结合的创新框架 2. EasyDoc在版式分析、表格解析和图片理解三大核心环节的技术突破 3. 文档层次化结构对RAG知识库构建的实际增益效果
传统的基于OCR的pipline的相关技术路线(如下图),目前多模态大模型的出现,文档解析技术链路出现了新的一些玩法。
最近看到一个新产品,EasyDoc(https://www.easylink-ai.com/easy-doc/),在原有的OCR链路中引入了多模态大模型进行图表理解,由此,笔者又更新了一张图,如下:
下面我们来看结合☞EasyDoc这个新框架,看看Easydoc文档解析过程中的相关技术实践路线、通过实际深度的测试看看Easydoc的效果及差异化特点和Easydoc文档层次化结构对于RAG的增益思考。供参考。
文档版式分析是指对文档的物理结构、视觉布局及内容组织形式进行系统性解析的过程。通过bounding box定位其中的关键区域,识别文档中的各类元素(如图像、表格等)及其空间分布、格式特征,从而理解文档的整体架构和信息呈现逻辑。
版式分析如图1、2所示,在文档智能解析路线中处于龙头地位,其优势在于通过大量标注的数据,准确的划分出文档关键区域,获取对应的各区块的bounding box和标签类别,分发到后续流程进一步的处理。如:
版式分析的伴随着多场景,尤其是通用场景的版式分析,对于模型的识别能力有所挑战。笔者尝试了下Easydoc的多场景的版式分析能力,效果还不错。
表格识别与解析的难点一般如下:
表格的多样性和复杂性:表格的形式多种多样,包括有线表、无线表和少线表,这使得检测和分割单元格变得复杂 。
表格单元格的合并与拆分:某些表格中的单元格可能跨行或跨列,甚至跨页,需要准确识别这些合并的单元格并将其恢复成标准单元格 。
表格内容的识别和解析:表格中可能包含图像、公式、符号等非文本内容,需要将它们转换成文本或保留格式 。
表格结构的表示和输出:不同的应用场景可能需要不同的表格结构表示方式,如 HTML、JSON、CSV 等,需要将识别结果转换成适合目标应用的格式,并保留数据和样式信息。
从上面可以看到,传统的表格与识别解析方案可以归结为,识别表格结构+OCR文字识别,也就是下面技术实现图:
随着多模态大模型的出现,端到端的表格解析或者是表格理解也提供了新的技术思路。优势可以体现为,不需要多个高精度的专家小模型参与pipline的过程,避免错误传播的风险。笔者观察到,EasyDoc在表格解析与理解端引入了相关多模态大模型。
一般的pipline链路,文档类的图片元素直接在版式分析阶段已经拿到bounding box,后续流程不会对其进行特殊的处理。但图片元素对于文档而言,又是文档中不可或缺的元素信息,多模态大模型的出现,是的文档中图片理解成为可能。EasyDoc中引入了多模态大模型,对图片进行理解生成相关caption,caption对于RAG召回也提供了丰富的上下文信息(其经解析后可转化为结构化数据(如财报中的财务指标),使 RAG 系统能精准召回相关数据点)。也能帮助 RAG 系统理解文档的整体架构。例如,在学术论文处理中,模型可自动关联图片标题与正文引用,避免传统 RAG 因结构割裂导致的信息错位。
由于文档布局的复杂性,包括多栏、嵌套表格、不规则的文本框等,这增加了阅读顺序恢复的难度。往期中也介绍了阅读顺序相关内容《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源、【文档智能】开源的阅读顺序(Layoutreader)模型使用指南》
文档层次化的就是通过版式分析得到的bounding box位置信息对文档进行恢复,并对相关标签进行关系的链接。EasyDoc采取的方式是通过parent_id
来描述文档中各元素之间的父子关系(从属关系):形式化就是<表,parent_id,章节>、<段落,parent_id,章节>等。这种层级结构(如 parent_id)为每个语义单元提供文档路径上下文,增强 RAG 系统的检索准确性。
EasyDoc结合视觉布局与语义理解,精准识别复杂文档结构,输出逻辑完整的语义单元。
Easydoc结合多模态模型对图片进行理解,其特点体现在实现了类似ChartQA的功能,如:柱状图、饼状图、折线图等的理解与解析,能够精确的理解数值图的内容以及OCR数值提取。
在1.2节介绍到,传统的小模型的方案存在错误传播的风险,并且传统 OCR 对模糊、倾斜、光照不均的图像敏感,识别率显著下降。多模态大模型通过多尺度视觉特征提取和数据增强提升抗干扰能力。OCR还需依赖模板或人工规则进行后处理,而多模态大模型支持无模板的端到端解析,并具备更强的泛化能力。EasyDoc支持多栏、多表合并的复杂表格输出元信息,如下图,key-value的json形式表示表格。
对于一些跨页的表格,EasyDoc也支持跨页表格的识别,如下图,可以看到识别并合并到了一个json中:
EasyDoc支持多种格式的文档解析,为RAG知识库的构建提供便利,兼容 .dotm、.docm、.doc、.dotx、.docx、.txt、.html、.dot、.xltm、.xlsm、.xlsx、.xls、.xlt、 .pptx、.potm、.pptx、.ppt、.pot、.pps、.tif、.png、.jpg、.bmp 等主流格式,适配多样化业务场景。
笔者还观察到一个功能,那就是文档层次化,文档层次化可以保留上下文,通过层级结构(如 parent_id)为每个语义单元提供文档路径上下文,增强 RAG 系统的检索准确性。笔者在之前的文章中也介绍过,传统的RAG系统知识库的构建,并没有利用到文档的结构化信息,GraphRAG可以解决一些层次化的问题,如下图RAG vs GraphRAG。
但是还不够,此时还没有利用到文档的层次结构,因此笔者又拿出往期文章中的介绍的图(感兴趣可以翻看笔者往期文章),如下:
DocGraph经过布局分析,进行区域间关系(Inter-region relationship)抽取,如一个表格与其相应的标题、来源、引用段落、所属章节之间的关系;层级逻辑关系包括标题、小节标题、段落等。这一点到是在EasyDoc看到了这个思想。
因此可以看到,DocGraph不就是不就可以看做是一个知识图谱吗?建模到RAG中进一步的不就演变成了带文档层次结构的GraphRAG?这也进一步的为RAG知识线索溯源带来增益。具体增益体现笔者归纳了一下,供参考:
层次化树结构通过捕捉parent_id关系显式建模文档的层级结构(如章节→子章节→段落)。提升GraphRAG性能;
树结构中的上下文信息(如标题、摘要)与文本内容形成互补。例如,RAPTOR 模型通过递归聚类生成层次化树;
结构 - 语义联合检索:GraphRAG 支持同时查询树结构路径和文本语义。
层次化社区检测与摘要生成:通过 Leiden 算法等社区检测技术,GraphRAG 将树结构划分为不同粒度的社区(如 C0 全局级、C1 主题级、C2 细节级),并生成层次化摘要。
路径导向的逻辑链构建:层次化树结构支持构建 “章节→子章节→段落→实体” 的多跳推理路径。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-23
Dify v1.4.0中的Multi-Modal LLM Output:基本操作和原理
2025-06-19
搜索 ≠ 简单匹配!0代码实现语义级图文互搜
2025-06-11
AI提效99.5%!英国政府联手 Gemini,破解城市规划审批困局
2025-06-10
多模态 RAG VS 传统文本 RAG ,到底效果如何,从应用视角来测试下
2025-06-10
实战复盘 | 基于视觉模型的多模态 RAG 系统,我们踩过的坑与收获 (项目已开源)
2025-06-05
多模态模型在RagFlow中的应用
2025-06-04
清华首创多模态+知识图谱+RAG,问答精准度超 94%
2025-05-30
Deepseek 多模态来解析图片,结合上下文分析pdf文档
2025-05-14
2025-04-27
2025-04-28
2025-05-16
2025-04-05
2025-05-16
2025-05-08
2025-05-25
2025-05-13
2025-05-15