我要投稿

RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架

发布日期：2025-06-30 12:35:53 浏览次数： 2543

作者：大模型自然语言处理

微信搜一搜，关注“大模型自然语言处理”

传统的基于OCR的pipline的相关技术路线（如下图），目前多模态大模型的出现，文档解析技术链路出现了新的一些玩法。图1：OCRpipline文档智能解析技术路线

最近看到一个新产品，EasyDoc（https://www.easylink-ai.com/easy-doc/），在原有的OCR链路中引入了多模态大模型进行图表理解，由此，笔者又更新了一张图，如下：

下面我们来看结合☞EasyDoc这个新框架，看看Easydoc文档解析过程中的相关技术实践路线、通过实际深度的测试看看Easydoc的效果及差异化特点和Easydoc文档层次化结构对于RAG的增益思考。供参考。

一、Easydoc文档智能解析技术路线

1.1、版式分析

文档版式分析是指对文档的物理结构、视觉布局及内容组织形式进行系统性解析的过程。通过bounding box定位其中的关键区域，识别文档中的各类元素（如图像、表格等）及其空间分布、格式特征，从而理解文档的整体架构和信息呈现逻辑。

版式分析如图1、2所示，在文档智能解析路线中处于龙头地位，其优势在于通过大量标注的数据，准确的划分出文档关键区域，获取对应的各区块的bounding box和标签类别，分发到后续流程进一步的处理。如：

文本区域：页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
表格
公式
图片

版式分析的伴随着多场景，尤其是通用场景的版式分析，对于模型的识别能力有所挑战。笔者尝试了下Easydoc的多场景的版式分析能力，效果还不错。

1.2、表格识别与解析

表格识别与解析的难点一般如下：

表格的多样性和复杂性：表格的形式多种多样，包括有线表、无线表和少线表，这使得检测和分割单元格变得复杂。
表格单元格的合并与拆分：某些表格中的单元格可能跨行或跨列，甚至跨页，需要准确识别这些合并的单元格并将其恢复成标准单元格。
表格内容的识别和解析：表格中可能包含图像、公式、符号等非文本内容，需要将它们转换成文本或保留格式。
表格结构的表示和输出：不同的应用场景可能需要不同的表格结构表示方式，如 HTML、JSON、CSV 等，需要将识别结果转换成适合目标应用的格式，并保留数据和样式信息。

从上面可以看到，传统的表格与识别解析方案可以归结为，识别表格结构+OCR文字识别，也就是下面技术实现图：

随着多模态大模型的出现，端到端的表格解析或者是表格理解也提供了新的技术思路。优势可以体现为，不需要多个高精度的专家小模型参与pipline的过程，避免错误传播的风险。笔者观察到，EasyDoc在表格解析与理解端引入了相关多模态大模型。

1.3、图片理解

一般的pipline链路，文档类的图片元素直接在版式分析阶段已经拿到bounding box，后续流程不会对其进行特殊的处理。但图片元素对于文档而言，又是文档中不可或缺的元素信息，多模态大模型的出现，是的文档中图片理解成为可能。EasyDoc中引入了多模态大模型，对图片进行理解生成相关caption，caption对于RAG召回也提供了丰富的上下文信息（其经解析后可转化为结构化数据（如财报中的财务指标），使 RAG 系统能精准召回相关数据点）。也能帮助 RAG 系统理解文档的整体架构。例如，在学术论文处理中，模型可自动关联图片标题与正文引用，避免传统 RAG 因结构割裂导致的信息错位。

1.4、阅读顺序

由于文档布局的复杂性，包括多栏、嵌套表格、不规则的文本框等，这增加了阅读顺序恢复的难度。往期中也介绍了阅读顺序相关内容《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源、【文档智能】开源的阅读顺序（Layoutreader）模型使用指南》

1.5、文档恢复（文档层次化）

文档层次化的就是通过版式分析得到的bounding box位置信息对文档进行恢复，并对相关标签进行关系的链接。EasyDoc采取的方式是通过parent_id来描述文档中各元素之间的父子关系（从属关系）：形式化就是<表，parent_id，章节>、<段落，parent_id，章节>等。这种层级结构（如 parent_id）为每个语义单元提供文档路径上下文，增强 RAG 系统的检索准确性。

二、EasyDoc差异化功能测试

EasyDoc结合视觉布局与语义理解，精准识别复杂文档结构，输出逻辑完整的语义单元。

Easydoc结合多模态模型对图片进行理解，其特点体现在实现了类似ChartQA的功能，如：柱状图、饼状图、折线图等的理解与解析，能够精确的理解数值图的内容以及OCR数值提取。

在1.2节介绍到，传统的小模型的方案存在错误传播的风险，并且传统 OCR 对模糊、倾斜、光照不均的图像敏感，识别率显著下降。多模态大模型通过多尺度视觉特征提取和数据增强提升抗干扰能力。OCR还需依赖模板或人工规则进行后处理，而多模态大模型支持无模板的端到端解析，并具备更强的泛化能力。EasyDoc支持多栏、多表合并的复杂表格输出元信息，如下图，key-value的json形式表示表格。

对于一些跨页的表格，EasyDoc也支持跨页表格的识别，如下图，可以看到识别并合并到了一个json中：

三、多类型文档解析对RAG系统的增益

EasyDoc支持多种格式的文档解析，为RAG知识库的构建提供便利，兼容 .dotm、.docm、.doc、.dotx、.docx、.txt、.html、.dot、.xltm、.xlsm、.xlsx、.xls、.xlt、 .pptx、.potm、.pptx、.ppt、.pot、.pps、.tif、.png、.jpg、.bmp 等主流格式，适配多样化业务场景。

笔者还观察到一个功能，那就是文档层次化，文档层次化可以保留上下文，通过层级结构（如 parent_id）为每个语义单元提供文档路径上下文，增强 RAG 系统的检索准确性。笔者在之前的文章中也介绍过，传统的RAG系统知识库的构建，并没有利用到文档的结构化信息，GraphRAG可以解决一些层次化的问题，如下图RAG vs GraphRAG。

但是还不够，此时还没有利用到文档的层次结构，因此笔者又拿出往期文章中的介绍的图（感兴趣可以翻看笔者往期文章），如下：

DocGraph经过布局分析，进行区域间关系（Inter-region relationship）抽取，如一个表格与其相应的标题、来源、引用段落、所属章节之间的关系；层级逻辑关系包括标题、小节标题、段落等。这一点到是在EasyDoc看到了这个思想。

因此可以看到，DocGraph不就是不就可以看做是一个知识图谱吗？建模到RAG中进一步的不就演变成了带文档层次结构的GraphRAG？这也进一步的为RAG知识线索溯源带来增益。具体增益体现笔者归纳了一下，供参考：

层次化树结构通过捕捉parent_id关系显式建模文档的层级结构（如章节→子章节→段落）。提升GraphRAG性能；
树结构中的上下文信息（如标题、摘要）与文本内容形成互补。例如，RAPTOR 模型通过递归聚类生成层次化树；
结构 - 语义联合检索：GraphRAG 支持同时查询树结构路径和文本语义。
层次化社区检测与摘要生成：通过 Leiden 算法等社区检测技术，GraphRAG 将树结构划分为不同粒度的社区（如 C0 全局级、C1 主题级、C2 细节级），并生成层次化摘要。
路径导向的逻辑链构建：层次化树结构支持构建 “章节→子章节→段落→实体” 的多跳推理路径。