我要投稿

E²GraphRAG：图结构 RAG 的效率 “加速器”

发布日期：2025-08-04 08:18:10 浏览次数： 1731

作者：觉察流

微信搜一搜，关注“觉察流”

“ E²GraphRAG 框架，直击图结构 RAG 方法效率瓶颈。其在索引阶段构建摘要树与实体图双结构，检索阶段采用自适应策略动态选择检索模式，实现索引速度较 GraphRAG 提升 10 倍，检索速度较 LightRAG 提升 100 倍的突破，为高效智能检索开辟新路径。”

大家好，我是肆〇柒。大型语言模型（LLM）在自然语言处理（NLP）任务中广泛应用，但存在幻觉问题和领域知识缺乏等局限性。检索增强生成（RAG）技术通过整合外部知识源，与 LLM 的上下文学习能力，展现出缓解这些问题的潜力。RAG 技术在开放域问答、知识密集型 NLP 任务和长文档理解等领域具有重要应用价值，能够显著提升模型的回答准确性和可靠性。

现有图结构 RAG 方法的不足

现有图结构 RAG 方法（如 GraphRAG、RAPTOR、LightRAG 等）虽具优势，但存在明显问题。GraphRAG 作为首个从原始文本自动构建知识图并支持全局查询的方法，因频繁调用 LLM 导致索引阶段成本高昂、延迟显著。在实际应用中，GraphRAG 处理一本 200k tokens 的书，因调用 LLM 次数过多，索引时间长达数小时，时间成本增加约 3-5 倍。RAPTOR 虽构建层次摘要树，却因忽略文档原始语境流程、聚类耗时且采用传统向量检索导致结果偏差。LightRAG 和 FastGraphRAG 虽降低索引开销，但 LLM 输出格式不稳定导致实体和关系提取不准确。LazyGraphRAG 因检索延迟高，无法满足实时新闻分析系统快速检索和生成新闻洞察的需求，导致响应迟缓，影响用户体验。

E²GraphRAG 的针对性突破

E²GraphRAG 针对现有图结构 RAG 方法的效率瓶颈、单一结构整合不足以及检索灵活性问题，提出创新解决方案。其核心创新在于构建摘要树与实体图双结构，结合自适应检索策略，实现高效索引与精准检索。实验表明，E²GraphRAG 在索引阶段比 GraphRAG 快 10 倍，在检索阶段比 LightRAG 快 100 倍，同时保持出色的问答性能，在 NovelQA 使用 Qwen 时取得最佳性能，在 InfiniteQA 跨两个基础模型均表现最佳。

现有技术回顾

RAG 方法分类

RAG 方法可以根据其依赖的外部知识源类型大致分为两类：基于非结构化文本知识库的 RAG 方法和基于结构化实体图的 RAG 方法。

基于非结构化文本知识基的 RAG 方法

这类方法主要依赖于非结构化的文本数据作为外部知识源。它们通过检索与查询相关的文本片段（通常是文档或文档片段）来增强语言模型的上下文理解能力。这些方法的优点在于其灵活性和适应性，因为非结构化文本可以涵盖各种主题和领域。然而，由于缺乏全局和结构化的理解，这些方法在处理复杂查询时可能会遇到困难，例如在需要多跳推理或长文档理解的场景中。

基于结构化实体图的 RAG 方法

与基于非结构化文本的方法不同，基于结构化实体图的 RAG 方法利用预先构建的实体图作为知识源。这些实体图通常包含丰富的语义信息，如实体之间的关系和属性。通过在实体图上进行检索，模型可以更有效地进行多跳推理和信息聚合，从而提供更深入的语义理解。然而，构建高质量的领域特定知识图通常需要大量的专家努力，并且难以扩展到新的领域或数据集。

现有图结构 RAG 方法及应用案例

刚才提到的，基于非结构化文本知识库的 RAG 方法易组织且适应性强，但缺乏对内容的全局和结构化理解。基于结构化实体图的 RAG 方法支持多跳推理和信息聚合，构建高质量领域知识图却需大量专家努力且难以扩展。

比如，GraphRAG 利用 LLM 构建知识图、聚类节点和总结社区形成多粒度知识图，但索引阶段因频繁调用 LLM 导致高昂成本和延迟，全局检索依赖 LLM 判断相关社区带来显著计算开销。在科技领域问答系统中，GraphRAG 因索引效率低难以及时更新知识库，无法快速响应用户查询。RAPTOR 构建层次摘要树却忽略文档原始语境流程，聚类耗时且传统向量检索易导致结果偏差。在金融领域风险评估报告分析中，RAPTOR 无法准确把握报告语境逻辑，出现检索结果偏差。LightRAG 和 FastGraphRAG 虽降低索引开销，但 LLM 输出格式不稳定导致实体和关系提取不准确。在医疗文献检索中，影响对医疗知识的准确检索和应用。LazyGraphRAG 因检索延迟高，无法满足实时新闻分析系统快速检索和生成新闻洞察的需求，导致响应迟缓，影响用户体验。

E²GraphRAG 方法

索引阶段

文档预处理

将文档分块，使用对应后续总结任务模型的分词器，划分为 1200 tokens 的块，相邻块间重叠 100 tokens，以减少句子分割导致的语义损失。分块后的文档结构为。

摘要树构建

递归合并和总结文本块构建层次树结构。每 g 个连续块组总结一次，采用最小化提示策略，因现代 LLM 在指令调优阶段已接受大量文本总结任务训练。使用预训练嵌入模型编码所有块和总结，利用 Faiss 存储向量实现高效密集检索。摘要树结构中，叶节点对应块，中间或根节点对应总结。节点越靠近根，信息越全局抽象；越靠近叶，信息越详细具体。以图表直观展示摘要树结构，区分不同信息层次。

具体算法步骤：

1. 输入文档 D，分词处理后划分为多个块 c₁, c₂,…,cₙ。
2. 初始化总结层次 h 为 0，块序列 S₀ = D。
3. 对每个总结层次 h，从 Sₕ 中每 g 个连续块生成一个总结块 s。
4. 若总结块数量大于 g，则 h +=1，Sₕ = 生成的总结块序列，重复步骤 3；否则，停止总结，得到最终摘要树。
5. 使用预训练嵌入模型对所有块和总结块编码，得到向量表示，通过 Faiss 索引存储。

例如，在处理一本包含 100 个文本块的文档时，假设每 5 个块进行一次总结，那么第一层总结将生成 20 个总结块。若继续总结，每 5 个总结块再次总结，最终可能得到 4 个最高层次的总结块，形成一个层次分明的摘要树。

上图直观展示了索引阶段的四大核心任务：文档预处理、实体图提取、摘要树构建及两种索引的建立。可以看到，文档预处理后得到的块，经过实体抽取构建实体图，同时块通过递归总结形成摘要树，实体图与摘要树之间通过实体-块索引和块-实体索引建立联系。

实体图提取

利用 SpaCy 提取每个块中的命名实体和普通名词作为实体。将共现于同一句子中的实体间构建无向加权边，边权重计算公式为：w(e_i,e_j) = 共现次数 / 句子中实体总数。将块级子图合并为整个文档的图，统一相同实体并累加相同源目标实体对的边权重。构建实体到块和块到实体的索引，实现实体图与摘要树间的多对多映射，为后续检索提供便利。

例如，在一个新闻文档的处理中，某个文本块中提到 “公司 A 在 2024 年发布新产品 B，该产品采用新技术 C”，则通过 SpaCy 可提取出 “公司 A”“新产品 B”“新技术 C” 等实体，并根据它们在句子中的共现关系构建加权边。这些边的权重反映了实体之间的关联紧密程度，为后续检索提供了丰富的语义信息。

并行优化

总结任务依赖 LLM 和 GPU，SpaCy 实体提取主要在 CPU 上运行，二者可并行执行。在多线程环境下，分别启动 LLM 总结任务和 SpaCy 实体提取任务，通过线程间通信机制协调进度，优化整体计算时间，降低索引阶段时间成本。

例如，在实际的服务器环境中，可以分配 4 个 CPU 核心用于 SpaCy 实体提取任务，同时利用 GPU 加速 LLM 的总结任务。通过合理调度，确保两个任务并行执行且互不干扰，从而将索引时间减少约 40%。

检索阶段

自适应检索策略核心思想

基于查询中实体在图中的连接密度动态选择局部检索和全局检索模式。查询实体在图中密集连接则局部检索，否则全局检索。这种机制通过建模实体间结构关系，避免手动预定义查询模式，提升检索灵活性和针对性。

以下是算法的伪代码，能够直观地展示检索阶段的逻辑流程，帮助大家更好地理解 E²GraphRAG 的检索机制

局部检索流程

• 实体提取与映射 ：使用 SpaCy 从查询中提取实体，并映射到构建的图顶点，忽略无法映射的实体。
• 图过滤步骤 ：枚举查询实体对并根据最短路径跳数进行筛选，保留满足条件的实体对集合 Ph。超参数 h 控制过滤严格程度，平衡后续步骤中召回块数量。具体筛选算法如下：

• 索引映射与候选块获取 ：对于 Ph 中的每个实体对，利用实体到块索引获取相关块的交集，形成候选块集 Cevidence。当候选块数量不超过 k 时直接返回结果，否则通过逐步降低 h 跳阈值来减少块数量，直至满足条件或结果为空，再回退并应用基于实体覆盖和出现频率的排名机制选择最终块。具体操作步骤如下：

• 排名与格式化 ：实体覆盖排名计算公式为：score_coverage(c) = 匹配的实体数量 / 块 c 中的总实体数量；实体出现排名计算公式为：score_occurrence(c) = 匹配的实体出现次数 / 块 c 的总词数。利用块到实体索引优化排名时间。将检索到的块和实体以 “实体 1 - 实体 2：块” 格式组织输入给 LLM，采用去重和合并连续块的优化策略，减少输入冗余和 token 消耗。

例如，在检索与 “人工智能” 和 “机器学习” 相关的信息时，通过图过滤步骤筛选出这两个实体在知识图谱中紧密相连的部分，如 “深度学习”“神经网络” 等相关实体对。然后利用索引映射获取包含这些实体的文本块，经过排名与格式化后，将相关信息以清晰的结构输入到 LLM 中，以便生成准确且全面的回答。

上图展示了检索阶段的完整流程，其中局部检索操作用浅黄色突出显示，包括实体提取、图过滤等关键步骤；全局检索操作则用浅绿色标识，清晰地区分了两种检索模式下的具体操作，有助于理解自适应检索策略的执行过程。

全局检索流程

当查询中未识别出实体或实体对不满足条件时，采用密集检索方法在摘要树上进行全局检索。使用折叠树密集检索方法，利用索引阶段的嵌入模型编码查询，计算查询嵌入与索引嵌入的相似度，选择前 k 个最相关的块作为补充信息，并按相似度降序排列。具体算法如下：

1. 输入查询 q，摘要树 T，嵌入模型 E，索引向量库 V，检索数量 k。
2. 使用 E 对 q 进行编码，得到查询向量。
3. 在 V 中搜索与最相似的 k 个向量，对应的块为检索结果。
4. 按相似度降序排列检索结果并返回。

实验

为了全面评估 E²GraphRAG 在索引和检索效率以及问答效果方面的性能，通过与现有方法的对比，验证 E²GraphRAG 是否能够在保证效果的同时显著提升效率。实验设计涵盖多个评估指标和数据集，以确保结果的可靠性和普适性。

实验设置

基础模型选择

选择 Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct 作为基础模型，因其在资源有限和数据隐私要求严格场景下适用。选择 BGE-M3 作为嵌入模型，因其性能出色。

数据集介绍

使用 NovelQA 和 InfiniteBench（包括 InfiniteChoice 和 InfiniteQA）数据集。这些数据集文档平均包含约 200k tokens，适合评估方法在极长文档上的全局查询能力。NovelQA 包含 89 本书及 2305 个多项选择问题，涵盖 65 本公共领域书籍和 24 本购买的版权书籍。InfiniteChoice 包含 58 本书及 229 个多项选择问题，InfiniteQA 包含 20 本书及 102 个问题。例如，NovelQA 中的《哈利・波特与阿兹卡班的囚徒》相关文档，其语言风格为叙述性与对话性相结合，包含大量人物、事件等实体，对模型的实体关系捕捉和长文档处理能力提出了较高要求。

评估指标

针对多项选择和封闭式 QA 任务分别采用准确率和 ROUGE-L 作为评估指标。为评估索引和检索阶段的系统效率，测量每本书的索引时间和每个查询的检索时间。

与 GraphRAG-Local、GraphRAG-Global、LightRAGHybrid 和 RAPTOR 对比。这些方法的选择依据是为了确保全面评估。部分方法因代码未公开或与本地部署模型不兼容，无法纳入实验。

实验结果与分析

深化实验细节

• 数据集特点与性能表现 ：在 NovelQA 数据集中，其涵盖多种类型的书籍，如小说、历史著作等。小说中的实体关系往往复杂且多变，如人物之间的情感纠葛、情节发展中的角色转变等。E²GraphRAG 在处理这类文档时，通过构建的实体图能够有效捕捉人物等实体之间的复杂关系。例如在处理《哈利・波特》系列相关问题时，能够准确把握角色间的关系变化，从而为问答提供有力支持。历史著作则涉及大量的事件、时间、地点等实体，其语义结构相对严谨。E²GraphRAG 的摘要树构建有助于对历史事件的发展脉络进行层次化总结，便于快速定位与特定历史时期或事件相关的信息。在不同领域数据集上的良好表现，证明了 E²GraphRAG 的广泛适应性。

上表提供了每个数据集中每个问题的实体数量统计，包括平均值、最小值和最大值。下图柱状图可以直观地展示数据集中问题的实体复杂度分布。

• 模型参数敏感性分析 ：以总结层次 g 为例，当 g 取较小值时，如 g=2，意味着在构建摘要树时，每 2 个连续块进行一次总结。这会导致摘要树的层次较多，叶节点到根节点的路径较长。虽然这样可以保留较多的细节信息，但也会增加索引时间和存储开销。实验发现，当 g=2 时，索引时间比 g=5 时增加了约 30%，且检索效率也略有下降，因为需要在更多的层次中进行遍历搜索。而当 g 取较大值，如 g=10，虽然减少了摘要树的层次，但每个总结块涵盖的信息范围较广，可能导致信息过于抽象，丢失一些关键细节，进而影响检索结果的准确性。在检索效果上，当 g=10 时，准确率相较于 g=5 时下降了约 5%。对于超参数 h，在局部检索的图过滤步骤中，h 的取值对实体对的筛选严格程度有显著影响。较小的 h 值（如 h=1）会严格筛选出紧密相连的实体对，减少候选块数量，提高检索效率，但可能遗漏一些具有间接关联的实体对，导致部分相关信息无法被检索到。实验表明，当 h=1 时，检索召回率比 h=3 时降低了约 15%。而较大的 h 值（如 h=5）则会放宽筛选条件，召回更多候选块，但增加了后续处理的数据量，降低了检索效率。通过综合考虑检索效率和效果，确定 g 在 3-5 之间，h 在 2-4 之间时，E²GraphRAG 能够取得较好的平衡。

效率对比

E²GraphRAG 在索引阶段比 GraphRAG 快 10 倍，比 RAPTOR 快约 2 倍；在检索阶段比 LightRAG 快 100 倍以上，比 GraphRAG 的本地模式快约 10 倍。RAPTOR 因 GPU 加速的密集检索实现最快检索速度，但索引阶段的聚类操作导致效率不高；GraphRAG 因小 LLM 输出 JSON 格式的不稳定性，索引时间长；LightRAG 在索引阶段因每个块调用 LLM 提取多粒度实体和关系导致高延迟。

上表呈现了 E²GraphRAG 与其他基线方法在 NovelQA、InfiniteChoice 和 InfiniteQA 数据集上的综合性能对比。从表中可以看出，E²GraphRAG 在索引时间和查询时间上均展现出显著优势。例如，在 NovelQA 数据集上使用 Qwen 模型时，E²GraphRAG 的索引时间仅为 1397.11，相较于 GraphRAG-L 的 13793.89 和 LightRAG 的 5290.93，效率提升高达 10 倍左右；查询时间更是快至 0.02，相比 LightRAG 的 15.68 实现了 100 倍的加速。

上图以 NovelQA 和 InfiniteChoice 数据集为例，进一步直观展现了各方法索引时间随文档 tokens 数量变化的趋势。可以看出，E²GraphRAG 的索引时间增长趋势最为平缓，表明其在处理长文档时具备更优的时间复杂度，扩展性更强。例如，当文档 tokens 数量达到较高值时，E²GraphRAG 的索引时间依然能保持在较低水平，而其他方法的索引时间则迅速攀升。

效果对比

E²GraphRAG 在 NovelQA 使用 Qwen 时取得最佳性能，在 InfiniteQA 跨两个基础模型均表现最佳。GraphRAG 的本地模式在效果上优于其他基线方法，但索引效率低。LightRAG 尽管试图平衡效果和效率，但因依赖 LLM 能力且在使用 Llama3.1 时表现不佳，效果仍不理想。

例如，在 NovelQA 数据集上，使用 Qwen 模型时，E²GraphRAG 的准确率达到 45.6%，相较于 GraphRAG 提升了约 5%。在 InfiniteQA 数据集上，E²GraphRAG 在两个基础模型上的 ROUGE-L 分数均达到 13.65 和 11.07，相较于其他方法有显著提升。

性能提升原因分析

索引阶段，E²GraphRAG 的并行优化策略充分利用 LLM 和 SpaCy 的不同硬件资源，递归总结文本块的算法有效降低了信息冗余，显著提高了索引效率。检索阶段，自适应检索策略能够根据查询特征动态选择检索模式，避免了传统方法中固定检索模式带来的局限性。同时，实体图的构建和利用增强了检索结果的相关性和准确性，让模型能够更精准地捕捉实体间的语义关系。在不同数据集和模型中，E²GraphRAG 的优势体现在高效处理长文档和灵活应对复杂查询。

例如，在处理长文档时，E²GraphRAG 的摘要树能够快速定位到与查询相关的不同层次的信息块，而实体图则能有效关联这些信息块中的实体，为生成连贯且准确的回答提供有力支持。这种结合全局和局部信息的能力，使其在面对复杂查询时能够提供更全面和准确的答案。

上表展示了 E²GraphRAG 的消融研究结果。通过对比不同组件缺失情况下的模型性能，可以清晰地看出各个模块对整体效果的贡献。例如，当仅采用密集检索时，模型性能在多个数据集上均出现明显下降，表明自适应检索策略和相关组件对提升检索效果具有关键作用。这进一步验证了 E²GraphRAG 设计的合理性和各组件的有效性。

总结

本文介绍了一种名为E²GraphRAG的改进型基于图的检索增强生成（RAG）框架，目标是为了解决现有图结构RAG方法在效率和灵活性上的不足。E²GraphRAG框架结合了树和图结构的优点，在索引阶段构建摘要树和实体图，并建立两者之间的双向索引；在检索阶段采用自适应检索策略，根据查询实体在图中的连接情况动态选择局部或全局检索模式。

在索引阶段，E²GraphRAG首先使用大型语言模型（LLM）递归地对文档片段进行总结，生成多粒度的摘要树。同时，利用SpaCy工具从每个片段中提取实体并构建实体图，并为每个片段构建子图，然后将所有片段级子图合并成一个图。此外，还构建了实体到片段和片段到实体的索引，以建立实体图和摘要树之间的多对多映射关系，便于后续检索过程中的查找。

在检索阶段，E²GraphRAG采用自适应检索策略。首先从查询中提取实体，并将它们映射到构建的图的顶点上。如果查询实体在图中密集连接，则执行局部检索；否则，回退到全局检索。这种自适应机制通过明确建模实体之间的结构关系，避免了繁琐的手动设置查询模式，提高了检索的灵活性和针对性。局部检索包括图过滤步骤，保留查询中语义相关的实体对，通过索引映射找到与这些实体对相关的片段集合，并进行进一步的筛选和排序。全局检索则在查询中没有实体或实体对不满足一定条件时执行，基于向量相似度从摘要树中检索候选片段，并根据实体出现的频率对它们进行排序和选择。

通过在NovelQA、InfiniteChoice和InfiniteQA等数据集上的实验，验证了E²GraphRAG在效率和效果上的优势。实验结果表明，E²GraphRAG在索引阶段比GraphRAG快10倍，比RAPTOR快约2倍；在检索阶段比LightRAG快100倍以上，比GraphRAG的局部模式快约10倍，同时保持了与GraphRAG相当的效果。在NovelQA数据集上，使用Qwen时E²GraphRAG取得了最佳性能；在InfiniteQA数据集上，两种基础模型均取得了最佳性能。

尽管E²GraphRAG在试验表现的效率和效果上取得了显著提升，但其检索设计仍然相对直观，可能存在更优的检索策略尚未被发现。此外，该模型对底层文档的质量和中立性高度依赖，若索引了有偏见或错误的数据，系统可能会产生误导性或有害的输出。自动实体提取和图构建也可能传播错误或忽视少数观点。总体而言，E²GraphRAG通过大幅降低索引和检索成本，为开放域问答、知识密集型NLP任务和长文档理解等下游应用提供了更高效和有效的解决方案，同时强调了在使用该框架时应与可信的数据源和人类监督结合，以确保其负责任地使用。未来的工作可以探索去偏方法和提高检索路径的透明度。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业