Graph-RAG全面综述：如何用知识图谱+大模型解决信息检索难题？

发布日期：2025-05-23 19:42:56 浏览次数： 4065

作者：智见AGI

微信搜一搜，关注“智见AGI”

导语

本文为《Graph Retrieval-Augmented Generation: A Survey》的深度精读，对论文内容进行了总结与提炼，希望帮助读者快速把握核心要点。在关键部分还附有拓展阅读建议，以引导进一步深入学习。由于部分内容基于基础概念之上展开，因此文中对相关基础知识有所略过。同时，部分解读融入了笔者自身的理解，可能与原作者的本意存在一定的偏差，敬请理解与指正。

论文

摘要

这篇论文的摘要部分首先肯定了rag作为一个不需要通过训练解决llm的幻觉、领域知识缺乏和信息过时等问题，但是数据库中不同实体之间复杂的关系结构还是采用Graph的方法利用跨实体的结构信息来实现更精确和全面的检索，捕获关系知识并促进更准确的上下文感知响应会更加合理。所以就写了这么一篇综述主要就是将GraphRAG工作流形式化，包括基于图的索引、图引导检索和图增强生成这三大块内容。并对每个阶段的核心技术和方法做了一个介绍。最后还研究了一些下游任务，任务领域、评估方法和工业用例和未来的方向。

一、引言

在引言中，论文除了介绍相关背景知识，还重点阐述了图增强生成的必要性与适用性，可以看到二者对比

之后本文的结构如下：

这个表格简洁地总结了原文中提到的论文各部分内容及其描述。

二、相关概念

这一节主要介绍了一些背景知识包括RAG（检索增强生成）、LLMs on Graphs（用于图的大语言模型）、以及KBQA（知识库问答）。大多是一些基础性的知识和介绍，主要是希望读者对该综述有一个预备知识。

三、预备知识

这一节真正涉及到了GraphRAG的背景知识。首先介绍了文本属性图（TAGs，一种典型形式是知识图谱），这是GraphRAG中使用的一种通用的图形数据格式。然后提供了可用于检索和生成阶段的图神经网络（GNN）和语言模型（LM）的正式定义。

四、GraphRAG概述

GraphRAG 的过程可以定义为以下公式：

这里，

a* 表示给定知识图谱 G和查询 q的最优答案。

A是所有可能响应的集合。

p(a∣q,G)是联合模型的目标分布，用于表示在给定查询 q和知识图谱 G的条件下得到答案 a的概率。

然后，我们使用全概率公式来分解 p(a∣q,G)，即考虑所有可能的子图 G⊆G的情况下，将总的概率分布拆解为每个子图上的条件概率之和。

因为候选子图的数量会随着图的规模呈指数增长，所以对其进行了一个近似，我们可以近似认为最终的答案概率取决于最优子图 G*，即：

这里

G* 表示从图数据库中检索出的最优子图。具体来说就是用图检索器提取最优子图。G* ，随后生成器基于检索到的子图生成答案那么很直观的从公式上看意图就很明显

1.首先构造一个G（基于图的索引）

2.其次是选择一个G*（图引导的检索）

3.最后生成一个a*（图增强生成）

五、基于图的索引

图数据库的构建和索引是GraphRAG的基础，图数据库的质量直接影响GraphRAG的性能。所以这一节，论文着重介绍了图数据的选择/构建，以及对所采用的各种索引方法进行分类和总结。

我们对整个章节的结构和流程图进行一个概览：

自建图数据

首先我们讨论图数据，图数据的来源首先是分为公开和自建的，公开的数据集其实对企业私有化应用的作用并不显著，即使是所谓的“领域知识图谱”也是比较通用的领域知识。

对于不涉及图形数据的下游任务，一般的方法是从多个来源(例如，文档，表和其他数据库)构建一个图，并利用GraphRAG来增强任务性能。

这些自构建图与方法的特定设计紧密相关，从而将它们与前面提到的开放域图数据区分开来，我们可以看下面几个常见的例子。

a.文档级关系：建一个异构文档图，捕获多个文档间的关系，包括共引用，共主题，共地点等。

b.段落级关系：根据共享关键词建立段落之间的关系。

c.实体级关系：利用命名实体识别（NER）工具从文档中提取实体，并利用语言模型进一步提取实体之间的关系，检索到的实体和关系形成知识图。

当然自建图到底应该如何建立的问题依然是很复杂的问题，有些研究者也会别出心裁下游任务的本身的特征来设计数据到图的映射方法。

a.在专利数据领域为了解决专利短语相似度推断任务，将专利数据库转换为专利短语图。如果专利中出现短语，则建立专利节点与短语节点之间的连接，而专利节点之间的连接则基于引文关系。

b.针对客户服务技术支持场景，将历史问题记录建模为KG, KG将问题转换为树表示来维护问题内关系，并利用语义相似性和阈值来维护问题间关系。

从上面的例子来看图的建立开始，可能就需要考虑私有业务到底需要发掘和关联什么样的信息。

索引

知识库的构建不可能只考虑构建，好的构建依然是为了检索服务。而基于图的索引对于提高图数据库查询操作的效率和速度起着至关重要的作用，它直接影响到后续的检索方法和粒度。⚠️特别强调一下，向量索引特指图嵌入向量。而文本索引中包含了文本向量索引和传统文本检索，而图索引特指传统图检索方法。

Remark：

这三种索引方法各有其独特的优点:图形索引方便对结构信息的访问，文本索引简化了对文本内容的检索并且也适合与大语言模型对接，矢量索引实现了快速有效的搜索。因此，在实际应用中，结合这些索引方法的混合方法通常比单独依赖一种方法更可取。并且，从上述研究来看，实际上针对于到底是用什么样的图，设置什么样的索引，很可能是非常个性化，与业务高度关联的，只能具体情况具体分析，从这个意义上来说，一个可以针对于图数据可编程的框架是更加可取的。

六、图引导检索

在GraphRAG中，通过从外部图形数据库提取相关的高质量图形数据，检索过程对于确保生成输出的质量和相关性至关重要。然而，检索图数据有两个核心技术难点:

1. 爆炸性候选子图:随着图大小的增加，候选子图的数量呈指数增长，需要启发式搜索算法有效地探索和检索相关子图。(注，这里考虑一下前面其实提到了文本索引，但是思考后认为即使是文本，依然需要考虑候选子文本，所以这实际上是一个问题)

2. 相似度测量不足:准确测量文本查询和图数据之间的相似度需要开发能够理解文本和结构信息的算法。

很多科研人员在优化检索过程方面已经付出了相当大的努力。这章的重点是研究GraphRAG中检索过程的各个方面，包括检索器的选择、检索范式、检索粒度和有效的增强技术。我们首先从宏观上观察这一工作流：

在GraphRAG中，论文根据其基础模型将检索器分为三种类型:非参数检索器、基于LM的检索器和基于GNN的检索器。

需要注意的是，这里没有考虑预处理步骤中使用的模型，比如说查询的编码和实体链指（一些像KAG这些是做了相关处理比如实体链指），因为这些模型在不同的方法中有所不同，所以本文也没有很好的归纳。

检索器

首先我们看检索器模块

Remark：

在检索过程中，非参数（学习）检索器表现出比较高的检索效率，但由于缺乏对下游任务的训练，可能存在检索不准确的问题。相对来说基于LM的检索器和基于GNN的检索器付出了更多计算成本的同时提供了更高的检索精度。考虑到这种互补性，许多方法提出了混合检索方法，以提高检索效率和准确性。许多方法采用多阶段检索策略，在每个阶段使用不同的模型。例如，RoG首先利用LLM生成规划路径，然后从知识图中提取满足规划路径的路径。GenTKGQA使用LLM从查询中推断出关键关系和约束，并根据这些约束提取三元组。同图的构建一样，检索这一步虽然没有针对性那么强，大多采用语言模型进行辅助检索，但是在研究领域其实也是各种“雕花”混合多种方案。而且我们其实下一节也会提到，这个过程其实也包含了很多检索范式，特别是有多次迭代检索的范式，更加倾向于采用混合检索器。

检索范式

对于检索模块如何组织运行检索功能，根据检索的次数和停机方式可以做这样的区分：

Remark：

在GraphRAG中，检索范例的选择应该基于特定的用例和需求来平衡准确性和时间复杂性，往往多次的，迭代的，自适应的总会增加更多的不确定性以减少算法的可靠程度。

检索粒度

一个不争的事实是，你无论采用什么检索，你总得指定检索出来的东西是什么。我们之前在问题数学定义的时候选择的概念是“子图”但问题是实际场景下面是很复杂的，检索的东西可能都说不上是一个图，而是图的某个属性（PS：这就是为啥工科没什么人看数学公式...）那可能会有以下考虑：

Remark：

1.在实际应用中，这些检索粒度之间没有明确的界限，因为子图可以由多条路径组成，而路径可以由多个三元组组成。

2.节点、三元组、路径和子图等各种粒度在GraphRAG过程中提供了独特的优势。在选择粒度时，根据任务的特定上下文，在检索内容和效率之间取得平衡是至关重要的。对于直接的查询或当效率是最重要的时，更细的粒度(如实体或三元组)可以优化检索速度和相关性。

3.相比之下，复杂的场景通常受益于组合多个粒度的混合方法。这种方法确保了对图结构和关系的更全面的理解，提高了生成响应的深度和准确性。因此，GraphRAG在粒度选择方面的灵活性使其能够有效地适应不同领域的不同信息检索需求。

检索增强

为了保证高检索质量，研究人员提出了增强用户查询和检索知识的技术。这一节将查询增强分为查询扩展和查询分解，知识增强分为合并和剪枝。这些策略共同优化了检索过程。尽管类似于查询重写在RAG中经常使用，但它们在GraphRAG中应用的频率较低我们不深入研究这些方法。

查询增强：应用于查询的策略通常涉及预处理技术，这些技术可以丰富信息，以便更好地检索。这可能包括查询扩展和查询分解。

▪查询拓展：由于查询通常长度较短，信息内容有限，查询扩展的目的是通过使用额外的相关术语或概念补充或改进原始查询来改进搜索结果。

利用llm生成以KGs为基础的关系路径来增强检索查询。

采用SPARQL从Wikidata中获取查询实体的所有别名来增强检索查询，从而捕获同一实体的词法变化。

提出了一种共识视图知识检索方法来提高检索精度，该方法首先发现语义相关的查询，然后对原始查询项重新加权以提高检索性能。

HyKGE利用一个大型模型来生成问题的假设，将假设与查询连接起来作为检索器的输入。

▪查询分解：查询分解技术将原始用户查询分解为更小、更具体的子查询。

将主要问题分解为子句，每个子句代表一个不同的关系，并依次检索每个子句的相关三元组。

知识增强

▪知识合并：合并检索到的信息支持信息的压缩和聚合，这有助于通过整合来自多个源的相关细节获得更全面的视图。这种方法不仅增强了信息的完整性和一致性，而且减轻了模型中与输入长度约束相关的问题。

knowledgegenavigator通过合并节点，并通过三重聚合对检索到的子图进行压缩，提高推理效率。

在检索每个主题实体的top-?路径形成单个子图后，将不同子图中的相同实体合并形成最终子图。

基于关系对检索到的子图进行合并，将满足相同关系的头实体和尾实体合并为两个不同的实体集，最终形成关系路径

▪知识排序

基于子图与查询之间的关系和细粒度概念的相似性对候选子图重新排序。

根据预先训练好的语言模型计算出的问题上下文与KG实体节点之间的相关性评分，对检索到的子图进行剪枝。

Remark

这里其实文中没有总结得特别好，我觉得核心的问题在于无论是做“加法”、“减法”、“排序”他必须得有一个依据，根据实践经验，做排序的居多，那么这里牵涉到一个问题，依据什么排序？可以是一个死的标准，也可以是一个灵活的大语言模型。方法不同性能差别应该是很大的。

七、图增强生成

生成阶段是GraphRAG中的另一个关键步骤，旨在将检索到的图数据与查询集成在一起，以提高响应质量。在这个阶段，必须根据下游任务选择合适的生成模型。然后将检索到的图形数据转换为与生成器兼容的格式。生成器将查询和转换后的图形数据作为输入，以生成最终响应。除了这些基本过程，生成增强技术可以通过加强查询和图数据之间的交互以及丰富内容生成本身来进一步提高输出。

生成器

Generators的选择通常取决于手头下游任务的类型。对于生成任务，仅使用gnn和判别语言模型是不够的。这些任务需要生成文本，这就需要部署解码器。

GNNs

由于GNN对图数据的强大表示能力，它们对判别任务特别有效。GNN可以直接对图数据进行编码，捕获图结构中固有的复杂关系和节点特征。然后通过多层感知器(MLP)处理该编码以生成预测结果。这些方法主要利用经典的GNN模型(GCN、GAT、GraphSAGE和Graph Transformers)，要么保持原始形式，要么进行修改，以更好地与下游任务保持一致。

LMs

LMs具有强大的文本理解能力，这也使它们能够作为生成器发挥作用。在将lm与图数据集成的上下文中，有必要首先将检索到的图数据转换为特定的图格式。这种转换过程确保了LMs能够有效地理解和利用结构化信息。这些格式对于保留图数据的关系和层次结构至关重要，从而增强模型解释复杂数据类型的能力。一旦对图数据进行了格式化，它就会与查询结合起来，并输入到LM中。

Hybrid Models

考虑到gnn在表示图数据结构方面的优势，以及LMs对文本的强大理解，许多研究正在探索这两种技术的集成，以产生连贯的响应。本文将混合生成方法分为两种不同的类型:级联范式和平行范式。（boosting or bagging）

1.级联范式中得流程涉及顺序交互，其中一个模型的输出充当下一个模型的输入。具体来说，GNN首先处理图数据，将其结构和关系信息封装成LM可以理解的形式。随后，将转换后的数据输入到LM中，LM然后生成最终的基于文本的响应。

2.而平行范式是两个模型同时接收初始输入，并协同工作以处理同一数据的不同方面。然后，通常通过另一个模型或一组规则合并输出，以产生统一的响应，该响应集成了来自图形结构和文本内容的见解。

图格式编码

当使用gnn作为生成器时，可以直接对图数据进行编码。然而，当使用LMs作为生成器时，图数据的非欧性质带来了挑战，因为它不能直接与文本数据相结合以输入到LMs中。为了解决这个问题，使用图形转换器将图形数据转换为与lm兼容的格式。下面这个图就很好地描述了几种情况，不做过多赘述：

•邻接表和边表 · 自然语言 · 类代码形式 · 语法树 · 节点序列

生成增强

在生成阶段，除了将检索到的图数据转换为生成器可接受的格式并与查询一起输入生成最终响应外，许多研究者还探索了各种生成增强技术的方法来提高输出响应的质量。这些方法根据其应用阶段可分为三类:前增强、中增强和后增强。

•前增强：生成前增强侧重于在将输入数据或表示输入到生成器之前提高它们的质量。事实上，在生成前增强和检索之间并没有明确的界限。主要涉及对检索到的图数据进行语义丰富，以实现图数据与文本查询之间更紧密的集成。

•中增强：中期增强涉及在生成过程中应用的技术。这些方法通常根据中间结果或上下文线索调整生成策略。

•后增强：生成后增强发生在初始响应生成之后。生成后增强方法主要涉及对多个生成的响应以获得最终响应。这个很显然就是要搞投票器，要么多次生成响应，要么多模型生成不同响应。

八、训练

基于训练的方法涉及使用监督信号训练或微调模型。这些方法通过使它们适应特定的任务目标来增强模型性能，从而潜在地提高检索或生成内容的质量和相关性。前面已经分成了检索器和生成器，自然对其都需要做相应的训练...当然你也可以选择不训练，这可能会让方案达不到最优效果。

关于检索器的训练

非训练检索器

目前使用的无训练检索器主要有两种。

1.第一种类型由非参数检索器组成。这些检索器依赖于预定义的规则或传统的图搜索算法，而不是特定的模型。

2.第二种是利用预训练的lm作为检索器。具体来说，一组作品利用预训练的嵌入模型对查询进行编码，并根据查询与图元素之间的相似性直接执行检索。

训练检索器

训练检索器通常采用自回归方法，将之前的关系路径连接到查询的末尾。然后，模型根据这个连接的输入预测下一个关系。

原本在大多数数据集中，检索内容缺乏真实的基础，所以许多方法试图构建基于远程监督的推理路径来指导检索器的训练。但是一些方法认为，远程监督信号或隐式中间监督信号可能包含相当大的噪声，使训练有效的检索器比较困难，所以自监督还是主流。

关于生成器的训练

非训练生成器

非训练生成器主要迎合闭源LLM或避免高培训成本是必不可少的场景。在这些方法中，检索到的图数据与查询一起被馈送到LLM中。然后，llm根据提示中提供的任务描述生成响应，这在很大程度上依赖于它们理解查询和图数据的固有能力。

训练生成器

训练生成器可以直接接收来自下游任务的监督信号。对于生成式llm，可以使用监督微调(SFT)来实现微调，其中输入任务描述、查询和图形数据，并将输出与下游任务的基本事实进行比较。另一方面，对于作为生成器的gnn或判别模型，使用针对下游任务的专门损失函数来有效地训练模型。

像是KAG这种框架实际上也是推出了自己的训练模型

联合训练

联合训练检索器和生成器，同时利用它们的互补优势，提高下游任务的性能。一些方法将检索器和生成器统一到一个模型中，通常是llm，并同时用检索和生成目标训练它们。那么训练的话要么可以先单独训练后统一训练，也可以直接统一训练。KAG其实也认可了这种训练其实是双向增强的思想

九、评价

下游任务

这里给出一个表收集了现有的GraphRAG技术，并根据下游任务、基准测试、方法和评估指标对它们进行了分类。此表作为一个全面的概述，突出显示了GraphRAG技术在不同领域的各个方面和应用程序。

问答

◦知识库问答

◦常识问答

信息抽取

◦实体链指

◦关系抽取

其他

◦事实核查

◦链接预测

◦对话系统

◦推荐系统

十、未来挑战

论文针对未来的挑战这块主要指出了几个问题

1.数据库是静态的而不动态改变

2.单模态的文本无法应对多模态查询

3.超大规模知识图谱怎么办

4.能不能开发出针对图的基础模型

5.超长上下文如何无损压缩

6.统一的评估方法缺失

7.应用领域并没有很广泛

那么以上就是这篇论文的全部内容了，这篇论文不仅是对当前研究现状的一个全面回顾，也为未来的研究指明了方向。随着技术的不断进步，尤其是当大型语言模型能够更好地整合外部知识时，我们有理由相信，它们将在更多实际场景中发挥重要作用，推动人工智能向更加智能化、人性化迈进。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业