微信扫码
添加专属顾问
我要投稿
GraphRAG 是一种结构化的、分层的检索增强生成 (RAG) 方法,与使用纯文本片段的朴素语义搜索方法相反。GraphRAG 过程涉及从原始文本中提取知识图谱、构建社区层次结构、为这些社区生成摘要,然后在执行基于 RAG 的任务时利用这些结构。
至于安装和快速入门,这里就不介绍了,详情可以查看下面链接。
GraphRag快速开始:https://microsoft.github.io/graphrag/posts/get_started/
现在直接进入原理。
主要分为两大块:
Index 构建(图谱索引构建)
Query查询 (查询引擎)
将输入文档转换为 TextUnits
大约1200 token一个分片。
提取:Entities、Relationships 和 Claims
方法:
entity_extract ->实体&关系
claim_extract -> 声明
使用LLM提取每一个TextUnit
产出:subgraph-per-TextUnit 包含了
entities (name, type, description)
relationships (source, target, description)
使用LLM提取摘要
产出:把一个图中的实体和关系简述为一个简单的描述。
处理相似实体
产出:协变量
从源 TextUnits 中提取声明
现在我们有了一个可用的实体和关系图,我们想了解他们的社区结构,并用其他信息来增强图。这分两步完成:社区检测和图形嵌入。这些为我们提供了显式(社区)和隐式(嵌入)方法来理解我们图的拓扑结构。
在此步骤中,我们使用分层莱顿算法生成实体社区的层次结构。这种方法将递归社区聚类应用于我们的图,直到我们达到社区规模阈值。这将使我们能够理解图的社区结构,并提供一种在不同粒度级别上导航和汇总图的方法。
Node2Vec 算法生成图形的向量表示。这将使我们能够理解图的隐式结构,并提供一个额外的向量空间,用于在查询阶段搜索相关概念。
最终的 Entities 和 Relationships 表
在这一点上,我们有一个实体和关系的功能图,一个实体的社区层次结构,以及node2vec嵌入。
现在,我们希望以社区数据为基础,并为每个社区生成报告。这使我们在图形粒度的几个点上对图形有了高层次的理解。例如,如果社区 A 是顶级社区,我们将获得有关整个图表的报告。如果社区级别较低,我们将收到有关本地集群的报告。
LLM生成每个社区的摘要
用LLM摘要,供速记使用。
生成社区报告的文本嵌入、社区报告摘要和社区报告的标题来生成社区的矢量表示。
社区报告的embeding
社区报告摘要的embeding
社区报告标题的embeding
Entity-based Reasoning 基于实体的推理
本地搜索方法将知识图谱中的结构化数据与输入文档中的非结构化数据相结合,以在查询时使用相关实体信息增强LLM上下文。它非常适合回答需要理解输入文档中提到的特定实体的问题
例如,“洋甘菊的治疗特性是什么?
示例代码:https://microsoft.github.io/graphrag/posts/query/notebooks/local_search_nb/
Whole Dataset Reasoning 全数据集推理
基线 RAG 难以处理需要聚合数据集中信息以组成答案的查询。诸如“数据中排名前 5 位的主题是什么?”之类的查询执行得很糟糕,因为基线 RAG 依赖于对数据集中语义相似的文本内容的向量搜索。查询中没有任何内容可以将其定向到正确的信息。
但是,使用 GraphRAG,我们可以回答此类问题,因为生成的知识图谱的LLM结构告诉我们整个数据集的结构(以及主题)。这使得私有数据集可以被组织成有意义的语义集群,这些语义集群是预先汇总的。使用我们的全局搜索方法,在LLM响应用户查询时,使用这些聚类来总结这些主题。
示例代码:https://microsoft.github.io/graphrag/posts/query/notebooks/global_search_nb/
Entity-based Question Generation基于实体的问题生成
将知识图谱中的结构化数据与输入文档中的非结构化数据相结合,生成与特定实体相关的候选问题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
聊聊AI智能体框架MetaGPT下的RAG实践
2025-04-30
如何用大模型+RAG给宠物做一个AI健康助手(干货分享)?
2025-04-30
HiRAG:基于层级知识索引和检索的高精度RAG
2025-04-29
教程|通义Qwen 3 +Milvus,混合推理模型才是优化RAG成本的最佳范式
2025-04-29
RAG开发框架LangChain与LlamaIndex对比解析:谁更适合你的AI应用?
2025-04-29
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升
2025-04-29
超神了,ChatWiki 支持GraphRAG,让 AI 具备垂直深度推理能力!
2025-04-29
AI 产品思维:我如何把一个 AI 应用从基础 RAG 升级到 multi-agent 架构
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-30
2025-04-29
2025-04-29
2025-04-26
2025-04-25
2025-04-22
2025-04-22
2025-04-20