我要投稿

微软graphRag调研

发布日期：2024-10-14 22:11:22 浏览次数： 2058

作者：极豆视界

微信搜一搜，关注“极豆视界”

GraphRAG 是一种结构化的、分层的检索增强生成（RAG）方法，与使用纯文本片段的朴素语义搜索方法相反。GraphRAG 过程涉及从原始文本中提取知识图谱、构建社区层次结构、为这些社区生成摘要，然后在执行基于 RAG 的任务时利用这些结构。

至于安装和快速入门，这里就不介绍了，详情可以查看下面链接。

GraphRag快速开始：https://microsoft.github.io/graphrag/posts/get_started/

现在直接进入原理。

主要分为两大块：

Index 构建（图谱索引构建）
Query查询（查询引擎）

Index构建

阶段 1：组装 TextUnits

将输入文档转换为 TextUnits

大约1200 token一个分片。

第 2 阶段：图形提取

提取：Entities、Relationships 和 Claims

方法：

entity_extract ->实体&关系
claim_extract -> 声明

Entity & Relationship Extraction 实体和关系提取

使用LLM提取每一个TextUnit

产出：subgraph-per-TextUnit 包含了

entities （name, type, description）
relationships （source, target, description）

Entity & Relationship Summarization 实体和关系摘要

使用LLM提取摘要

产出：把一个图中的实体和关系简述为一个简单的描述。

Entity Resolution (Not Enabled by Default) 实体解析

处理相似实体

产出：协变量

Claim Extraction & Emission 声明提取和产出

从源 TextUnits 中提取声明

第 3 阶段：图形增强

现在我们有了一个可用的实体和关系图，我们想了解他们的社区结构，并用其他信息来增强图。这分两步完成：社区检测和图形嵌入。这些为我们提供了显式（社区）和隐式（嵌入）方法来理解我们图的拓扑结构。

Community Detection 社区检测

在此步骤中，我们使用分层莱顿算法生成实体社区的层次结构。这种方法将递归社区聚类应用于我们的图，直到我们达到社区规模阈值。这将使我们能够理解图的社区结构，并提供一种在不同粒度级别上导航和汇总图的方法。

Graph Embedding 图形嵌入

Node2Vec 算法生成图形的向量表示。这将使我们能够理解图的隐式结构，并提供一个额外的向量空间，用于在查询阶段搜索相关概念。

Graph Tables Emission 图表产出

最终的 Entities 和 Relationships 表

在这一点上，我们有一个实体和关系的功能图，一个实体的社区层次结构，以及node2vec嵌入。

第 4 阶段：社区总结

现在，我们希望以社区数据为基础，并为每个社区生成报告。这使我们在图形粒度的几个点上对图形有了高层次的理解。例如，如果社区 A 是顶级社区，我们将获得有关整个图表的报告。如果社区级别较低，我们将收到有关本地集群的报告。

Generate Community Reports 生成社区报告

LLM生成每个社区的摘要

Summarize Community Reports 汇总社区报告

用LLM摘要，供速记使用。

Community Embedding 社区嵌入

生成社区报告的文本嵌入、社区报告摘要和社区报告的标题来生成社区的矢量表示。

社区报告的embeding
社区报告摘要的embeding
社区报告标题的embeding

查询引擎

Local Search 本地搜索

Entity-based Reasoning 基于实体的推理

本地搜索方法将知识图谱中的结构化数据与输入文档中的非结构化数据相结合，以在查询时使用相关实体信息增强LLM上下文。它非常适合回答需要理解输入文档中提到的特定实体的问题

例如，“洋甘菊的治疗特性是什么？

示例代码：https://microsoft.github.io/graphrag/posts/query/notebooks/local_search_nb/

Global Search 全域搜索

Whole Dataset Reasoning 全数据集推理

基线 RAG 难以处理需要聚合数据集中信息以组成答案的查询。诸如“数据中排名前 5 位的主题是什么？”之类的查询执行得很糟糕，因为基线 RAG 依赖于对数据集中语义相似的文本内容的向量搜索。查询中没有任何内容可以将其定向到正确的信息。

但是，使用 GraphRAG，我们可以回答此类问题，因为生成的知识图谱的LLM结构告诉我们整个数据集的结构（以及主题）。这使得私有数据集可以被组织成有意义的语义集群，这些语义集群是预先汇总的。使用我们的全局搜索方法，在LLM响应用户查询时，使用这些聚类来总结这些主题。

示例代码：https://microsoft.github.io/graphrag/posts/query/notebooks/global_search_nb/

Question Generation 问题生成

Entity-based Question Generation基于实体的问题生成

将知识图谱中的结构化数据与输入文档中的非结构化数据相结合，生成与特定实体相关的候选问题。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-30

优化 AI 问答准确率：知识库实践与避坑指南

2025-07-30

RAG召回优化完全指南：从理论到实践的三大核心策略！

2025-07-30

RAG 检索四件套全解析：模型、向量库、检索方式、排序器，一文选型不踩坑

2025-07-30

从0到1，彻底搞懂 RAG 分块的艺术（附开源代码）

2025-07-30

大规模RAG实施蓝图

2025-07-29

一小时内构建基于Gemma与Bright Data的生产级RAG应用

2025-07-28

做RAG系统到底是选MaxKB还是FastGPT

2025-07-28

企业RAG之构建 FastMCP 服务：基于模型上下文协议的智能服务体系搭建实践

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG技巧与底层代码剖析

2025-06-06

2025年GitHub上十大RAG框架深度解析：从技术原理到实战应用

2025-05-30

RAGFlow中的Embeddings模型选择及向量数据库选型与实现分析

2025-06-05

淘天⾃营质量技术AI智能体的实践和思考

2025-05-19

深度解读：LlamaIndex 实现 RAG 重排序的关键要点

2025-05-08

如何构建基于n8n的RAG日报工作流（手把手教程）

2025-05-10

RAG技术全解析：从基础原理到优化实战

2025-06-05

ragflow架构解析及性能优化方式

2025-05-20

知识图谱+RAG：大幅提升智能问答系统准确率

2025-06-05

让大模型“记住”更多：RAG与长期记忆

2025-05-09

大家都在问

长文本放提示词中还是采用 RAG？

2025-07-28

AI大模型落地最后一公里：RAG？

2025-07-09

向量相似度检索遇到天花板，是否我们走错了？

2025-07-04

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

从碎片到图谱：Graph RAG如何用知识网络颠覆传统搜索？

2025-07-01

qodo如何构建大型代码仓库的RAG？

2025-07-01

RAG系统的“聪明药”：如何用反馈回路让你的AI越用越聪明？

2025-07-01

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念？

2025-06-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB