我要投稿

LightRAG将GraphRAG落地门槛打下来了！

发布日期：2024-10-14 11:24:23 浏览次数： 3275

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

现有的RAG系统存在显著的局限性，包括依赖于平面数据表示和缺乏足够的上下文感知能力，这可能导致答案碎片化，无法捕捉复杂的相互依赖关系。

为了解决这些挑战，提出了LightRAG，它将图结构整合到文本索引和检索过程中。这一创新框架采用了双层检索系统，从低层次和高层次的知识发现中增强了全面信息检索。

提出的LightRAG框架的整体架构

此外，图结构与向量表示的整合便于高效检索相关实体及其关系，显著提高了响应时间，同时保持了上下文的相关性。这种能力通过增量更新算法进一步增强，确保新数据能够及时整合，使系统在快速变化的数据环境中保持有效和响应性。并且LightRAG已开源。

LightRAG架构的详细步骤：

图基文本索引（Graph-Based Text Indexing）

步骤1：实体和关系提取

使用大型语言模型（LLM）对文档进行分析，识别出文本中的实体（如人名、地点、组织等）和它们之间的关系（如“属于”、“位于”等）。

将文档分割成多个小块（chunks），以提高处理效率。

步骤2：LLM Profiling生成键值对

对于每个识别出的实体和关系，使用LLM生成一个键值对（key-value pair），其中键（key）是一个或多个关键词，值（value）是与实体或关系相关的文本段落。

步骤3：去重优化

通过去重（Deduplication）过程，合并来自不同文档块中的相同实体和关系，减少图操作的开销。

双层检索范式（Dual-Level Retrieval Paradigm）

步骤4：生成查询关键词

对于给定的用户查询，提取局部（low-level）和全局（high-level）关键词。

步骤5：关键词匹配

使用向量数据库匹配局部关键词与候选实体，以及全局关键词与全局关键词关联的关系。

步骤6：整合高阶相关性

为了增强查询的相关性，LightRAG会收集检索到的图元素的邻接节点，这涉及到检索节点和边的一跳邻接节点。

检索增强答案生成

步骤7：使用检索到的信息

利用检索到的信息（包括实体和关系的值），通过通用的LLM生成答案。

步骤8：上下文整合与答案生成

将用户查询与多源文本合并，LLM生成符合查询意图的信息性答案。

增量知识库的快速适应

步骤9：增量更新知识库

当有新文档加入时，使用与之前相同的图基索引步骤处理新文档，生成新的知识图谱数据。

将新知识图谱数据与原有知识图谱合并，实现新数据的无缝整合。

步骤10：减少计算开销

避免重建整个索引图，减少计算开销，实现新数据的快速整合。

广泛的实验验证表明，与现有方法相比，LightRAG在多个关键维度上，包括全面性、多样性、知识赋能，都显示出了显著的改进。LightRAG效果优于GraphRAG、NaiveRAG、RQ-RAG 、HyDE。

在四个数据集和四个评估维度下，基线与LightRAG的胜率（%）对比

使用NaiveRAG作为参考，LightRAG的简化版本的性能

案例研究：LightRAG与基线方法GraphRAG之间的比较

LightRAG检索和生成过程。当提出查询“哪些指标对于评估电影推荐系统最有信息量？”时，大型语言模型（LLM）首先提取低级和高级关键词。这些关键词指导在生成的知识图谱上的双级检索过程，目标是相关实体和关系。检索到的信息被组织成三个组成部分：实体、关系和相应的文本块。这些结构化数据随后被输入到LLM中，使其能够生成对查询的全面回答。

https://github.com/HKUDS/LightRAGhttps://arxiv.org/pdf/2410.05779LIGHTRAG: SIMPLE AND FAST RETRIEVAL-AUGMENTED GENERATION

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-06-15

构建强大AI智能体的10大开源利器！

2025-06-14

从天价咨询到免费AI，夸克能改变志愿填报这门生意吗？

2025-06-14

开源破局，中国AI正在改写全球竞争格局！

2025-06-13

MinerU-利用专用LLM模型提取PDF内容的工具实测

2025-06-13

官宣|Milvus 2.6正式开源：内存减少 72%，速度比ES快4倍

2025-06-13

CoCo：全球首个“有记忆”的企业级AI Agent

2025-06-13

OpenAI 三连更：Team 上线 o3-pro、o3 额度翻倍、Projects 大升级！

2025-06-13

Manus免费版来了！两大核心更新功能实测

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Dify新版本部署失败的看过来！Dify 1.0.0本地部署使用及主要问题解决方法

2025-03-19

基于 Deepseek LLM 本地知识库搭建开源方案(AnythingLLM、Cherry、Ragflow、Dify)认知

2025-03-19

MCP服务介绍及应用场景报告-来自Manus

2025-04-01

15个最佳开源 RAG 框架选型指南

2025-04-13

47.3K star！这款开源RAG引擎真香！文档理解+精准检索+可视化干预，一站式搞定！

2025-04-01

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

CAMEL-AI Blog｜OWL调用MCP Toolkit实践

2025-03-19

字节跳动开源 LangManus：不止是 Manus 平替，更是 AI 自动化新引擎

2025-03-23

万字赏析 DeepSeek 创造之美：DeepSeek R1 是怎样炼成的？

2025-03-22

OpenAI学院：人工智能领头羊自己下场做课了

2025-04-12

大家都在问

从天价咨询到免费AI，夸克能改变志愿填报这门生意吗？

2025-06-14

开源RAG项目到底如何选型？

2025-06-10

免费开源的 Nanobrowser，竟成Web自动化的 “隐形高手”？

2025-06-08

如何管理和调度Dify工作流？

2025-05-28

字节开源文档解析Dolphin，PDF解析效率提升83%，到底行不行？

2025-05-28

蚂蚁集团开源antv的MCP服务：AI智能体与数据可视化的桥梁如何搭建？

2025-05-26

拆解OpenAI最大对手的杀手锏：为什么会是MCP？

2025-05-25

从基础大模型到场景适配，企业如何做好商业化最后一公里？

2025-05-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB