微信扫码
添加专属顾问
我要投稿
RAKG框架以95.91%的准确率刷新文档级知识图谱构建纪录,比GraphRAG提升6.2个百分点,揭秘其突破性技术路径。核心内容: 1. GraphRAG在实体消歧和跨文档整合上的技术瓶颈 2. RAKG创新性预实体机制与双重评估体系解析 3. 动态分块策略与语料回溯检索的工程实现细节
本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。
本次分享一种名为 RAKG(Document-level Retrieval Augmented Knowledge Graph Construction)的框架,旨在解决传统知识图谱构建(KGC)方法在文档级知识图谱构建中的局限性。
RAKG 框架通过从文本片段中提取预实体,并利用这些预实体作为检索增强生成(RAG)技术的查询,有效解决了 LLMs 在长文本处理中的上下文遗忘问题,降低了核心ference Resolution 的复杂性,并更有效地捕获全局信息和节点间的相互联系,从而提升了模型的整体性能。
关系网络的构建是知识图谱构建中的关键环节。 RAKG 提出了一个两步策略:
RAKG 框架的整体结构包括以下几个关键步骤:
以“蝴蝶的生命周期”为例:
RAKG 的命名实体识别模块检测到 23 个核心实体,其中“蝴蝶卵”“毛毛虫”和“成年蝴蝶”是中心实体。这些实体在文章中有密集的文本块,表明它们是关键概念。 以“成年蝴蝶”为例,RAKG 检索到描述其五个特征的专业文本块,并从原始知识图谱中检索到与“成年蝴蝶”相关的子图。 通过将这些文本块和子图整合后输入 LLM,RAKG 构建了以“成年蝴蝶”为中心的关系网络,形成了完整的子图。 最终,通过整合所有子图,RAKG 构建了一个系统化的知识图谱,清晰地展示了文章的核心概念及其相互关系。
文档分块:RAKG 采用动态分块策略,将文档按照句子边界分割为多个文本片段,确保每个片段的语义完整性。具体公式如下:
其中, 表示分割后的文本片段集合, 表示第 个文本片段。
向量化处理:对每个文本片段进行向量化处理,得到文本片段的向量表示。具体公式如下:
其中, 表示文本片段的向量集合, 表示第 个文本片段的向量表示。
命名实体识别(NER):对每个文本片段进行逐句 NER,识别出其中的实体,并为每个预实体分配类型和描述属性。具体公式如下:
其中, 表示第 个文本片段中识别出的预实体集合, 表示所有预实体的集合。
向量化处理:对每个预实体进行向量化处理,得到预实体的向量表示。具体公式如下:
其中, 表示预实体的向量集合, 表示第 个预实体的向量表示。
实体消歧:对识别出的预实体进行相似性检查,将相似度高于阈值的实体放入初步相似实体集合中,然后通过 LLM 进行最终判断,将相似实体合并为一个实体。具体公式如下:
其中, 表示与实体 相似的预实体集合, 表示经过 LLM 判断后与 相同的实体集合。
语料库回溯检索:对于指定的实体 (e),通过检索与实体相关的文本片段,获取与实体相关的语义信息。具体公式如下:
其中, 表示与实体 相关的文本片段集合。
图结构检索:对于指定的实体 (e),从初始知识图谱中检索与实体相关的节点及其关系网络。具体公式如下:
其中, 表示与实体 相关的节点集合。
关系网络生成与评估:将检索到的文本片段和关系网络信息整合后输入 LLM,生成实体的关系网络,并通过 LLM 对生成的三元组进行真实性评估。具体公式如下:
其中, 表示实体 的关系网络。
https://arxiv.org/pdf/2504.09823
https://github.com/KnowledgeXLab/RAKG
推荐阅读
DeepSeek过度思考「自省式推理」登顶多跳问答榜" data-itemshowtype="0" linktype="text" data-linktype="2">清华ReaRAG,严防Deepseek过度思考「自省式推理」登顶多跳问答榜
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-02
2025-08-26
2025-08-28
2025-08-24
2025-07-27
2025-08-10
2025-08-30
2025-07-29
2025-08-28
2025-07-25