我要投稿

微软PIKE-RAG开源：L0 到 L4级分阶段系统构建策略

发布日期：2025-04-13 06:57:22 浏览次数： 1758

作者：马伟说

微信搜一搜，关注“马伟说”

PIKE-RAG 采用了层次化、分阶段的系统构建与实现策略，每个阶段都有不同的目标和挑战，以确保系统能逐步提升对复杂问题的处理能力。如下图所示：

图中：“PA”表示文件解析、“KE”表示知识提取、“RT”表示知识检索、“KO”表示知识组织、“KR”表示以知识为中心的推理。

—

L0:知识库构建

L0是RAG系统的起点，专注于打造一个全面且可靠的知识库，为后续的知识检索奠定基础。其核心任务是将特定领域的文档处理成机器可读格式，并整理成异构图，作为高级推理和检索的支撑。L0系统包括三个主要模块：文件解析、知识提取和知识存储，确保知识库既全面又精准。

1. 文件解析

文件解析是处理多样数据源的关键步骤。借助类似LangChain的工具，可以轻松解析多种格式的文本文档，整合异构数据。同时，通过深度学习工具和商业云API，实现OCR和表格提取，将扫描文档转为结构化文本。

针对包含复杂表格和图表的专业文件，建议进行布局分析，并保留图表和图形等多模态元素，并用视觉-语言模型（VLMs）描述这些元素。这样既保持文档完整性，又提升检索效果。

2. 知识组织

知识库构建采用多层异构图结构，清晰展示信息的不同粒度、抽象级别以及关系。如下图所示：

分为信息资源层、语料层和提炼知识层，支持语义理解和高效检索。

信息资源层(Information Resource Layer)：记录各种数据源，用节点和边表示其参照关系，便于交叉验证和推理。
语料层(Corpus Layer)：将文档拆分成章节和分块，同时保留其文档的原始层级结构，表格和图形经大型语言模型（LLMs）总结后融入节点，确保多模态内容可检索。
提炼知识层(Distilled Knowledge Layer)：通过实体识别和关系提取，将语料转化为知识图谱、原子知识和表格知识等结构化形式，支持深度推理。具体提炼方式包括：

知识图谱：使用LLMs提取实体和关系，形成“节点-边-节点”结构，构建图谱。原子知识：将文本拆成原子语句，结合节点关系生成原子知识。表格知识：提取具有指定类型和关系的实体对，组合以构建表格知识。

—

L1:以事实问题为核心

L1 基于L0增加了知识检索和组织功能，以提升检索与生成能力。核心挑战在于语义对齐和文本分块：专业术语繁多可能降低分块准确性，不合理分块则会破坏语义完整性并引入干扰。为此，L1 系统引入了更精细的查询分析和基础知识提取模块，扩展架构以支持任务分解、协调及初步知识组织，确保处理复杂查询更高效。

1. 增强分块

分块是将大篇幅文本拆分为小块的过程，主要方法包括固定大小分块、语义分块和混合分块。合理分块能提升检索效率与准确性，直接影响系统性能。分块在 L1 系统中有双重作用：

一是作为向量化的信息单元存储供检索；
二是为后续知识提取和摘要提供基础。

不当分块会丢失语义信息，尤其在法律法规等场景中，固定大小分块常破坏上下文，影响提取质量。分块过程如下图所示：

该文本分割算法将大文档拆成小块，同时保留上下文并并为每个分块生成有效的摘要。

给定源文本，该算法迭代地将文本分割成多个分块。第一次迭代为初始分块生成前向摘要，作为后续分块的上下文依据。每块结合前向摘要生成独立摘要，存储后更新摘要并移除已处理部分，循环至文本全部分解。此外，该算法可以根据文本的内容和结构动态调整分块大小。

2. 自动标签

在特定领域的RAG场景中，语料库多为专业化表达，而用户查询常使用日常语言。例如，在医学问答中，症状描述简单，但语料库用词专业，这种差异导致检索不准。为解决这一问题，自动标签模块通过预处理语料库、以提取全面的领域特定标签集合或建立标签映射规则，缩小查询与文档的差距。

具体方法是利用大型语言模型（LLMs）的能力识别分块中的关键因素，归纳为标签类别，并生成提取提示。在无查询样本时，从语料库提取标签形成集合；有样本时，从查询和答案分块中提取标签，建立跨领域映射。最终，查询标签通过映射优化检索，提升准确性与覆盖率。

3. 多粒度检索

L1 系统支持跨异构知识图的多层、多粒度检索。图中各层（如信息源层、语料库层、提炼知识层）提供不同抽象级别和粒度的知识，查询可映射到整篇文档或具体分块，灵活适配任务需求。系统通过计算查询与节点的相似度，并在各层间传播和聚合信息，确保兼顾广度与深度。

—

L2: 以链式推理问题为核心

L2专注于高效检索多源信息并进行复杂推理。为此，它引入了知识提取模块和任务分解协调模块，前者精准提取相关信息，后者将复杂任务拆解为易处理的子任务，提升系统效率。如图9所示。

1. 知识原子化

文档分块往往包含多条信息，但任务所需仅为部分子集。传统检索将信息整合于单一分块，效率不高。

为此，知识原子化利用大语言模型（LLMs）为分块生成问题标签，这些问题可由分块回答，覆盖表格、图像等内容。标签与分块组成层次知识库，支持粗细粒度查询，通过问题索引快速定位相关分块。

2. 知识感知任务分解
3. 知识感知任务分解器训练

—

L3:以预测性问题为核心

L3专注于提升预测能力，核心在于高效收集、整理知识，并构建预测依据。系统通过任务分解与协调模块，基于检索到的知识生成预测逻辑，如下图所示：

为支持高级分析和预测，知识组织模块新增了结构化和整理子模块，将原始知识转化为清晰格式。例如，在FDA场景中，药品标签、临床试验等数据被整合进多层知识库，结构化子模块按任务要求整理出药品名称和批准日期，归纳子模块再按日期分类，便于统计和预测。

为解决大语言模型在专业推理上的不足，知识中心推理模块加入了预测子模块，能根据查询和整理后的知识（如每年批准药品数量）推测结果。这不仅限于历史数据回答，还能预测未来趋势，提供更灵活的响应。

L3通过优化知识整理与预测功能，能高效处理复杂动态的知识库。

—

L4: 以创造性问题为核心

L4通过引入多代理机制，实现多角度思考。解决创意问题需要结合事实和原理进行创新推理。主要难点在于从知识中提炼逻辑、处理复杂影响因素，并评估开放性问题的答案质量。为此，系统协调多个代理，各具特色地分析和推理，并行整合不同思路，输出全面解决方案。如下图所示：

这种设计支持多样化视角，能有效应对复杂查询，激发新想法而非固定答案。多代理协作不仅深化推理，还为用户提供丰富见解，推动创造性思维和复杂问题的独特解法。

最后，本文的主要内容是根据论文《PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation》翻译总结而来，关于PIKE-RAG的更多信息请参考如下开源项目与论文：

GitHub 链接：https://github.com/microsoft/PIKE-RAG论文链接：https://arxiv.org/abs/2501.11551

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-30

更强的 Qwen3-Coder 来了，都用上了吗？

2025-07-30

全球首个多智能体Eigent开源！内置200+MCP，支持SSO企业级

2025-07-30

Coze扣子开源后，还有好用的智能体Agent开发平台吗？

2025-07-30

带你看看Dify的原生数据库中有什么？——深入PostgreSQL

2025-07-30

GitHub 收获 33.4k Star，AI查询引擎，可在海量联邦数据上进行问答的AI构建平台，MCP服务器解决方案

2025-07-30

Coze vs Dify：一场AI开发平台的「顶流」对决战

2025-07-30

盘点一下上半年工作用到的AI产品和技术

2025-07-30

Dify之外的新选择？开源版Coze部署初体验，真香警告！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

实测Qwen3-Coder，这就是目前最强的开源编程模型

2025-07-23

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

Qwen3-Coder开源：面向世界的智能编程引擎

2025-07-23

Kimi K2详测，Claude国产平替有了

2025-07-14

Kimi K2 详测｜超强代码和Agent 能力！内附Claude Code邪修教程

2025-07-12

刚刚，DeepSeek开源新版R1，媲美OpenAI最高o3模型

2025-05-29

豆包电脑版不讲武德降维打击本地部署AI知识库的开源选手

2025-05-12

事实证明千问qwen3小模型才是企业的生产力，他究竟能做什么呢？

2025-05-14

重磅：GitHub Copilot 开源 - 微软Build 2025开场即高潮

2025-05-20

大家都在问

更强的 Qwen3-Coder 来了，都用上了吗？

2025-07-30

Coze扣子开源后，还有好用的智能体Agent开发平台吗？

2025-07-30

扣子（Coze）开源了！你发现了哪些商业机会？

2025-07-30

GLM-4.5 发布，六大主流模型混战测评，谁能一键生成“ 真·可用 ”的应用？

2025-07-29

Coze既可开源也能本地部署，n8n和coze哪家强？

2025-07-29

AI Agent 新选择：Coze Studio 开源上手实录，能替代 Dify 吗？

2025-07-28

Coze 开源了，对公安/政务行业用户的潜在影响和机会？

2025-07-28

从京东内部走出的开源Agent，能成为标准定义者吗？

2025-07-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB