支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


微软PIKE-RAG开源:L0 到 L4级分阶段系统构建策略

发布日期:2025-04-13 06:57:22 浏览次数: 1596 作者:马伟说
推荐语

微软PIKE-RAG分阶段系统构建策略,探索从L0到L4级的知识理解和推理能力提升。

核心内容:
1. L0级别:全面构建知识库的基础任务与模块
2. 文件解析与知识组织在L0的应用与挑战
3. L1级别:以事实问题为核心,增强分块与知识检索的策略

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
PIKE-RAG 采用了层次化、分阶段的系统构建与实现策略,每个阶段都有不同的目标和挑战,以确保系统能逐步提升对复杂问题的处理能力。如下图所示:
图中:“PA”表示文件解析、“KE”表示知识提取、“RT”表示知识检索、“KO”表示知识组织、“KR”表示以知识为中心的推理。

01

L0:知识库构建

L0是RAG系统的起点,专注于打造一个全面且可靠的知识库,为后续的知识检索奠定基础。其核心任务是将特定领域的文档处理成机器可读格式,并整理成异构图,作为高级推理和检索的支撑。L0系统包括三个主要模块:文件解析、知识提取和知识存储,确保知识库既全面又精准。

1. 文件解析

文件解析是处理多样数据源的关键步骤。借助类似LangChain的工具,可以轻松解析多种格式的文本文档,整合异构数据。同时,通过深度学习工具和商业云API,实现OCR和表格提取,将扫描文档转为结构化文本。

针对包含复杂表格和图表的专业文件,建议进行布局分析,并保留图表和图形等多模态元素,并用视觉-语言模型(VLMs)述这些元素。这样既保持文档完整性,又提升检索效果。

2. 知识组织

知识库构建采用多层异构图结构,清晰展示信息的不同粒度、抽象级别以及关系。如下图所示:

分为信息资源层、语料层和提炼知识层,支持语义理解和高效检索。

  • 信息资源层(Information Resource Layer):记录各种数据源,用节点和边表示其参照关系,便于交叉验证和推理。

  • 语料层(Corpus Layer):将文档拆分成章节和分块,同时保留其文档的原始层级结构,表格和图形经大型语言模型(LLMs)总结后融入节点,确保多模态内容可检索。

  • 提炼知识层(Distilled Knowledge Layer):通过实体识别和关系提取,将语料转化为知识图谱、原子知识和表格知识等结构化形式,支持深度推理。具体提炼方式包括:

知识图谱:使用LLMs提取实体和关系,形成“节点-边-节点”结构,构建图谱。原子知识:将文本拆成原子语句,结合节点关系生成原子知识。表格知识:提取具有指定类型和关系的实体对,组合以构建表格知识。


02

L1:以事实问题为核心

L1 基于L0增加了知识检索和组织功能,以提升检索与生成能力。核心挑战在于语义对齐和文本分块:专业术语繁多可能降低分块准确性,不合理分块则会破坏语义完整性并引入干扰。为此,L1 系统引入了更精细的查询分析和基础知识提取模块,扩展架构以支持任务分解、协调及初步知识组织,确保处理复杂查询更高效。

1. 增强分块

分块是将大篇幅文本拆分为小块的过程,主要方法包括固定大小分块、语义分块和混合分块。合理分块能提升检索效率与准确性,直接影响系统性能。分块在 L1 系统中有双重作用:

  • 一是作为向量化的信息单元存储供检索;

  • 二是为后续知识提取和摘要提供基础。

不当分块会丢失语义信息,尤其在法律法规等场景中,固定大小分块常破坏上下文,影响提取质量。分块过程如下图所示:

该文本分割算法将大文档拆成小块,同时保留上下文并并为每个分块生成有效的摘要。

给定源文本,该算法迭代地将文本分割成多个分块。第一次迭代为初始分块生成前向摘要,作为后续分块的上下文依据。每块结合前向摘要生成独立摘要,存储后更新摘要并移除已处理部分,循环至文本全部分解。此外,该算法可以根据文本的内容和结构动态调整分块大小。

2. 自动标签

在特定领域的RAG场景中,语料库多为专业化表达,而用户查询常使用日常语言。例如,在医学问答中,症状描述简单,但语料库用词专业,这种差异导致检索不准。为解决这一问题,自动标签模块通过预处理语料库、以提取全面的领域特定标签集合或建立标签映射规则,缩小查询与文档的差距。

具体方法是利用大型语言模型(LLMs)的能力识别分块中的关键因素,归纳为标签类别,并生成提取提示。在无查询样本时,从语料库提取标签形成集合;有样本时,从查询和答案分块中提取标签,建立跨领域映射。最终,查询标签通过映射优化检索,提升准确性与覆盖率。

3. 多粒度检索

L1 系统支持跨异构知识图的多层、多粒度检索。图中各层(如信息源层、语料库层、提炼知识层)提供不同抽象级别和粒度的知识,查询可映射到整篇文档或具体分块,灵活适配任务需求。系统通过计算查询与节点的相似度,并在各层间传播和聚合信息,确保兼顾广度与深度。

03

L2: 以链式推理问题为核心

L2专注于高效检索多源信息并进行复杂推理。为此,它引入了知识提取模块和任务分解协调模块,前者精准提取相关信息,后者将复杂任务拆解为易处理的子任务,提升系统效率。如图9所示。

  • 1. 知识原子化

文档分块往往包含多条信息,但任务所需仅为部分子集。传统检索将信息整合于单一分块,效率不高。

为此,知识原子化利用大语言模型(LLMs)为分块生成问题标签,这些问题可由分块回答,覆盖表格、图像等内容。标签与分块组成层次知识库,支持粗细粒度查询,通过问题索引快速定位相关分块。

  • 2. 知识感知任务分解

  • 3. 知识感知任务分解器训练


04

L3:以预测性问题为核心

L3专注于提升预测能力核心在于高效收集、整理知识,并构建预测依据。系统通过任务分解与协调模块,基于检索到的知识生成预测逻辑,如下图所示:

为支持高级分析和预测,知识组织模块新增了结构化和整理子模块,将原始知识转化为清晰格式。例如,在FDA场景中,药品标签、临床试验等数据被整合进多层知识库,结构化子模块按任务要求整理出药品名称和批准日期,归纳子模块再按日期分类,便于统计和预测。

为解决大语言模型在专业推理上的不足,知识中心推理模块加入了预测子模块,能根据查询和整理后的知识(如每年批准药品数量)推测结果。这不仅限于历史数据回答,还能预测未来趋势,提供更灵活的响应。

L3通过优化知识整理与预测功能,能高效处理复杂动态的知识库。


05

L4: 以创造性问题为核心

L4通过引入多代理机制,实现多角度思考。解决创意问题需要结合事实和原理进行创新推理。主要难点在于从知识中提炼逻辑、处理复杂影响因素,并评估开放性问题的答案质量。为此,系统协调多个代理,各具特色地分析和推理,并行整合不同思路,输出全面解决方案。如下图所示:

这种设计支持多样化视角,能有效应对复杂查询,激发新想法而非固定答案。多代理协作不仅深化推理,还为用户提供丰富见解,推动创造性思维和复杂问题的独特解法。


最后,本文的主要内容是根据论文《PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation》翻译总结而来,关于PIKE-RAG的更多信息请参考如下开源项目与论文:

GitHub 链接:https://github.com/microsoft/PIKE-RAG论文链接:https://arxiv.org/abs/2501.11551

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询