我要投稿

知识图谱与LLM接口优化：突破复杂推理的性能瓶颈

发布日期：2025-06-02 18:42:33 浏览次数： 2353

作者：顿数AI

微信搜一搜，关注“顿数AI”

引言：知识图谱与大语言模型的融合挑战

随着人工智能技术的快速发展，大型语言模型（LLMs）已经在自然语言处理领域展现出惊人的能力。基于Transformer架构的LLMs在开放域问答、文本摘要和内容生成等任务中表现出色，并在医疗、金融、法律和科学等多个领域得到广泛应用。然而，这些模型也面临着一些固有的局限性：它们容易产生自信但错误的输出（幻觉现象），并且缺乏在不重新训练的情况下更新或扩展知识的有效机制。

检索增强生成（RAG）技术的出现为解决这些问题提供了一种标准方法。在典型的RAG流程中，密集检索器会为给定查询选择相关的文本上下文，然后将检索到的内容附加到查询中，再由LLM进行处理。这种设计提高了输出的事实准确性，并允许模型参考外部信息源。然而，标准RAG系统在处理涉及多步推理或需要结构化访问关系知识的问题时往往力不从心，仅依靠密集或稀疏文档检索是不够的。

为了应对这些挑战，将知识图谱（KGs）集成到RAG工作流中的混合方法受到了越来越多的关注。这些系统（有时被称为GraphRAG）使用图结构来表示关系结构，并支持基于符号查询或多跳图遍历的检索。基于图的检索为LLM提供了对明确、结构化上下文的访问，在需要深层次推理的任务中展现出巨大潜力。

然而，无论是传统RAG系统还是基于图的RAG系统，都面临着超参数敏感性的挑战。这些系统的性能严重依赖于一系列配置选择，包括文本块大小、检索器类型、top-k阈值和提示模板等。随着系统变得更加模块化和复杂，可调参数的数量增加，它们之间的相互作用也变得更加复杂。虽然超参数优化在标准RAG系统中已有探索，但在图增强系统中的作用仍未被充分研究。

本文旨在填补这一研究空白，通过对基于图的RAG系统进行结构化的超参数优化研究，重点关注结合非结构化输入、知识图谱构建、检索和生成的任务。我们的实验基于Cognee框架，这是一个支持端到端图构建和检索的开源模块化系统。Cognee的模块化设计允许管道组件的清晰分离和独立配置，使其非常适合进行受控的优化研究。

Cognee：自动化知识图谱构建框架

Cognee是一个开源框架，用于端到端知识图谱（KG）构建、检索和补全。它支持异构输入（如文本、图像、音频），从中提取实体和关系，可能借助本体模式。提取过程在容器化环境中运行，基于任务和管道，每个阶段都可通过配置或代码扩展。

默认管道包括摄取、分块、基于大型语言模型（LLM）的提取，以及索引到图、关系和向量存储后端。在索引之后，Cognee提供内置组件用于检索和补全。统一接口支持向量搜索、符号图查询和混合图-文本方法。补全建立在相同的基础设施上，支持基于提示的LLM交互和结构化图查询。

Cognee还包括一个可配置的评估框架，用于基准测试检索和补全工作流。该框架基于多跳问答，使用成熟的基准（HotPotQA、TwoWikiMultiHop）为基于图的系统提供结构化评估环境。评估按顺序进行不同阶段：从语料库构建开始，然后是利用检索和补全组件的上下文条件回答。然后将答案与黄金参考进行比较，并使用多种指标进行评分。最终输出包括置信度评分的性能报告。

Cognee的模块化使得能够在摄取、检索和补全阶段进行有针对性的超参数调整。评估框架提供结构化、量化的反馈，使整个系统可以被视为一个目标函数。这种设置使得可以直接应用标准超参数优化算法。

超参数优化设置

优化框架

Cognee暴露多个可配置组件，这些组件影响检索和生成行为，包括与预处理、检索器选择、提示设计和运行时设置相关的参数。为了系统地评估这些设计选择的影响，我们开发了一个名为Dreamify的超参数优化框架。

Dreamify将整个Cognee管道视为一个参数化过程，包括摄取、分块、基于LLM的提取、检索和评估。单个配置定义所有阶段的行为。每次试验对应一个完整的管道运行，从语料库构建开始，以对基准数据集的评估结束。输出是基于多种指标（如F1、精确匹配或基于LLM的正确性）的标量分数。这些指标计算为数据集中所有问题的平均值，返回0到1之间的值。

优化使用树结构Parzen估计器（TPE）执行。该算法非常适合搜索空间，该空间结合了分类和有序整数值参数。在这种规模下，网格搜索不切实际，随机搜索在早期测试中表现不佳。虽然TPE对我们的实验足够，但其他优化策略仍有待未来工作探索。

管道行为对固定配置是确定性的，尽管某些组件（如LLM生成的图构建）在运行之间表现出微小变化。这些差异不会实质性影响单个配置内的整体评估分数。试验是独立且可重现的。

可调参数

优化过程考虑六个核心参数，这些参数影响文档处理、检索行为、提示选择和图构建。每个参数影响信息如何被分段、检索或在答案生成期间使用。

块大小（chunk_size）

此参数控制在图提取前用于分段文档的标记数量。在Cognee管道中，它影响生成图的结构和检索期间可用上下文的粒度。本研究中使用的范围（200-2000个标记）基于初步测试选择，以平衡提取准确性、检索特异性和处理时间。

检索策略（search_type）

此参数确定如何选择用于答案生成的上下文。cognee_completion策略使用向量搜索检索文本块，并直接将它们传递给语言模型。cognee_graph_completion策略通过结合向量相似性和图结构检索知识图谱节点及其关联的三元组。检索到的节点被简要描述，周围的三元组被格式化为结构化文本。检索到的节点和三元组的结构化格式强调关系上下文，可能支持更有效的多跳推理。

Top-K上下文大小（top_k）

此参数设置每个查询检索的项目数量。使用cognee_completion时，它控制文本块的数量；使用cognee_graph_completion时，它控制图三元组的数量。检索到的上下文传递给语言模型进行答案生成。在我们的实验中，值范围从1到20。

问答提示模板（qa_system_prompt）

此参数选择用于答案生成的指令模板。模板在风格和特异性上有所不同，从简洁提示到更详细的指令，鼓励证明或结构化输出。提示选择可以影响答案格式和事实精确性。

提示模板（qa_system_prompt，graph_prompt）

这些参数控制在答案生成和图构建期间使用的指令模板。对于问答，我们评估了三种提示变体，主要在语气和冗长度上有所不同。虽然基本指令保持一致，但更受约束和直接的提示通常产生与预期答案格式更紧密对齐的输出。这对评估分数有显著影响，特别是对精确匹配和F1，尽管正确性分数也在较小程度上受到影响。对于图构建，也测试了三种提示，它们在引导LLM从文本中提取实体和关系的方式上有所不同——要么一步完成，要么通过更结构化、渐进的指令。这种选择影响了检索期间使用的生成图结构的粒度和一致性。

任务处理方法（task_getter_type）

此参数控制在评估期间如何预处理问答对。虽然系统可以支持任意管道变体，但我们专注于两种代表性配置。在第一种配置中，文档摘要在图构建期间生成，并可供检索器使用。在第二种配置中，省略摘要生成。

实验设置

我们进行了一系列九个超参数优化实验，以评估配置选择对Cognee端到端性能的影响。每个实验对应一个不同的基准数据集和评估指标组合。使用的数据集为HotPotQA、TwoWikiMultiHop和Musique。每个实验针对三种指标之一：精确匹配（EM）、F1或DeepEval的基于LLM的正确性。

对于每个实验，我们创建了基准的过滤子集。实例被随机抽样，然后在实验前进行手动审查。我们排除了不符合语法、模糊、标签错误或由提供的上下文不支持的示例。类似问题在先前文献中已有注意。结果评估集由每个数据集24个训练实例和12个测试实例组成。这一过滤步骤在任何调整之前进行一次，以避免偏见或挑选。

在每次试验中，使用训练集中的所有上下文段落构建知识图谱。这为每次试验生成单个合并图，然后用于回答所有训练问题。管道结构在所有数据集和指标中保持一致。

每个实验包括50次试验。在每次试验中，优化器抽样一个配置并执行完整的管道运行，包括摄取、图构建、检索和答案生成。所选指标在所有训练问题上计算，结果分数用作试验的目标值。EM和F1分数确定性计算。DeepEval正确性分数需要单独的基于LLM的评估步骤。

试验按顺序运行，不并行化。每次试验的执行时间约为30分钟。最终结果报告使用从训练中选择的最佳性能配置在测试集上的性能。除了点估计外，我们还报告使用对单个问答对的非参数bootstrap重采样计算的置信区间。

结果与讨论

训练集性能

(a) Musique

(b) TwoWikiMultiHop

图1：Musique、TwoWikiMultiHop和HotPotQA的运行最大性能曲线。

优化导致所有数据集和指标的一致改进。虽然基线设置是合理且手动选择的，但它们没有针对特定评估条件进行调整。相对改进通常是显著的，特别是对于精确匹配，其中几个基线接近或恰好为零。这主要是由于答案风格的不匹配：系统的默认配置调整为更具对话性的输出，而基准更倾向于更短、更干的答案。鉴于EM作为指标的严格性，即使事实正确的响应也经常被惩罚。

尽管表现出明显的改进，但这些结果应谨慎解释。

保留集性能

为了评估泛化能力，我们在保留测试集上评估了每个实验的最佳配置。与基线相比的收益仍然可见，但比训练中不那么明显。大多数指标适度下降，在一种情况下（TwoWikiMultiHop上的F1），测试性能略微超过了训练分数。这些结果表明，任务特定优化合理地泛化，即使应用于来自同一基准的未见示例。

一些变异性可能归因于保留集的小规模和基准问答实例的不均匀质量，这是文献中注意到的限制。我们使用简单的训练设置，没有早停或正则化，这也可能解释部分观察到的退化。然而，在大多数情况下改进持续存在的事实表明，即使基本的优化过程也能产生可泛化的收益。虽然这不是本研究的主要焦点，但这些结果表明，未来的工作可以探索更强大的调整机制，特别是在更大或特定领域的数据集上。

讨论

优化过程使用树结构Parzen估计器（TPE），选择它是因为其能够导航离散和混合参数空间。TPE在识别改进的配置方面是有效的，尽管试验级别的性能有时是不稳定的。更稳定或表达能力更强的优化策略可能会产生更一致的结果，探索这些替代方案仍然是未来工作的方向。

实验也强调了标准评估指标的局限性。精确匹配和F1经常惩罚语义上正确但措辞与参考不同的输出。相比之下，基于LLM的正确性分数对词汇变化更宽容，但引入了自己的不一致性。几个几乎逐字的答案获得了不到满分的分数，表明LLM评分者引入了噪声，特别是围绕格式敏感性和隐含假设。

高性能配置通常共享参数设置，特别是块大小和检索方法。然而，大多数效果是非线性和任务特定的，没有单一配置在所有基准上表现最佳。这突显了在检索增强管道中经验调整的重要性，并表明跨任务泛化需要适应，而不仅仅是重用。

虽然完全泛化超出了本研究的范围，但结果支持系统调整在实践中既可实现又有用的主张。观察到的收益，虽然在某些情况下很小，但表明仅配置级别的变化就能影响下游性能。检索增强系统受益于有针对性、任务感知的调整，性能-过拟合权衡可以在不显著改变架构或增加复杂性的情况下管理。

结论

我们证明，在基于图的检索增强生成系统中系统化的超参数调整可以导致一致的性能改进。Cognee的模块化架构使我们能够在图构建、检索和提示中隔离和改变配置参数。应用于三个多跳问答基准，这种设置使我们能够检查调整如何影响标准评估指标。虽然在各任务中观察到改进，但其幅度各异，收益通常对指标和数据集都敏感。

展望未来，有几个自然的进一步工作方向。技术上，优化过程可以使用替代搜索算法、更广泛的参数空间或多目标标准进行扩展。我们的评估专注于知名的问答数据集，但自定义基准和特定领域任务将有助于探索泛化能力。图增强RAG系统的排行榜或共享基准基础设施也可以支持这一领域的进展。

虽然基于问答的指标提供了评估管道性能的实用手段，但它们并不能完全捕捉基于图的系统的复杂性。不同配置之间结果的变异性表明，收益不太可能仅来自通用调整。相反，我们的结果指向任务特定优化策略的潜力，特别是在领域结构发挥核心作用的环境中。我们预计，未来在学术和应用背景交叉点的工作将发现更多有针对性调整的机会。

更广泛地说，我们认为通过认知化的镜头查看这一过程是有用的，认知化是一个描述智能如何嵌入物理系统的概念。我们将Cognee等框架的发展视为向反映这一范式的系统转变的更广泛转变的一部分，它们的优化同样发挥着重要作用。这些系统的认知化不会仅通过设计发生，而是通过它们如何随时间调整、测量和适应。