LlamaIndex中的Document和Node - 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI

LlamaIndex中的Document和Node

浏览次数： 1546

Document 和 Node 是 LlamaIndex 中的核心抽象。

Document 是PDF、API 输出或从数据库检索的数据等任何数据源的通用容器。它们可以手动构建，也可以通过 LlamaIndex 提供的各种 Reader 自动创建。默认情况下，Document 存储文本以及一些其他属性：

metadata：可以附加到文本的注释字典。
relationships：包含与其他 Document/Node 的关系的字典。

Node 表示 Document 的一个“块”。与 Document 类似，它们也包含 metadata 和 relationships 属性。

Node 是 LlamaIndex 中的一等公民。我们可以选择直接定义 Node 及其所有属性。我们还可以选择通过 LlamaIndex 的 NodeParser 类将 Document 解析为 Node。默认情况下，从 Document 派生的每个 Node 都会从该 Document 继承相同的 metadata（例如，Document 中归档的“文件名”会传播到每个 Node）。

Document

默认情况下所有的 reader 都会通过 load_data 方法返回 Document 对象。

from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("./data").load_data()

或者，我们可以直接创建 Document 对象：

from llama_index.core import Document
text_list = [text1, text2, ...]documents = [Document(text=t) for t in text_list]

为了加快原型设计和开发速度，我们还可以使用一些默认文本快速创建 Documen：

document = Document.example()

Document 元数据

Document 有一个重要的属性是 metadata，它是以字典形式存储了像是文件名、文件类别等信息在内的元数据。从 Document 中创建的 Node 会继承 metadata 属性。后面在生成嵌入向量和调用 LLM 时也会用到这些元数据。

注意！有的向量数据库要求 metadata 字典中的键必须是字符串，值必须是 str、float 或者 int。

设置 metadata 字典的方法有很多：

1、在 Document 类的构造函数中：

document = Document(text="text",metadata={"filename": "<doc_file_name>", "category": "<category>"},)

2、创建完 Document 对象之后：

document.metadata = {"filename": "<doc_file_name>"}

3、使用 SimpleDirectoryReader 和 file_metadata 钩子自动设置文件名。这样将会在每个 Document 对象上自动运行钩子并设置 metadata 属性：

from llama_index.core import SimpleDirectoryReader
filename_fn = lambda filename: {"file_name": filename}
# automatically sets the metadata of each document according to filename_fndocuments = SimpleDirectoryReader("./data", file_metadata=filename_fn).load_data()

Document ID

doc_id 属性存储了 Document 对象的唯一标识，当我们在 Document 的基础上构建完索引之后，如果后面 Document 内容有更新，那么可以根据 doc_id 去刷新对应的索引。在使用 SimpleDirectoryReader 时，我们可以将 doc_id 设为文件的全路径：

from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("./data", filename_as_id=True).load_data()print([x.doc_id for x in documents])

当然，也可以设置成其他的值：

document.doc_id = "My new document id!"

高级元数据管理

所有的元数据默认情况下都会在生成嵌入向量和调用 LLM 生成答案时被使用。一般情况下元数据字典会包含很多的元数据键，我们可能不希望 LLM 在生成答案时读取所有的元数据，比如文件名。然而文件名对于生成嵌入向量时很有用，因为可能包含重要信息。我们可以直接指定 LLM 不读取的元数据键：

LLM 只能看到 category 元数据和文件内容了。

我们也可以定制在生成嵌入向量阶段要屏蔽的元数据键：

现在我们已经知道元数据和文本内容都会被发送到嵌入模型和 LLM，那么它们是以什么格式组织的呢？我们可以通过 Document 的以下三个属性得到：

这些属性都可以更改，以上只是默认值。

Node

Node 是 LlamaIndex 中的一等公民。Node 代表 Document 的“块”（文本块、图像等等）。它们还包含元数据以及与其他 Node 和索引结构的关系信息。

我们可以选择通过 NodeParser 类将 Document 解析为 Node：

from llama_index.core.node_parser import SentenceSplitter
parser = SentenceSplitter()
nodes = parser.get_nodes_from_documents(documents)

我们可以选择直接定义 Node 及其所有属性：

from llama_index.core.schema import TextNode, NodeRelationship, RelatedNodeInfo
node1 = TextNode(text="<text_chunk>", id_="<node_id>")node2 = TextNode(text="<text_chunk>", id_="<node_id>")# set relationshipsnode1.relationships[NodeRelationship.NEXT] = RelatedNodeInfo(node_id=node2.node_id)node2.relationships[NodeRelationship.PREVIOUS] = RelatedNodeInfo(node_id=node1.node_id)nodes = [node1, node2]

RelatedNodeInfo 类也可以包含必要的 metadata 信息：

node2.relationships[NodeRelationship.PARENT] = RelatedNodeInfo(node_id=node1.node_id, metadata={"key": "val"})

每个 Node 都有一个 node_id 属性，如果没有手动指定，该属性会自动生成。这个 ID 可用于多种目的：能够更新存储中的 Node、能够定义 Node 之间的关系（通过 IndexNode）等等。

print(node.node_id)node.node_id = "My new node_id!"

推荐新闻

RAG系列04：使用ReRank进行重排序

本文介绍了重排序的原理和两种主流的重排序方法：基于重排模型和基于 LLM。文章指出，重排序是对检索到的上下文进行再次筛选的过程，类似于排序过程中的粗排和精排。在检索增强生成中，精排的术语就叫重排序。文章还介绍了使用 Cohere 提供的在线模型、bge-reranker-base 和 bge-reranker-large 等开源模型以及 LLM 实现重排序的方法。最后，文章得出结论：使用重排模型的方法轻量级、开销较小；而使用 LLM 的方法在多个基准测试上表现良好，但成本较高，且只有在使用 ChatGPT 和 GPT-4 时表现良好，如使用其他开源模型，如 FLAN-T5 和 Vicuna-13B 时，其性能就不那么理想。因此，在实际项目中，需要做出特定的权衡。

LangGPT论文：面向大语言模型的自然语言编程框架（中文版）

大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而，对于非AI专家来说，制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。

第三篇：要真正入门AI，OpenAI的官方Prompt工程指南肯定还不够，您必须了解的强大方法论和框架！！！

自从ChatGPT（全名：Chat Generative Pre-trained Transformer）于2022年11月30日发布以来，一个新兴的行业突然兴起，那就是提示工程（Prompt engineering），可谓如日冲天。从简单的文章扩写，到RAG，ChatGPT展现了前所未有的惊人能力。

（三）12个RAG痛点及其解决方案

痛点9:结构化数据QA 痛点10:从复杂 PDF 中提取数据痛点11:后备模型痛点12:LLM安全

（二）12个RAG痛点及其解决方案

痛点5:格式错误痛点6:不正确的特异性痛点7:不完整痛点8:数据摄取可扩展性