支持私有云部署
AI知识库 AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


LlamaIndex中的Document和Node
浏览次数: 1546

Document 和 Node 是 LlamaIndex 中的核心抽象。

Document 是PDF、API 输出或从数据库检索的数据等任何数据源的通用容器。它们可以手动构建,也可以通过 LlamaIndex 提供的各种 Reader 自动创建。默认情况下,Document 存储文本以及一些其他属性:

  • metadata:可以附加到文本的注释字典。

  • relationships:包含与其他 Document/Node 的关系的字典。


Node 表示 Document 的一个“块”。与 Document 类似,它们也包含 metadata 和 relationships 属性。

Node 是 LlamaIndex 中的一等公民。我们可以选择直接定义 Node 及其所有属性。我们还可以选择通过 LlamaIndex 的 NodeParser 类将 Document 解析为 Node。默认情况下,从 Document 派生的每个 Node 都会从该 Document 继承相同的 metadata(例如,Document 中归档的“文件名”会传播到每个 Node)。

Document

默认情况下所有的 reader 都会通过 load_data 方法返回 Document 对象。

from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("./data").load_data()

或者,我们可以直接创建 Document 对象:

from llama_index.core import Document
text_list = [text1, text2, ...]documents = [Document(text=t) for t in text_list]

为了加快原型设计和开发速度,我们还可以使用一些默认文本快速创建 Documen:

document = Document.example()


Document 元数据

Document 有一个重要的属性是 metadata,它是以字典形式存储了像是文件名、文件类别等信息在内的元数据。从 Document 中创建的 Node 会继承 metadata 属性。后面在生成嵌入向量和调用 LLM 时也会用到这些元数据。

注意!有的向量数据库要求 metadata 字典中的键必须是字符串,值必须是 str、float 或者 int。

设置 metadata 字典的方法有很多:

1、在 Document 类的构造函数中:

document = Document(text="text",metadata={"filename": "<doc_file_name>", "category": "<category>"},)

2、创建完 Document 对象之后:

document.metadata = {"filename": "<doc_file_name>"}

3、使用 SimpleDirectoryReader 和 file_metadata 钩子自动设置文件名。这样将会在每个 Document 对象上自动运行钩子并设置 metadata 属性:

from llama_index.core import SimpleDirectoryReader
filename_fn = lambda filename: {"file_name": filename}
# automatically sets the metadata of each document according to filename_fndocuments = SimpleDirectoryReader("./data", file_metadata=filename_fn).load_data()


Document ID

doc_id 属性存储了 Document 对象的唯一标识,当我们在 Document 的基础上构建完索引之后,如果后面 Document 内容有更新,那么可以根据 doc_id  去刷新对应的索引。在使用 SimpleDirectoryReader 时,我们可以将 doc_id 设为文件的全路径:

from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("./data", filename_as_id=True).load_data()print([x.doc_id for x in documents])

当然,也可以设置成其他的值:

document.doc_id = "My new document id!"


高级元数据管理

所有的元数据默认情况下都会在生成嵌入向量和调用 LLM 生成答案时被使用。一般情况下元数据字典会包含很多的元数据键,我们可能不希望 LLM 在生成答案时读取所有的元数据,比如文件名。然而文件名对于生成嵌入向量时很有用,因为可能包含重要信息。我们可以直接指定 LLM 不读取的元数据键:

LLM 只能看到 category 元数据和文件内容了。

我们也可以定制在生成嵌入向量阶段要屏蔽的元数据键:

现在我们已经知道元数据和文本内容都会被发送到嵌入模型和 LLM,那么它们是以什么格式组织的呢?我们可以通过 Document 的以下三个属性得到:

这些属性都可以更改,以上只是默认值。

Node

Node 是 LlamaIndex 中的一等公民。Node 代表 Document 的“块”(文本块、图像等等)。它们还包含元数据以及与其他 Node 和索引结构的关系信息。

我们可以选择通过 NodeParser 类将 Document 解析为 Node:

from llama_index.core.node_parser import SentenceSplitter
parser = SentenceSplitter()
nodes = parser.get_nodes_from_documents(documents)

我们可以选择直接定义 Node 及其所有属性:

from llama_index.core.schema import TextNode, NodeRelationship, RelatedNodeInfo
node1 = TextNode(text="<text_chunk>", id_="<node_id>")node2 = TextNode(text="<text_chunk>", id_="<node_id>")# set relationshipsnode1.relationships[NodeRelationship.NEXT] = RelatedNodeInfo(node_id=node2.node_id)node2.relationships[NodeRelationship.PREVIOUS] = RelatedNodeInfo(node_id=node1.node_id)nodes = [node1, node2]

RelatedNodeInfo 类也可以包含必要的 metadata 信息:

node2.relationships[NodeRelationship.PARENT] = RelatedNodeInfo(node_id=node1.node_id, metadata={"key": "val"})

每个 Node 都有一个 node_id 属性,如果没有手动指定,该属性会自动生成。这个 ID 可用于多种目的:能够更新存储中的 Node、能够定义 Node 之间的关系(通过 IndexNode)等等。

print(node.node_id)node.node_id = "My new node_id!"


推荐新闻
RAG系列04:使用ReRank进行重排序
本文介绍了重排序的原理和两种主流的重排序方法:基于重排模型和基于 LLM。文章指出,重排序是对检索到的上下文进行再次筛选的过程,类似于排序过程中的粗排和精排。在检索增强生成中,精排的术语就叫重排序。文章还介绍了使用 Cohere 提供的在线模型、bge-reranker-base 和 bge-reranker-large 等开源模型以及 LLM 实现重排序的方法。最后,文章得出结论:使用重排模型的方法轻量级、开销较小;而使用 LLM 的方法在多个基准测试上表现良好,但成本较高,且只有在使用 ChatGPT 和 GPT-4 时表现良好,如使用其他开源模型,如 FLAN-T5 和 Vicuna-13B 时,其性能就不那么理想。因此,在实际项目中,需要做出特定的权衡。
LangGPT论文:面向大语言模型的自然语言编程框架(中文版)
大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而,对于非AI专家来说,制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。
第三篇:要真正入门AI,OpenAI的官方Prompt工程指南肯定还不够,您必须了解的强大方法论和框架!!!
自从ChatGPT(全名:Chat Generative Pre-trained Transformer)于2022年11月30日发布以来,一个新兴的行业突然兴起,那就是提示工程(Prompt engineering),可谓如日冲天。从简单的文章扩写,到RAG,ChatGPT展现了前所未有的惊人能力。
(三)12个RAG痛点及其解决方案
痛点9:结构化数据QA 痛点10:从复杂 PDF 中提取数据 痛点11:后备模型 痛点12:LLM安全
(二)12个RAG痛点及其解决方案
痛点5:格式错误 痛点6:不正确的特异性 痛点7:不完整 痛点8:数据摄取可扩展性

联系我们

售前咨询
186 6662 7370
产品演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询