微信扫码
添加专属顾问
我要投稿
探索LlamaIndex如何赋能大语言模型应用开发,实现私有数据的智能处理与检索。核心内容: 1. LlamaIndex框架的核心功能与应用场景 2. 支持的多格式数据加载与处理能力 3. Python与Typescript双版本的开源实现
LlamaIndex 介绍
LlamaIndex 是一个为开发「知识增强」的大语言模型应用的框架(也就是 SDK)。知识增强,泛指任何在私有或特定领域数据基础上应用大语言模型的情况。例如:
- Question-Answering Chatbots (也就是 RAG)
- Document Understanding and Extraction (文档理解与信息抽取)
- Autonomous Agents that can perform research and take actions (智能体应用)
- Workflow orchestrating single and multi-agent (编排单个或多个智能体形成工作流)
LlamaIndex 有 Python 和 Typescript 两个版本,Python 版的文档相对更完善。
- Python 文档地址:https://docs.llamaindex.ai/en/stable/
-Python API文档:https://docs.llamaindex.ai/en/stable/api_reference/
-TS文档地址:https://ts.llamaindex.ai/
LlamaIndex 是一个开源框架
Github 链接:https://github.com/run-llama
LlamaIndex 的核心模块
安装 LlamaIndex
pip install llama-index
数据加载(Loading)
加载本地数据
`SimpleDirectoryReader` 是一个简单的本地文件加载器。它会遍历指定目录,并根据文件扩展名自动加载文件(文本内容)。
支持的文件类型:
- `.csv` - comma-separated values
- `.docx` - Microsoft Word
- `.epub` - EPUB ebook format
- `.hwp` - Hangul Word Processor
- `.ipynb` - Jupyter Notebook
- `.jpeg`, `.jpg` - JPEG image
- `.mbox` - MBOX email archive
- `.md` - Markdown
- `.mp3`, `.mp4` - audio and video
- `.pdf` - Portable Document Format
- `.png` - Portable Network Graphics
- `.ppt`, `.pptm`, `.pptx` - Microsoft PowerPoint
import json
from pydantic.v1 import BaseModel
def show_json(data):
"""用于展示json数据"""
if isinstance(data, str):
obj = json.loads(data)
print(json.dumps(obj, indent=4, ensure_ascii=False))
elif isinstance(data, dict) or isinstance(data, list):
print(json.dumps(data, indent=4, ensure_ascii=False))
elif issubclass(type(data), BaseModel):
print(json.dumps(data.dict(), indent=4, ensure_ascii=False))
def show_list_obj(data):
"""用于展示一组对象"""
if isinstance(data, list):
for item in data:
show_json(item)
else:
raise ValueError("Input is not a list")
from llama_index.core import SimpleDirectoryReader
reader = SimpleDirectoryReader(
input_dir="./data", # 目标目录
recursive=False, # 是否递归遍历子目录
required_exts=[".pdf"] # (可选)只读取指定后缀的文件
)
documents = reader.load_data()
print(documents[0].text)
show_json(documents[0].json())
默认的 `PDFReader` 效果并不理想,我们可以更换文件加载器
LlamaParse(LlamaIndex自带的加载器)
首先,登录并从 https://cloud.llamaindex.ai ↗ 注册并获取 api-key 。
然后,安装该包:
pip install llama-cloud-services
# 在系统环境变量里配置 LLAMA_CLOUD_API_KEY=XXX
from llama_cloud_services import LlamaParse
from llama_index.core import SimpleDirectoryReader
import nest_asyncio
nest_asyncio.apply() # 只在Jupyter笔记环境中需要此操作,否则会报错
# set up parser
parser = LlamaParse(
result_type="markdown" # "markdown" and "text" are available
)
file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader(input_dir="./data", required_exts=[".pdf"], file_extractor=file_extractor).load_data()
print(documents[0].text)
Data Connectors
用于处理更丰富的数据类型,并将其读取为 `Document` 的形式。
例如:直接读取网页
pip install llama-index-readers-web
from llama_index.readers.web import SimpleWebPageReader
documents = SimpleWebPageReader(html_to_text=True).load_data(
["https://www.baidu.com/"]
)
print(documents[0].text)
更多 Data Connectors
内置的文件加载器:https://llamahub.ai/l/readers/llama-index-readers-file
连接三方服务的数据加载器:https://docs.llamaindex.ai/en/stable/module_guides/loading/connector/modules/
更多加载器可以在LlamaHub:https://llamahub.ai/ 上找到
文本切分与解析(Chunking)
为方便检索,我们通常把 `Document` 切分为 `Node`。
在 LlamaIndex 中,`Node` 被定义为一个文本的「chunk」。
使用 TextSplitters 对文本做切分
例如:`TokenTextSplitter` 按指定 token 数切分文本
from llama_index.core import Document
from llama_index.core.node_parser import TokenTextSplitter
node_parser = TokenTextSplitter(
chunk_size=512, # 每个 chunk 的最大长度
chunk_overlap=200 # chunk 之间重叠长度
)
nodes = node_parser.get_nodes_from_documents(
documents,
show_progress=False
)
show_json(nodes[1].json())
show_json(nodes[2].json())
LlamaIndex 提供了丰富的 `TextSplitter`:
-[`SentenceSplitter`](https://docs.llamaindex.ai/en/stable/api_reference/node_parsers/sentence_splitter/):在切分指定长度的 chunk 同时尽量保证句子边界不被切断;
-[`CodeSplitter`](https://docs.llamaindex.ai/en/stable/api_reference/node_parsers/code/):根据 AST(编译器的抽象句法树)切分代码,保证代码功能片段完整;
-[`SemanticSplitterNodeParser`](https://docs.llamaindex.ai/en/stable/api_reference/node_parsers/semantic_splitter/):根据语义相关性对将文本切分为片段。
更多的 `NodeParser` :
[`MarkdownNodeParser`]:https://docs.llamaindex.ai/en/stable/api_reference/node_parsers/markdown/
[`JSONNodeParser`]:https://docs.llamaindex.ai/en/stable/api_reference/node_parsers/json/等等。
索引(Indexing)与检索(Retrieval)
**基础概念**:在「检索」相关的上下文中,「索引」即`index`, 通常是指为了实现快速检索而设计的特定「数据结构」。
索引的具体原理与实现可以参考:
传统索引:https://en.wikipedia.org/wiki/Search_engine_indexing
向量索引:https://medium.com/kx-systems/vector-indexing-a-roadmap-for-vector-databases-65866f07daf5
向量检索
1. `VectorStoreIndex` 直接在内存中构建一个 Vector Store 并建索引
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.core.node_parser import TokenTextSplitter, SentenceSplitter
# 加载 pdf 文档
documents = SimpleDirectoryReader(
"./data",
required_exts=[".pdf"],
).load_data()
# 定义 Node Parser
node_parser = TokenTextSplitter(chunk_size=512, chunk_overlap=200)
# 切分文档
nodes = node_parser.get_nodes_from_documents(documents)
# 构建 index,默认是在内存中
index = VectorStoreIndex(nodes)
# 另外一种实现方式
# index = VectorStoreIndex.from_documents(documents=documents, transformations=[SentenceSplitter(chunk_size=512)])
# 写入本地文件
# index.storage_context.persist(persist_dir="./doc_emb")
# 获取 retriever
vector_retriever = index.as_retriever(
similarity_top_k=2 # 返回2个结果
)
# 检索
results = vector_retriever.retrieve("DeepSeek v3数学能力怎么样?")
print(results[0].text)
2. 使用自定义的 Vector Store,以 `Qdrant` 为例
pip install llama-index-vector-stores-qdrant
from llama_index.core.indices.vector_store.base import VectorStoreIndex
from llama_index.vector_stores.qdrant import QdrantVectorStore
from llama_index.core import StorageContext
from qdrant_client import QdrantClient
from qdrant_client.models import VectorParams, Distance
client = QdrantClient(location=":memory:")
collection_name = "demo"
collection = client.create_collection(
collection_name=collection_name,
vectors_config=VectorParams(size=1536, distance=Distance.COSINE)
)
vector_store = QdrantVectorStore(client=client, collection_name=collection_name)
# storage: 指定存储空间
storage_context = StorageContext.from_defaults(vector_store=vector_store)
# 创建 index:通过 Storage Context 关联到自定义的 Vector Store
index = VectorStoreIndex(nodes, storage_context=storage_context)
# 获取 retriever
vector_retriever = index.as_retriever(similarity_top_k=1)
# 检索
results = vector_retriever.retrieve("deepseek v3数学能力怎么样")
print(results[0])### 5.2、更多索引与检索方式
LlamaIndex 内置了丰富的检索机制,例如:
- 关键字检索
- [`BM25Retriever`](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/bm25/):基于 tokenizer 实现的 BM25 经典检索算法
- [`KeywordTableGPTRetriever`](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/keyword/#llama_index.core.indices.keyword_table.retrievers.KeywordTableGPTRetriever):使用 GPT 提取检索关键字
- [`KeywordTableSimpleRetriever`](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/keyword/#llama_index.core.indices.keyword_table.retrievers.KeywordTableSimpleRetriever):使用正则表达式提取检索关键字
- [`KeywordTableRAKERetriever`](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/keyword/#llama_index.core.indices.keyword_table.retrievers.KeywordTableRAKERetriever):
使用[`RAKE`](https://pypi.org/project/rake-nltk/)算法提取检索关键字(有语言限制)
- RAG-Fusion
[`QueryFusionRetriever`](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/query_fusion/)
- 还支持
[KnowledgeGraph](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/knowledge_graph/)
[SQL](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/sql/#llama_index.core.retrievers.SQLRetriever)
[Text-to-SQL](https://docs.llamaindex.ai/en/stable/api_reference/retrievers/sql/#llama_index.core.retrievers.NLSQLRetriever)
等等
检索后处理
LlamaIndex 的 `Node Postprocessors` 提供了一系列检索后处理模块。
例如:我们可以用不同模型对检索后的 `Nodes` 做重排序
# 获取 retriever
vector_retriever = index.as_retriever(similarity_top_k=5)
# 检索
nodes = vector_retriever.retrieve("deepseek v3有多少参数?")
for i, node in enumerate(nodes):
print(f"[{i}] {node.text}\n")
from llama_index.core.postprocessor import LLMRerank
postprocessor = LLMRerank(top_n=2)
nodes = postprocessor.postprocess_nodes(nodes, query_str="deepseek v3有多少参数?")
for i, node in enumerate(nodes):
print(f"[{i}] {node.text}")
更多的 Rerank 及其它后处理方法,参考官方文档:
Node Postprocessor Modules:https://docs.llamaindex.ai/en/stable/module_guides/querying/node_postprocessors/node_postprocessors/
生成回复(QA & Chat)
单轮问答(Query Engine)
qa_engine = index.as_query_engine()
response = qa_engine.query("deepseek v3数学能力怎么样?")
print(response)
流式输出
qa_engine = index.as_query_engine(streaming=True)
response = qa_engine.query("deepseek v3数学能力怎么样?")
response.print_response_stream()
多轮对话(Chat Engine)
chat_engine = index.as_chat_engine()
response = chat_engine.chat("deepseek v3数学能力怎么样?")
print(response)
response = chat_engine.chat("代码能力呢?")
print(response)
流式输出
chat_engine = index.as_chat_engine()
streaming_response = chat_engine.stream_chat("deepseek v3数学能力怎么样?")
# streaming_response.print_response_stream()
for token in streaming_response.response_gen:
print(token, end="", flush=True)
语言模型
from llama_index.llms.openai import OpenAI
llm = OpenAI(temperature=0, model="gpt-4o")
response = llm.complete(prompt.format(topic="小明"))
print(response.text)
response = llm.complete(
text_qa_template.format(
name="小明",
context="这是一个测试",
question="你是谁,我们在干嘛"
)
)
print(response.text)
使用DeepSeek
pip install llama-index-llms-deepseek
import os
from llama_index.llms.deepseek import DeepSeek
llm = DeepSeek(model="deepseek-chat", api_key=os.getenv("DEEPSEEK_API_KEY"), temperature=1.5)
response = llm.complete("作首唐诗")
print(response)
设置全局使用的语言模型
from llama_index.core import Settings
Settings.llm = DeepSeek(model="deepseek-chat", api_key=os.getenv("DEEPSEEK_API_KEY"), temperature=1.5)
除 OpenAI 外,LlamaIndex 已集成多个大语言模型,包括云服务 API 和本地部署 API,详见官方文档:https://docs.llamaindex.ai/en/stable/module_guides/models/llms/modules/
Embedding 模型
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import Settings
# 全局设定
Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small", dimensions=512)
LlamaIndex 同样集成了多种 Embedding 模型,包括云服务 API 和开源模型(HuggingFace)等,详见官方文档:https://docs.llamaindex.ai/en/stable/module_guides/models/embeddings/。
基于 LlamaIndex 实现一个功能较完整的 RAG 系统
功能要求:
- 加载指定目录的文件
- 支持 RAG-Fusion
- 使用 Qdrant 向量数据库,并持久化到本地
- 支持检索后排序
- 支持多轮对话
from qdrant_client import QdrantClient
from qdrant_client.models import VectorParams, Distance
EMBEDDING_DIM = 1536
COLLECTION_NAME = "full_demo"
PATH = "./qdrant_db"
client = QdrantClient(path=PATH)
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, get_response_synthesizer
from llama_index.vector_stores.qdrant import QdrantVectorStore
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.response_synthesizers import ResponseMode
from llama_index.core.ingestion import IngestionPipeline
from llama_index.core import Settings
from llama_index.core import StorageContext
from llama_index.core.postprocessor import LLMRerank, SimilarityPostprocessor
from llama_index.core.retrievers import QueryFusionRetriever
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.chat_engine import CondenseQuestionChatEngine
from llama_index.llms.dashscope import DashScope, DashScopeGenerationModels
from llama_index.embeddings.dashscope import DashScopeEmbedding, DashScopeTextEmbeddingModels
# 1. 指定全局llm与embedding模型
Settings.llm = DashScope(model_name=DashScopeGenerationModels.QWEN_MAX,api_key=os.getenv("DASHSCOPE_API_KEY"))
Settings.embed_model = DashScopeEmbedding(model_name=DashScopeTextEmbeddingModels.TEXT_EMBEDDING_V1)
# 2. 指定全局文档处理的 Ingestion Pipeline
Settings.transformations = [SentenceSplitter(chunk_size=512, chunk_overlap=200)]
# 3. 加载本地文档
documents = SimpleDirectoryReader("./data").load_data()
if client.collection_exists(collection_name=COLLECTION_NAME):
client.delete_collection(collection_name=COLLECTION_NAME)
# 4. 创建 collection
client.create_collection(
collection_name=COLLECTION_NAME,
vectors_config=VectorParams(size=EMBEDDING_DIM, distance=Distance.COSINE)
)
# 5. 创建 Vector Store
vector_store = QdrantVectorStore(client=client, collection_name=COLLECTION_NAME)
# 6. 指定 Vector Store 的 Storage 用于 index
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(
documents, storage_context=storage_context
)
# 7. 定义检索后排序模型
reranker = LLMRerank(top_n=2)
# 最终打分低于0.6的文档被过滤掉
sp = SimilarityPostprocessor(similarity_cutoff=0.6)
# 8. 定义 RAG Fusion 检索器
fusion_retriever = QueryFusionRetriever(
[index.as_retriever()],
similarity_top_k=5, # 检索召回 top k 结果
num_queries=3, # 生成 query 数
use_async=False,
# query_gen_prompt="", # 可以自定义 query 生成的 prompt 模板
)
# 9. 构建单轮 query engine
query_engine = RetrieverQueryEngine.from_args(
fusion_retriever,
node_postprocessors=[reranker],
response_synthesizer=get_response_synthesizer(
response_mode = ResponseMode.REFINE
)
)
# 10. 对话引擎
chat_engine = CondenseQuestionChatEngine.from_defaults(
query_engine=query_engine,
# condense_question_prompt="" # 可以自定义 chat message prompt 模板
)
# 测试多轮对话
# User: deepseek v3有多少参数
# User: 每次激活多少
while True:
question=input("User:")
if question.strip() == "":
break
response = chat_engine.chat(question)
print(f"AI: {response}")
LlamaIndex 的更多功能
- 智能体(Agent)开发框架:https://docs.llamaindex.ai/en/stable/module_guides/deploying/agents/
- RAG 的评测:https://docs.llamaindex.ai/en/stable/module_guides/evaluating/
- 过程监控:https://docs.llamaindex.ai/en/stable/module_guides/observability/
此外,LlamaIndex针对生产级的RAG系统中遇到的各个方面的细节问题,总结了很多高端技巧:https://docs.llamaindex.ai/en/stable/optimizing/production_rag/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-12
Kimi K2 发布并开源,擅长代码与 Agentic 任务
2025-07-12
一万亿参数!R2没来,Kimi K2 来了,要做Agent的新基建!
2025-07-12
Kimi K2 详测|超强代码和Agent 能力!内附Claude Code邪修教程
2025-07-10
通义开源WebSailor:超越DeepSeek R1,最接近闭源系统的网络智能体来了!
2025-07-10
震撼!大模型一体化推训平台 开源!
2025-07-10
AI智能体大爆发!五大开源重磅发布,彻底改变你的开发范式
2025-07-09
Prompt Optimizer — AI 提示词优化神器
2025-07-09
昆仑万维发布 Skywork-R1V3.0:开源模型挑战多模态推理极限,逼近人类专家水平
2025-06-17
2025-06-17
2025-04-29
2025-04-29
2025-04-15
2025-04-29
2025-05-29
2025-05-12
2025-05-14
2025-05-20
2025-07-08
2025-07-04
2025-07-03
2025-06-28
2025-06-25
2025-06-25
2025-06-21
2025-06-16