微信扫码
添加专属顾问
我要投稿
深入探索大型文档高效分块技术,提升AI知识库的处理效率和准确性。 核心内容: 1. 大型文档输入AI知识库的技术挑战与问题 2. 文档分块技术的核心理念与优势 3. 五种主流分块方法的技术对比与代码实现
from llama_index.core.node_parser import SimpleNodeParser parser = SimpleNodeParser.from_defaults( chunk_size=512, # 中文文档建议设置为384 tokens左右 chunk_overlap=64 # 重叠区域,保证上下文连贯性)nodes = parser.get_nodes_from_documents(documents)
from llama_index.core.node_parser import MarkdownNodeParserparser = MarkdownNodeParser()nodes = parser.get_nodes_from_documents(markdown_docs)
from llama_index.core.node_parser import HTMLNodeParser parser = HTMLNodeParser(tags=["p", "h1"]) # 指定需要提取的标签nodes = parser.get_nodes_from_documents(html_docs)
import nltkfrom llama_index.core.node_parser import SentenceWindowNodeParser node_parser = SentenceWindowNodeParser.from_defaults( window_size=3, # 每侧包含的句子数 window_metadata_key="window", original_text_metadata_key="original_sentence",)
from llama_index.core.node_parser import SemanticSplitterNodeParserfrom llama_index.embeddings.openai import OpenAIEmbedding embed_model = OpenAIEmbedding()splitter = SemanticSplitterNodeParser( buffer_size=1, breakpoint_percentile_threshold=95, embed_model=embed_model)
from llama_index.core.llms import OpenAIimport json def llm_chunking(text): llm = OpenAI(model="gpt-4-turbo") prompt = f"""将以下技术文档划分为逻辑单元,每个单元包含完整的技术概念: {text} 返回JSON格式: [{{"title":"单元标题","content":"文本内容"}}]""" response = llm.complete(prompt) try: return json.loads(response.text) except json.JSONDecodeError: raise ValueError("LLM响应格式错误")分块方法 | 处理速度 | 语义保持 | 实现难度 | 适用场景 |
固定分块 | ⭐⭐⭐⭐ | ⭐ | ⭐ | 快速搭建原型系统 |
滑动窗口 | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | 对话记录、访谈稿 |
结构感知分块 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | 特定格式的Markdown/HTML/JSON等文档 |
嵌入分块 | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 叙事性长文本 |
LLM分块 | ⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 各种各样的复杂文档 |
Settings.embed_model = dashscope_embed_model()# 语义分块配置Settings.node_parser = SemanticSplitterNodeParser( buffer_size=128, # 保留128 tokens重叠区域 breakpoint_percentile_threshold=95, # 95%阈值自动寻找最佳分割点 embed_model = dashscope_embed_model())
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-26
思考的快与慢:用 Prolog 给 LLM 装上理性大脑,然后引入知识图谱,做结构化知识双向同步,这个 agent 能力有点炸裂...
2026-05-23
本体论与下一代企业架构
2026-05-22
如何为知识图谱选择合适的本体(Ontology)抽取方法
2026-05-16
知识图谱:审计人用了几十年的人脑关联,终于可以外挂到系统里了
2026-05-09
新电网毫秒级解决方案:远景能源基于 NebulaGraph 的应用
2026-05-07
腾讯混元干了件大事:Skill Graphs
2026-04-23
从可观测到可理解:用 UModel 构建 Agent 原生的代码知识图谱
2026-04-23
Ontological Engineering:基于PolarDB-PG智能本体引擎实现“数据驱动”到“决策中心”
2026-04-07
2026-03-26
2026-04-19
2026-03-28
2026-04-23
2026-04-22
2026-04-23
2026-05-07
2026-05-09
2026-05-16