微信扫码
添加专属顾问
我要投稿
文本切分五个层级:
Level 1: Character Splitting - 简单的字符长度切分
Level 2: Recursive Character Text Splitting - 通过分隔符切分,然后递归合并
Level 3: Document Specific Splitting - 针对不同文档格式切分 (PDF, Python, Markdown)
Level 4: Semantic Splitting - 语义切分
Level 5: Agentic Splitting-使用代理实现自动切分
我们在日常数据处理中,不仅仅有txt数据,还包含一些存在结构的数据,例如json、markdown、代码(例如py)、PDF等。今天让我们看看如何处理JSON数据,后续将挑重点介绍。
langchain实现
import requestsfrom pprint import pprint# This is a large nested json object and will be loaded as a python dictjson_data = requests.get("https://api.smith.langchain.com/openapi.json").json()
from langchain_text_splitters import RecursiveJsonSplittersplitter = RecursiveJsonSplitter(max_chunk_size=300)# 还可以设置min_chunk_size
json_chunks = splitter.split_json(json_data=json_data)json_chunks = splitter.split_json(json_data=json_data, convert_lists=True)可以看到,在存在列表的位置,将列表转化为了dict,key为元素所在的位置。langchain中的实现,我们介绍到这,下面看看llama-index是怎么处理的:
llama-index实现
import jsonfrom llama_index.core.node_parser import JSONNodeParserfrom llama_index.core import Documentparser = JSONNodeParser()
切分文档
nodes = parser.get_nodes_from_documents([Document(text=json.dumps(json_data))])
可以看出,llama_index将json切分成了一个个小块。我们可以进一步做切分处理。
JSON的切分就讲到着,大家感觉是不是很有用呢?下篇文章我们将继续分享。
如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。
好了,这就是我今天想分享的内容。如果你对大模型应用感兴趣,别忘了点赞、关注噢~
往期推荐
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-23
谷歌发布OKF(Open Knowledge Format)规范,它与Karpathy的LLM-wiki是什么关系?
2026-06-23
RAG 的尽头,是 SQL?
2026-06-22
传统RAG已经落伍了?清华大神开源的这个 rag-skill,让知识库检索直接升维
2026-06-22
从个人知识库到企业级 RAG:我们最终选了 WeKnora
2026-06-22
RAG 不是先向量检索再回答:Metadata Filter 才是企业知识库的第一道门
2026-06-21
使用 LangSmith 进行 RAG 评估:构建生产级 RAG 系统的 AI 开发者指南
2026-06-20
RAG 投毒的六个影响因素与防御框架
2026-06-20
RAG 性能暴涨 5.9 倍!微软新框架让 LLM 自主检索,无需训练直接部署
2026-04-06
2026-04-27
2026-04-02
2026-03-31
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
2026-05-11