我要投稿

一分钟读懂RAG的切分策略

发布日期：2025-06-14 16:35:29 浏览次数： 2106

作者：算法coting

微信搜一搜，关注“算法coting”

RAG飞速发展，成为连接“生成能力”与“外部知识”的桥梁，关于RAG的介绍可以参考

什么是RAG？一文搞懂检索增强生成技术。

前面我们介绍了RAG系统中的文档解析，
RAG 的文档解析：PDF 篇，在解析文档得到数据后，由于数据规模很可能非常庞大，整体存储具有难度，并且在查询的时候可能仅仅和其中的一个或几个段落有关系，所以需要分块技术将解析后的文档内容切分为适当的片段。

在RAG系统的构建中，文档切分策略很大程度上决定着模型检索质量，切分的好，信息命中更精准，生成回答更有上下文逻辑；切分的差，AI或许会变成“口吃患者”。

分块技术在实际应用中面临诸多挑战。首先是如何选择合适的分块粒度。如果分块过大，模型在检索时可能会引入大量无关信息，影响回答的精准度；如果分块过小，又可能导致上下文被打断，使得模型缺乏完整语义，难以理解用户问题的背景。

其次，语义完整性是一个核心问题。很多文档结构并非严格按段落划分语义，尤其在技术文档、法律条款或科研论文中，一个重要的论点可能跨越多个段落甚至页码。简单按长度切分容易打断逻辑，导致模型“读到的”和“作者要表达的”不是一回事。

下面，我介绍一下5种RAG切分策略。

1.固定大小切分

将文档按照预设的字符数、词数或句子数进行等间隔划分。例如每段包含500个字符或5个句子。该方法实现简单，但容易打断语义边界，可能导致上下文缺失或内容重复。

2.语义切分

通过自然语言处理技术（如句向量相似度、话题建模等）判断文本语义的边界，在语义上自然断句。

以向量相似度为例，将句子或段落转换为向量，通过计算相邻句段的余弦相似度，如果判断两个段落语义上属于同一单元，那么就进行合并。

这种方式能提升分块的语义连贯性，适用于逻辑紧密的文章，但计算代价较高，依赖模型质量。

3.递归切分

在保持固定长度的同时，尝试以语义结构（如段落、句子、标点）为边界递归地切分文本。若段落太长无法容纳于块中，则再递归切分为句子，直到满足长度要求。

相比纯固定切分，该方法能更好地保留语义完整性。

4.基于文档结构的切分

利用原始文档的结构信息（如HTML标签、Markdown标题、PDF书签、Word段落等）进行切分。比如以章节、小标题、列表项为边界进行分块。

这种方式在处理格式规范的文档（如手册、报告）时效果尤为突出。

5.基于LLM的切分

借助大语言模型来“理解”文档内容并主动划定分块边界。例如，提示模型判断哪些段落构成完整的语义单元，或根据任务需求生成最佳的分块方案。这种方式智能程度高，但计算成本也相对较大，适合高精度应用场景。

6.总结

实际应用中，往往需要结合多种策略，根据数据类型和业务需求灵活调整，以构建既高效又精准的 RAG 系统。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

传统RAG已经落伍了？清华大神开源的这个 rag-skill，让知识库检索直接升维

2026-06-22

从个人知识库到企业级 RAG：我们最终选了 WeKnora

2026-06-22

RAG 不是先向量检索再回答：Metadata Filter 才是企业知识库的第一道门

2026-06-21

使用 LangSmith 进行 RAG 评估：构建生产级 RAG 系统的 AI 开发者指南

2026-06-20

RAG 投毒的六个影响因素与防御框架

2026-06-20

RAG 性能暴涨 5.9 倍！微软新框架让 LLM 自主检索，无需训练直接部署

2026-06-19

RAGular：适合知识库体质的 OCR 助手

2026-06-18

阿里扔出「向量版 SQLite」！十亿级向量毫秒检索，一行 pip install 搞定，本地 RAG 的游戏规则变了

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

大家都在问

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

1G内存检索2500万向量，Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应？

2026-05-07

多Agent场景，子agent 之间数据读写不同步，如何解决？

2026-05-06

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部