微信扫码
添加专属顾问
我要投稿
RAG技术如何突破分块策略瓶颈?详解五种分块方法的技术原理与选型指南,助你打造高精度企业级应用。核心内容: 1. RAG分块策略的三大核心挑战:准确性、召回率与复杂文档解析 2. 五种分块策略的技术原理与优劣对比(固定长度/滑动窗口/语义分割等) 3. 金融医疗等高危场景下的分块选型方法论与工程实践
RAG通过结合检索与生成技术,依赖其高效检索算法、多模态融合能力及系统级优化,解决了基础大模型在企业内部应用的局限性,例如通过RAG技术对接企业内部知识库,支持知识动态更新与实时交互,显著降低了大模型的幻觉风险,无需微调训练模型,低成本适配企业垂直领域的应用场景,在数据安全与可控性方面,可加入权限控制逻辑,确保敏感信息仅在授权范围内使用,同时通过引用标注实现可追溯性。
但是在RAG应用工程化过程中,特别在金融、医疗等高风险领域,“可验证性”、“准确性”比“智能性”更重要,分块策略是RAG系统的核心环节,不同的分块策略,直接影响检索效率与生成质量。
我们先简单回顾一个RAG的基本工作流程:
有时候我们的文档可能很大,或者结构很复杂,在步骤①中需要对文档进行分块处理,将大文档分成较小单位/可管理的部分,以确保文本适合嵌入模型的输入大小。
由于采用不恰当的分块策略,可能导致我们最终应用RAG的效果达不到预期,面临答案可信度不足、关键信息漏检、复杂文档提取瓶颈等问题。这些问题直接影响RAG系统的可靠性和实用性。
RAG分块应用中普遍存在的问题
准确性:答案可信度不足
幻觉问题
即使检索到相关文档,大模型仍可能脱离文档内容编造答案(尤其在文档信息模糊或矛盾时)。例如如:用户问“某基金近3年收益率”,模型可能捏造数据而非引用检索到的报告。
检索噪声干扰
相似度搜索返回的文档片段可能包含无关信息,导致模型生成答案时被误导。例如:检索到10篇文档,其中3篇主题相关但含错误数据,模型可能融合错误信息。
细粒度理解缺失
模型难以精准理解数字、日期、专业术语的上下文含义,导致关键信息误用。例如:将“预计2025年增长10%”误解为历史数据。
召回率:关键信息漏检
语义匹配局限
传统向量搜索依赖语义相似度,但用户问题与文档表述差异大时漏检(如术语vs口语)。例如:用户问“钱放货币基金安全吗?”可能漏检标题为“货币市场基金信用风险分析”的文档。
长尾知识覆盖不足
低频、冷门知识因嵌入表示不充分,在向量空间中难以被检索到。例如:某小众金融衍生品的风险说明文档未被召回。
多跳推理失效
需组合多个文档片段才能回答的问题(如因果链),单次检索难以关联分散的知识点。例如:“美联储加息如何影响A股消费板块?”需先检索加息机制,再关联A股消费板块。
复杂文档解析:信息提取瓶颈
非结构化数据处理
表格/图表:文本分块会破坏表格结构,导致行列关系丢失(如财报中的利润表)。
公式/代码:数学公式或程序代码被错误分段,语义完整性受损。
扫描件/图片:OCR识别错误率高,尤其对手写体或模糊文档。
上下文割裂问题
固定长度分块(如512字符)可能切断关键上下文:
分块1结尾:“...风险因素包括:”
分块2开头:“利率波动、信用违约...” → 模型无法关联分块1的提示语。
文档逻辑结构丢失
标准分块策略忽略章节、段落、标题的层级关系,影响知识图谱构建。例如:将“附录”中的备注误认为正文结论。
RAG的分块策略与选择
选择合适的分块策略,是解决RAG实际应用中准确性、召回率与复杂文档解析等痛点最直接有效的方式,也是我们建设RAG系统最关键的一个环节。最常见的RAG分块策略包括:固定大小分块、语义分块、递归分块、基于文档结构的分块、基于LLM的分块。
下面我们围绕这五种分块策略,系统介绍不同分块策略的基本原理、实现步骤、主要优缺点与适用场景。
固定大小分块(Fixed-size Chunking),将文本按固定长度(如字符数、单词数或token数)切分,每个块大小一致,可能通过重叠保留上下文连贯性。例如,将文档每256个字符切分为一个块,重叠20个字符以减少边界信息丢失。
固定大小分块示意(图片来源:DailyDoseofDS)
[原文档]
"2023年Q3净利润同比增长5.2%(详见附录Table 7)"
[分块1] "2023年Q3净利润同比增长5.2%(详见"
[分块2] "附录Table 7)" # 关键数据来源丢失!
语义分块(Semantic Chunking),根据句子、段落、主题等有语义内涵的单位对文档进行分段创建嵌入,如果第一个段的嵌入与第二个段的嵌入具有较高的余弦相似度,则这两个段形成一个块。通过合并相似内容,确保每个块表达完整的语义内容。
由于每个分块的内容更加丰富,它提高了检索准确性,让大模型产生更加连续和相关的响应。但是它依赖于一个阈值来确定余弦相似度是否显著下降,而这个阈值在不同类型文档中可能涉及不同的参数设置。
语义分块流程
语义分块示意(图片来源:DailyDoseofDS)
[分块]
区块1: "货币政策的宽松将推动市场流动性提升。"
区块2: "但需警惕通胀反弹带来的政策转向风险。"
# 每个区块为完整语义单元
递归分块(Recursive Chunking),先按主题或段落初步划分,再对超长块递归细分,直至满足大小限制。递归分块融合了结构化与非结构化处理逻辑,与固定大小的分块不同,这种方法保持了语言的自然流畅性并保留了完整的内容语义。
递归分块流程
递归分块示意(图片来源:DailyDoseofDS)
1. 摘要 --> [保留完整]
2. 行业分析 --> [按子章节切分]
2.1 供需格局 --> [按段落切分]
2.2 竞争态势 --> [按段落切分]
3. 附录表格 --> [特殊处理]
基于文档结构分块(Document Structure-based Chunking),利用文档固有结构(如标题<h1>、章节、列表<ul>、表格<table>)进行切分,每个结构单元作为一个块。它通过与文档的逻辑部分对齐来保持结构完整性。这种分块适用于文档有清晰的结构,但很多时候,一个文档的结构会比想象中复杂,此外,很多时候文档章节内容大小不一,很容易超过块的大小限制,需要结合递归拆分再进行合并处理。
基于文档结构分块流程
基于文档结构分块示意(图片来源:DailyDoseofDS)
[原始PDF表格]
| 项目 | 2023Q3 | 同比 |
|--------------|--------|-------|
| 营业收入 | 5.2亿 | +12% |
[结构化分块]
{
"type": "table",
"title": "利润表摘要",
"data": [["项目", "2023Q3", "同比"], ["营业收入", "5.2亿", "+12%"]]
} # 整表作为独立区块
基于LLM的分块(LLM-based Chunking),直接将原始文档输入大语言模型(LLM),由模型智能生成语义块。利用LLM的语义理解能力,动态划分文本,保证了分块语义的准确性,但这种分块方法对算力要求最高,对时效性与性能也将带来挑战。
基于LLM分块流程(图片来源:DailyDoseofDS)
[原始分散段落]
段落1: "A公司宣布收购B公司..."
段落2: "交易金额达50亿美元..."
段落3: "B公司核心资产为..."
[ ]
"并购事件:A公司以50亿美元收购B公司(核心资产为...)"
固定大小分块 | |||
语义分块 | |||
递归分块 | |||
基于结构的分块 | |||
基于LLM的分块 |
分块策略选择决策树
具体实施过程中,我们需要根据具体需求与文档类型选择分块策略,或组合多种方法(如“结构分块+语义细分”)以实现最佳效果。
RAG面临的挑战与前沿探索
深层待解决问题
知识关联缺失
当前检索基于单点语义相似度,无法构建跨文档知识图谱(如“公司A收购事件”与“行业竞争格局变化”的隐含关联)。
推理-检索割裂
生成模型无法主动指导检索过程,形成“检索→生成”单向流水线,而非动态交互式推理。
例如:模型应能反问“您需要对比哪两个季度的数据?”以优化检索目标。
多模态理解不足
现有RAG主要处理文本,对文档中的图表、公式、流程图等信息利用率极低。例如研报中的股价趋势图无法被检索系统理解。
可信度量化困境
缺乏统一标准评估答案可靠性,用户难以判断“何时可信任RAG的输出”,导致存在潜在风险,例如金融场景中错误答案可能导致直接经济损失。
长上下文建模缺陷
当检索返回大量片段(如20篇文档)时,模型对超长提示词的尾部信息忽略率显著上升。
解决路径与前沿探索
检索增强
混合检索:融合语义搜索(Embedding)与关键词搜索(BM25)提升召回率
查询扩展:用LLM将用户问题改写为专业查询(如“钱放余额宝安全吗?”→“货币基金信用风险评估”)
递归检索:实现多跳推理(先查“美联储加息”,再查“科技股估值模型”)
生成控制
强制引用:要求模型标注答案来源位置(如:源自2023年报第5页)
置信度阈值:对低置信答案触发人工审核流程
结构化解构:将复杂问题拆解为子问题分步检索生成
优化分块
语义分块:按句子/段落边界切分而非固定长度
结构感知:保留表格、标题层级(利用Markdown/XML标签)
动态重叠:相邻块部分重叠避免上下文断裂
关注「Agent案例库」微信公众号,对话框回复【666】,一键下载下方所有大模型学习资料。
需要深入学习AI的同学可关注下方「Agent案例库」知识星球,每周获取前沿AI深度报告、智能体实战指南、热门AI工具介绍及大模型商业落地案例。
免责声明:部分内容来源网络,仅限个人交流学习,版权归原作者所有,如有不妥,请后台联系处理。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-28
2025-04-01
2025-04-13
2025-04-19
2025-04-09
2025-04-16
2025-05-08
2025-04-05
2025-04-01
2025-04-10
2025-06-20
2025-06-19
2025-06-13
2025-06-09
2025-06-06
2025-05-30
2025-05-29
2025-05-29