微信扫码
添加专属顾问
我要投稿
RAG文档处理的核心在于精准剔除噪音数据,提升召回率和准确率,而非盲目追求文档完整性。核心内容: 1. 文档处理的核心原则与目的 2. 不同业务场景下的格式选择与统一 3. 常见噪音数据的识别与处理方法
“ RAG文档处理的原则是找出有效数据,剔除无效数据,而不是为了大而全整一堆没用的数据。”
在RAG增强检索中,文档处理是重中之重,但是很多人的文档处理做的很粗糙,然后还奇怪为什么我的RAG质量不好,召回率太低,原因就在于你的文档处理真的不咋地。
虽然说现在的文档处理是大模型应用中的一个难点,但既然用了那就要想办法把它做好,因此我们现在需要考虑的不是文档处理有多复杂,而是应该考虑怎么提升文档的处理质量,减少噪音,提升召回率和准确率。
处理文档中的噪音
文档处理的原则
首先,我们要弄明白一个核心问题,那就是文档处理的目的是为了提升召回率和准确率,而不是把文档处理得大而全;简单来说就是,如果文档中的某些内容很难处理或者没什么用,那就把这部分变换一下格式或者直接给删了;而不是为了文档的完整性,整了一堆没用的数据,最后不但没有达到全的目的,反而给文档增加了很多噪音数据导致召回率下降。
处理格式的选择
其次,在不同的业务场景中,选择合适的文档结构;比如说不论是word,pdf,还是excel等格式的数据,全部处理成markdown的格式;这样格式统一之后,也方便统一管理和后续处理。而不是同时使用多种格式,然后召回的时候需要经过各种乱七八糟的处理流程,然后还没达到预期效果。
噪音的处理
一般情况下文档在初步处理时会存在很多噪音数据,比如说orc读取文档之后,很多结构图,流程图变成了没有任何意义的文字描述;这部分数据就可以直接删除,因为留着不但没什么用,可能还会影响到处理比较好的完整数据。
其次,还有一些文档处理无法处理图片等格式,然后处理之后的文档出现大量的图片地址引用,类似于这种图片地址也可以直接删除,原因和上述的一样。
还有,把没有意义的数字转换成文字描述;比如说可能用0和1代表男女,对错等;这时直接在文档中显示0和1,没有任何意义,鬼知道0和1表示什么意思,最好的方式就是直接把这些无意义的表示转换成文字描述。
再有,删除文档中大量的空格和无用分割符;比如说word中的表格转换成markdown之后,会有大量的空格和| 作为分割符;这时这些无用字符除了会占用大量空间导致文档分离之外,没有任何用处,因此这种多余的无用字符最好也都给删掉。
在文档处理中,类似于以上所述的情况还有很多,因此我们需要根据自己的具体情况进行处理;而不是一股脑的把文档切片,嵌入再入库就行了。
还有就是我们在文档处理中,我们需要选择有用的高质量的数据,而不是把数据一股脑的全部塞到知识库中;以数据库表为例,有时候我们可能需要数据库中的数据作为知识库,但数据库中的很多字段可能是为了方便管理和区分业务用的,在实际的业务场景中没有任何意义;比如说is_deleted这种字段,用来标识数据是否被删除;这种字段在大部分业务场景中都是无效数据;当然也不否认其在某些场景下会有用。
因此,我们文档处理的原则就是,找到一种数据格式,然后把有效,且能够处理的数据入库;把哪些无效和无法处理的数据给剔除掉;这样才能打造一个高质量的知识库。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-04
RAG知识库十大误区 和 提高准确率示例
2025-09-04
别再只会向量检索!16 个 RAG 高阶玩法曝光(上)
2025-09-03
基于RAG的工业品商品智能推荐
2025-09-03
DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
2025-09-02
在企业开发中——RAG技术常见的问题以及解决方案
2025-09-02
从原理到落地:RAG 技术全解析,手把手教你搭建专属知识库
2025-09-01
RAG效果不佳?先别急着微调模型,这几个关键节点才是优化重点
2025-08-30
涌现观点|RAG评估的"不可能三角":当独角兽公司因AI评估失误损失10亿美元时,我们才意识到这个被忽视的技术死角
2025-06-20
2025-06-20
2025-07-15
2025-06-24
2025-06-24
2025-07-16
2025-06-23
2025-07-09
2025-06-15
2025-06-20
2025-09-03
2025-08-28
2025-08-25
2025-08-20
2025-08-11
2025-08-05
2025-07-28
2025-07-09