再谈RAG的文档解析——文档解析的难点在哪里？

发布日期：2025-11-20 12:42:47 浏览次数： 2307

作者：AI探索时代

微信搜一搜，关注“AI探索时代”

“ 知识库是RAG的灵魂，一个好的知识库能解决绝大部分RAG问题。”

在之前关于RAG的优化文章中，大部分都是在强调检索端的优化，而关于文档解析方面的内容却非常的少，而这也是有原因的。

在之前介绍RAG的文章中，曾说过RAG是一种方法论，而不是一项具体的技术；其中有两个比较重要的模块：

其一是与大模型相关的上下文管理
其二是文档召回模块

其中文档召回模块又分为两大块，一块是知识库的构建，另一块是检索召回；而之前的文章主要就是针对检索召回和上下文管理。

而今天所讨论的文档解析，就属于知识库的构建，而这也是RAG系统好与坏的基石；一个好的知识库是RAG系统的基础，否则所谓的增强生成只能是空中楼阁。

因为，任何RAG相关的应用场景，在检索召回和上下文管理功能都可以进行复用；或者准确地说，RAG的检索召回和上下文管理的手段就只有这么多。但文档解析却不同，其需要根据不同的业务场景，数据格式进行特殊的处理，而这也是最难搞定的一环。

文档解析

为什么文档解析会那么难？

主要原因就在于文档格式和结构太复杂，特别是现在的富文本，同时包含图片，文字，表格等多种格式的数据；而如果只是格式种类比较多还问题不大，主要是文档内容多结构。

举例来说，你的文档是一个技术架构图，或者流程图等带有结构的数据，这时候你不论选择什么技术都很难进行处理。

以现在常见的OCR技术来说，虽然OCR能够识别出文档中内容，也就是信息；但是它识别不出来文档内容中的结构信息。

从作者个人的体验来看，除了纯文字的文档之外，任何带有结构化信息的文档，经过OCR处理之后，文档中的结构化信息全部丢失，而这对构建知识库来说会产生非常大的影响，甚至会直接导致有些文档完全无效，还不如不要。

所以在RAG中，文档处理的核心主要有以下三点：

提取关键信息
保留文档结构
保证文本质量

提取关键信息

保证文档中重要的数据内容都能被提取出来

保留文档结构

要保证文档的结构，如标题，段落，表格等；因此，作者在处理的过程中，会在每段拆分的文档前面拼接上其上层标题。

保证文本质量

有些人在使用文档格式转换工具或OCR工具之后，就直接把转换之后的文档切分并入库；但事实上这样的文档内容质量会非常差，原因就在于其中会存在很多噪音数据。

如图片，结构图，表格分隔符等，会占用大量的无效空间，导致文档质量直线下降；而这些噪音数据又很难处理，特别是在文档量比较大的情况下。一般情况下只能根据规则或正则表达式对内容进行适当的删除和处理。

因此，在RAG中知识库的构建，也就是文档的处理需要花费大量的时间和精力；然后根据不同的业务场景，选择合适的文档格式和结构，并且选择合适的存储工具；如传统数据库，向量数据库，知识图谱等。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-07

知识库分块不是越小越好——改了分块大小，准确率跳了18%

2026-07-07

分类、抽取、Rerank：小模型最容易落地的三个方向

2026-07-07

RAG 和 Agent 到底是什么关系？企业 AI 不只是问答

2026-07-06

加了Query改写，准确率从71%提到89%

2026-07-06

RAG 负责召回，LLM Wiki 负责沉淀：团队知识系统为什么不能只做检索

2026-07-05

AI 知识库为什么总答不准？不是模型笨，是资料没整理好

2026-07-05

AI知识库RAG演进：上一代解决「找得到」，下一代解决「记得住、连得起、信得过」

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

RAG已死？不，是Grep回归了！

2026-04-30

Mem0 深度解析：智能记忆层的架构原理

2026-04-27

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw