微信扫码
添加专属顾问
我要投稿
RAG技术就像七夕鹊桥工程,如何让query和chunk精准相遇是关键;文档解析落地中又有哪些坑需要避开? 核心内容: 1. RAG技术优化思路:query改写与chunk切分的鹊桥比喻 2. 文档解析四大落地问题:测试脚本、重复输出、国产适配、输入预处理 3. 实际案例分析与解决方案汇总
今天是2025年8月29日,星期五,北京,雨,8月份的最后一个工作日
我们来看两个话题,一个是RAG,一个是文档解析。
RAG如七夕,鹊桥大工程,做个比喻,加深印象。
文档解析上,还是从使用角度出发, 总结一些问题以及对应的产生逻辑、应对思路。
多总结,多归纳,多从底层实现分析,会有收获。
今天是七夕节,在社区做了个一个很形象的比喻。
七夕搭桥,可以类比RAG,为了让q跟chunk更好地遇见,我们有query改写,
也有chunk切分以及索引等各类方案。
很多时候rag召不回来,是这个桥太窄,或者排在后面,有很多山寨牛郎织女。这个山寨,就是fake doc,就是不相关。很多冒充的。
q,d两头的优化,就是让这批喜鹊们,认识出那对真正的牛栏织女,他俩得露出来,然后,喜鹊的职责,就是这个检索方式,Embedding也好,关键词也行,得把桥筑牢了,别一次性,得持久,得稳当。
这就叫,“RAG过七夕,鹊桥大工程”。
1、Docs Parsing Techniques,jupyter 笔记本集合,对目前多模态OCR模型做的统一测试脚本,https://github.com/AdemBoukhris457/Docs_Parsing_Techniques?tab=readme-ov-file,可以借鉴的点是,可以用于我们去做不同模型的使用和对比测试。
2、重复输出的问题,遇到无法识别的一直无限输出,这种情况怎么避免,方案是:添加采样参数可以解决, 例如"frequency_penalty": 0.1, "repetition_penalty": 1.1 。惩罚过高,会影响模型输出。 需要官方测试 开源和内部的 不同的参数 ,对推理结果准确率的影响。ref:https://github.com/rednote-hilab/dots.ocr/issues/99
3、国产化适配的问题。在 CPU/910B 部署dots.ocr模型的一些尝试,验证在CPU及NPU上验证模型部署的可行性。结论:速度无法接受,让领导死了这条心。https://github.com/rednote-hilab/dots.ocr/issues/102,https://github.com/rednote-hilab/dots.ocr/issues/74
这类问题很普遍,如:https://github.com/Yuliang-Liu/MonkeyOCR/issues/51,国产适配好,才能用好。
4、用户输入不可控问题。对于手机拍摄屏幕,屏幕纹路比较严重的情况下,识别效果不行。https://github.com/rednote-hilab/dots.ocr/issues/120,这种考虑自己先进行预处理。
这个问题,在mineru中也有体现,例如,https://github.com/opendatalab/MinerU/issues/3380,翻拍电脑屏幕的jpg图片无法识别,转成pdf却可以。
5、layout预测错误问题,会经常把流程图识别成table。文档中有很多流程图,mineru会把一部分流程图识别成table,https://github.com/opendatalab/MinerU/issues/3270
从原因上看,程图被识别成 table 是已知的局限,主要因为两者在版面结构上有相似性(如方框、线条、网格等),现有模型和启发式规则无法准确区分。
给出的解决思路是:1)关闭表格识别(table-config 里 enable 设为 false),这样所有表格和流程图都不会被识别为表格; 2)在 Markdown/JSON 输出后用脚本二次筛查和修正被误判的内容,比如根据内容特征或版面结构过滤掉非真实表格。
6、markdown中无序列表的换行不识别问题,这个问题其实是不换行问题。需要做后处理。https://github.com/opendatalab/MinerU/issues/3274,也见于https://github.com/opendatalab/MinerU/issues/3112
原因方面,这是 MinerU 当前布局模型的已知限制,代码块(如程序文本)尚未被模型专门识别和处理,因此所有代码内容会被当作普通文本合并成一行,缺少换行。
给出的建议是建议用正则或脚本对 markdown/JSON 结果做后处理,在 mineru/backend/pipeline 相关模块尝试自定义格式化逻辑
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-13
LightRAG × Yuxi-Know——「知识检索 + 知识图谱」实践案例
2025-10-13
PG用户福音|一次性搞定RAG完整数据库套装
2025-10-12
任何格式RAG数据实现秒级转换!彻底解决RAG系统中最令人头疼的数据准备环节
2025-10-12
总结了 13 个 顶级 RAG 技术
2025-10-11
企业级 RAG 系统实战(2万+文档):10 个项目踩过的坑(附代码工程示例)
2025-10-09
RAG-Anything × Milvus:读PDF要集成20个工具的RAG时代结束了!
2025-10-09
RAGFlow 实践:公司研报深度研究智能体
2025-10-04
Embedding与Rerank:90%的RAG系统都搞错了!为什么单靠向量检索会毁了你的AI应用?
2025-09-15
2025-08-05
2025-08-18
2025-09-02
2025-08-25
2025-08-25
2025-07-21
2025-08-25
2025-09-03
2025-08-20
2025-10-04
2025-09-30
2025-09-10
2025-09-10
2025-09-03
2025-08-28
2025-08-25
2025-08-20