微信扫码
添加专属顾问
我要投稿
探索PPT检索的最佳RAG方案:多模态、OCR与混合检索的全面评估与结论。 核心内容: 1. 三种PPT RAG方案的技术流程与特点 2. SlideVQA与LPM数据集的评估结果对比 3. 不同应用场景下的最优检索方案选择
ppt RAG主要分下面3种:
基于layout+OCR的pipline的以文本主导的RAG方案。
基于VLMs+图片向量模型(如:ColPali与Qwen2.5-VL的文档多模态RAG技术流程)的多模态RAG方案。
综合上述两种的混合检索
那么哪种方式更好?下面主要记录一下评估结论。
SlideVQA:是一个为推动演示文稿VQA研究而开发的数据集,包含来自SlideShare 的2619个ppt,包含超过 52000 个ppt和 14484个 VQA 样本。该数据集评估模型在文本和视觉ppt元素之间检索相关内容并进行推理的能力,每个样本均关联真实值ppt用于评估,并包含单跳问题(仅需一个ppt即可回答)和多跳问题(需要多个ppt才能回答)。
LPM:用于训练多模态讲座ppt内容模型的资源,包含 334 个教育视频(187 小时中 9031 幅ppt,覆盖生物、解剖学、心理学、牙科、公共演讲和机器学习等 35 门课程,每幅ppt均配有对应的口语文本、视觉元素以及通过 OCR 提取的文字。数据集中包含 8,598 个视觉图像,包括自然图像(45.1%)、图表(46.7%)、表格(3.5%)和公式(4.6%),平均每幅ppt包含 26 个单词和 0.94 个图像。
检索ppt的最佳方法是什么?
取决于应用场景。
若以准确率为优先,且资源和延迟可忽略,则使用 Jina 重排序器的 ColPali(视觉)或其与文本 ColPali 结合的 RRF 混合方案为最佳选择。
在需要兼顾高准确率、低延迟和可控存储的 RAG 系统中,基于高质量标题的混合文本检索(如 BM25+Neural+BGE)或搭配 BGE 重排序器的文本 ColPali 方案极为有效。
因此,将多模态ppt检索问题转化为文本问题,能够利用成熟的文本信息检索技术,通常比直接进行多模态编码获得更实用的解决方案。在资源极度受限的环境中,即使仅对高质量标题使用简单的 BM25,也能提供一个合理且高效的基准。顶级重排序器(无论是视觉还是文本)带来的显著延迟,仍是在交互式 RAG 系统部署的主要挑战。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-21
终于,NotebookLM 和 Gemini 合体了。这是什么神之更新?
2025-12-21
Cohere 推出 Rerank 4,将上下文窗口从 8K 扩展至 32K,以交叉编码器架构强化长文档语义理解与跨段落关联捕捉
2025-12-21
4.1K Star!GitHub 上挖到一个救星级别的 RAG 数据流水线项目!
2025-12-20
PageIndex:一种基于推理的 RAG 框架
2025-12-20
深度解析丨智能体架构,利用文件系统重塑上下文工程
2025-12-20
RAG 答非所问?可能是你少了这一步:深度解析 Rerank 与 Cross-Encoder 的“降维打击”
2025-12-18
从 RAG 到 Context:2025 年 RAG 技术年终总结
2025-12-17
embedding分数不是唯一解!搜索场景,如何根据元数据做加权rerank
2025-10-04
2025-10-11
2025-09-30
2025-10-12
2025-12-04
2025-11-04
2025-10-31
2025-11-13
2025-10-12
2025-12-03
2025-12-21
2025-12-10
2025-11-23
2025-11-20
2025-11-19
2025-11-04
2025-10-04
2025-09-30