支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


实战复盘 | 基于视觉模型的多模态 RAG 系统,我们踩过的坑与收获 (项目已开源)

发布日期:2025-06-10 21:58:17 浏览次数: 1583
作者:KnowFlow 企业知识库

微信搜一搜,关注“KnowFlow 企业知识库”

推荐语

深入探索基于视觉模型的多模态RAG系统开发过程,分享实战经验与技术细节。

核心内容:
1. 多模态RAG系统开发背景与难点解析
2. ColPali框架与视觉模型的创新应用
3. 实测结果分析与性能优化策略

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 

背景

在 KnowFlow 内部交流群的同学都知道,近期我们团队在做一款基于视觉模型的多模态 RAG 系统。2 周左右密集开发之后,我们进行了全方位的测试,在群内公开召集难啃的文档,现在整体上对于多模态 RAG 有了更加深入的认识。

分享本篇也是给同行的开发者或有意向的客户提供一些建议和思考,本文视角遵循客观、理性视角,大家放心食用。

什么是多模态 RAG?

目前市场内主流的 RAG 系统技术方案,以文本为主。将 PDF、Word、图片、Excel 等不同格式的文件通过 OCR 解析成文本、表格、图片等数据,通过 chunk 存储到向量数据库。

而基于视觉模型的方案反其道而行之,采用类似于 ColPali 框架实现对文档的向量化存储。检索阶段通过相似度得分获取到高关联性的图片,将这些信息喂给视觉模型如 Qwen2.5 VL,视觉模型最终将结果返回给用户

什么是 ColPali

ColPali 基于 ColBERT(Contextualized Late Interaction over BERT)方法,并结合视觉语言模型(如 PaliGemma-3B)处理文档的视觉和文本信息。其主要创新在于通过文档图像生成多向量嵌入(multi-vector embeddings),无需依赖传统的 OCR(光学字符识别)或复杂的布局分析,直接利用文档的视觉特征进行检索。

总结来说,通过 Colpali,我们无需再通过传统的 OCR 将文档进行解析识别,而直接将文档的图片进行嵌入处理,这里就省下了很多时间。技术实现上有以下几个过程:

  1. 1. 将文档先每一页截图处理,然后喂给 Colpali 进行存储
  2. 2. ColPali 将文档图像分割成多个图像块(patches),通过视觉语言模型(如 PaliGemma)处理这些图像块,生成每个块的嵌入。ColPali 为每个图像块生成独立的嵌入向量,形成多向量表示,这种表示保留了文档的细粒度信息。
  3. 3. 在检索阶段,ColPali 使用 ColBERT 提出的晚交互机制,将查询(query)的嵌入与文档的多个嵌入向量进行逐一匹配,计算每个查询词与文档块的相似度得分,最终汇总得到查询与文档的总体相关性得分

在我们系统实测过程中,通过将 ColPali 生成的向量存储到 Milvus 中,在检索阶段准确率基本上 90%。这个大大超出我们预期,在 GPU 的加持下,速度和响应也比较快,接近于传统的 OCR 解析耗时。

视觉模型选择

考虑到模型的扩展性,我们采用了 LiteLLM 来接入视觉模型,目前支持 Ollama 和兼容 OpenAPI 协议的在线模型,如硅基流动和 Qwen API。在项目实测过程中,我们挑选了 Ollama 本地部署的 Qwen2.5 VL 32B 模型在线 Qwen 2.5VL 72B API。

其中硬件配置 RTX 单卡4090 48G 显存运行 Qwen2.5 VL 32B 很流畅,24G 没有实测过,预估可能会有点卡顿。

实测效果演示

在交流群内公开召集了一些文档,这些文档大多数结构比较复杂,传统的如 RAGFlow RAG 系统处理的不是特别好。

案例 1:本科在辽宁招生计划.pdf


Q: 南昌航空大学科技学院招生情况?
A:

大家可以比对下,基本上完美回答。


案例 2:公路桥梁钢结构防腐涂装技术条件.pdf


Q: 非封闭环境内涂层体系?
A:

也是完美回答。


案例 3 :公路桥梁抗震设计规范JTG T 2231 01 2020_2020抗震规范.pdf


Q: 桥梁抗震措施等级
A:

此处回答中规中矩,命中了表格内的部分数据。


案例 4:公路桥梁抗震设计规范JTG T 2231 01 2020_2020抗震规范.pdf


Q:桥梁抗震设防目标
A:

此处回答的有点不符合预期,没有正确识别到问题语义。

结论

基于视觉模型的多模态 RAG 系统,针对一些复杂文档结构的样例确实展示出了他的优越性,基本无损的还原和理解文档的信息,基于视觉模型的能力后续可以在图片上进一步做增强,比如圈选和理解。

检索这块大大超出预期,基本上能快速检索出目标图像,目前该系统的瓶颈在于视觉模型,在实际测试过程中基于本地部署的 Qwen2.5 VL 32B 模型,经常会出现语义理解失败、图片理解幻觉等问题。72B 的在线模型这些问题基本上不存在了,但付出的成本可想而知,商业一定是要考虑 ROI。

同时基于图片的 RAG 识别方案,天然决定了人工标注和干预的能力大打折扣,我们无法做到像 RAGFlow 一样人工的修正 chunk 的数据。也就是说,当然国外也有一些针对于图片的标注方案,但实施成本反而很高。

基于上述分析,我们给出一个结论:多模态 RAG 系统的天花板很高,但付出的成本也很大,ROI 整体来看不是那么高,短期的市场内,一定取代不了以文本为主的 RAG 系统。但随着新的多模态向量化模型以及视觉模型的不断涌现,最终会渐渐的走入 RAG 的舞台。至于是什么时候,无法预料,但最终肯定会。

KVisualRAG 未来展望

对于 KVisualRAG,我们实现了基于纯向量化的检索匹配,依照国外一些成熟产品的经验,可以结合文本和图片混合多模态向量化,这样的话,检索的效果会得到进一步增强。

另一个不可忽视的是,视觉模型的重要性,本次产品反馈最大的感受是视觉模型的语义理解和回答相比于文本模型差的太多了。随着新的视觉模型的不断涌现,我们后续会不断适配和测试,期望多模态 RAG 能大放异彩。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询