微信扫码
添加专属顾问
我要投稿
探索多模态RAG技术的最新进展和应用挑战。 核心内容: 1. 多模态RAG系统的集成与发展方向 2. 实现多模态RAG的三种技术路径 3. VLM在多模态RAG中的应用与挑战
导读 本次分享聚焦于多模态 RAG 的实现路径与发展前景。
1. 基于语义抽取的多模态 RAG
2. 基于 VLM 的多模态 RAG
3. 如何 Scale 基于 VLM 的多模态 RAG
4. 技术路线的选择
5. 问答环节
分享嘉宾|金海 Infiniflow 联合创始人
编辑整理|王红雨
内容校对|李瑶
出品社区|DataFun
基于语义抽取的多模态 RAG
传统的多模态文档处理首先会运用图像识别技术,如 OCR(Optical Character Recognition,光学字符识别),从图像中抽取出文字、表格和图片等元素。之后,这些独立的对象会被进一步解析,转换成文本格式,以便于后续的信息检索与分析。
近年来,深度学习模型,特别是 Transformer 架构,在自然语言处理领域取得了巨大成功。在多模态 RAG 上,这种方法涉及使用编码器(Encoder)对整个文档进行编码,再由解码器(Decoder)将编码后的信息转化为可读文本。这种方法与第一种类似,只是模型不同,第一种用的是 CNN,这种是 Transformer。此法的优势在于可以更好地捕捉上下文依赖关系,提高信息的连贯性和一致性。
第三种方式是直接利用视觉语言模型(Visual Language Model, VLM)处理多模态数据。此类模型可以直接接收文档、图片或视频等形式的原始输入,将其转化为向量(Patch Embedding)。这些向量可用于构建更加精细的文档嵌入,有助于增强 RAG 系统的检索和生成能力。尤其值得一提的是,由于单一向量难以充分反映复杂文档的所有方面,使用多向量(或称为张量)成为了优选方案,以减少信息丢失,更全面地代表文档含义。
基于 VLM 的多模态 RAG
如何 Scale 基于 VLM 的多模态 RAG
如何选择技术路线
问答环节
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-11
AI提效99.5%!英国政府联手 Gemini,破解城市规划审批困局
2025-06-10
多模态 RAG VS 传统文本 RAG ,到底效果如何,从应用视角来测试下
2025-06-10
实战复盘 | 基于视觉模型的多模态 RAG 系统,我们踩过的坑与收获 (项目已开源)
2025-06-05
多模态模型在RagFlow中的应用
2025-06-04
清华首创多模态+知识图谱+RAG,问答精准度超 94%
2025-05-30
Deepseek 多模态来解析图片,结合上下文分析pdf文档
2025-05-28
Lovart再次证明:AI不是卖工具而是卖成果
2025-05-27
Dolphin-API:字节Dolphin多模态文档解析模型API化全攻略
2025-05-14
2025-03-26
2025-03-21
2025-04-27
2025-05-16
2025-05-08
2025-04-28
2025-04-05
2025-05-13
2025-05-15