免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


关于多模态应用的几个疑问,以及多模态应该怎么应用于RAG?

发布日期:2025-09-10 13:40:56 浏览次数: 1526
作者:AI探索时代

微信搜一搜,关注“AI探索时代”

推荐语

多模态与RAG的结合充满挑战,但能大幅提升信息检索的完整性。本文带你探索如何突破文本限制,实现更智能的文档处理。

核心内容:
1. 多模态模型在RAG系统中的实际应用难点
2. 当前多模态处理方式的局限性分析
3. 维护跨模态数据关联关系的解决方案探讨

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 多模态与RAG的结合是一个应用的实践过程,其实际操作远比理论要复杂得多。



这段时间一直在搞RAG和Agent,然后使用的基本上都是基于文本处理的推理模型,基本上没用过多模态模型;而最近突然有个想法,那就是把多模态应用于当前的RAG系统。


虽然说之前对多模态有些基础认识,但并没有在真实的业务系统中实践过;然后网络上关于多模态应用的内容又很少,因此等真正尝试去做的时候才发现,多模态应用好像没有那么简单。






多模态模型的应用




既然要应用多模态,那么首先要了解什么是多模态;在对多模态最粗浅的认知就是,多模态支持多种模态的数据,也就是文本,视频,音频,图片等。


在作者个人的认知中,多模态应该是能接受任何形式的数据输入,然后可以输出任何自己想要的数据格式;事实上多模态也是这么做的,但并不是我们想象中的那样。


观察了几家模型厂商之后发现一个问题,很多所谓的多模态模型都仅仅支持两种模态或三种模态;比如说根据文本生成语音,图片理解,视频理解,图片生成,视频生成等等。


而那种能够支持所有模态数据的模型叫做——全模态。


以具体的例子来看,在日常办公场景中,会议纪要是一个很重要的东西;现在基于人工智能的会议纪要产品已经有很多了;其原理就是,把音频数据(会议的录音)通过音频转文字的模型,把音频转成文字,然后再基于文字做总结提炼,最后形成会议纪要。


同样的,图片理解,视频理解,图片生成,视频生成等所谓的多模态模型都是如此。


OK,那么怎么把多模态模型应用于RAG系统呢?


在非多模态模式下的RAG系统,是把所有的数据都转成文字的形式,然后进行相似度检索;包括图片,表格等。


但是,我们都知道图片,架构图等表达的内容有时很难用文字描述出来;因此,经过转换之后的文档会丢失大量的有效信息。


那么,如果能把多模态应用到RAG中,那么就可以让多模态模型来识别文档中的内容,这样就可以尽量保证信息的完整性;但具体应该怎么做呢?


在刚开始作者的认知中,多模态应用于RAG应该是把文档丢给模型,然后让模型把里面的文字,图片,架构图,表格等给抠出来,并维护其内在的关联关系,比如说那些文字和那些图片是关联的;然后把这些不同模态的数据,再通过向量化的方式保存到向量库中。


但是,看了模型厂商的一些模型之后,发现好像不是这么做的;它们的方式是,把文档丢给模型,然后让模型按照要求总结出我们所需要的东西;当然,也有那种能够确定文档中文字和图片的位置,然后通过截图的方式拿到文档中的图片或架构图等数据。


但是,这种处理方式并没有维护文档中的关联关系,不同数据之间依然是独立的内容;而且,这样的话,在做数据召回时应该怎么召回?


总不能不同的数据还有去不同的地方做召回,最重要的是不同模态数据之间的关联关系怎么处理?


果然是纸上得来终觉浅,绝知此事要躬行;多模态好像看起来很简单,但等真正想上手去做的时候才发现远远没有那么简单。


当然,也可能是作者没有多模态应用的经验,暂时还无法理解多模态在RAG中的使用流程。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询