支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


推翻传统RAG,腾讯用生成式检索打开多模态新局面

发布日期:2025-05-05 08:42:37 浏览次数: 1553 作者:Chal1ceAI
推荐语

腾讯最新研究,用生成式检索颠覆传统RAG,开启多模态新纪元。

核心内容:
1. 传统检索在多模态应用中的局限性和挑战
2. GeMKR:基于大语言模型的生成式检索方法
3. 实验结果:在多模态知识检索数据集上的性能表现

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 



  今日碎碎念  

传统检索太慢太蠢?腾讯这篇论文直接让大模型自己“想”知识,还能图文一起搞,速度更快,效果更狠。重新定义检索范式,值得细读!

 

 

这篇论文其实在一开始就很有意思,它针对的是一个挺棘手的问题:在多模态应用里,比如VQA(视觉问答)、多模态对话这种,光靠图片和文本本身的信息往往是不够的,必须去查外部知识库。传统做法就是靠各种retriever,一个专门查文本的,一个专门查图片的,有的还搞个实体检索器,弄得流程又长又麻烦。而且,各种retriever要单独训练,超级吃数据,成本也高。

然后,作者就问了个很实在的问题:有没有可能搞一个通用的、多模态的检索器,而且整个流程简单一点,不要搞那么多乱七八糟的单独模块?

答案就是他们提出的GeMKR,思路其实很直接,也很聪明:别再一味算相似度、比embedding了,干脆用大语言模型(LLM)直接生成线索,再用这些线索去数据库里一查,拿到对应的文档,你可以理解成模型自己“想”一段关键短语,这短语能够唯一指向某个文档。

而且,这里有个小细节很重要,作者特别强调,只有生成这一步用神经网络,后面的查库是个确定性的操作(比如FM-Index这种特别快的数据结构),所以整体效率非常高。

为了让模型能用得起视觉信息,他们还对视觉特征做了一些定制处理,不是直接粗暴地把图片扔给模型就完事了。具体来说,是用了一个叫Object-aware Prefix Tuning的小技巧。简单理解,就是把检测到的物体(比如一张图里有摩托车、椰子树、泰迪熊这些)作为特征,融进视觉编码的“前缀”里面,然后让CLIP这种视觉编码器感知到细粒度的信息,但是又不用改动原本的大模型参数,参数量小、训练快。

再往后,就是把图像特征、文本特征统一投到LLaMA的大语言模型里,一起处理。这里和传统的做法不一样,传统方法一般是“视觉处理一边,文本处理一边,最后再融合”,而GeMKR是直接把图文都塞进同一个Transformer,深度交互。

这里还有一个很巧妙的设计,就是知识引导的解码(Knowledge-guided Constraint Decoding)。怎么理解呢?就是在生成线索词的时候,模型每一步只能选那些,当前前缀下在数据库里真实存在的后缀词。举个很简单的例子,如果模型前面生成了"palm",下一步合法的扩展可能是"tree"、"oil"、"leaf",但不会是"motorcycle",因为后者根本不会出现在跟palm相关的文档里面。这就大大减少了生成错误的几率,也避免了乱跑。

而且他们还加了个小门槛,比如要求最少生成多少个token,确保线索够有辨识度,一旦在知识库里能唯一指向一个文档,就停下来。生成完的线索直接去索引里一查,拿文档,干脆利落。

那性能怎么样呢?可以说是碾压了。作者拿了三个多模态知识检索的数据集来做实验,知识库规模从十几万到两千多万条都有。在最大的OKVQA-WK21M上,GeMKR在P@5(前5个检索结果里正确的比例)提高了14.6%,在R@5(前5个能召回多少正确文档)提高了8.9%,相当厉害。尤其是其他模型在知识库规模一大的时候普遍掉队,GeMKR反而还能顶得住。

更猛的是,他们只用了2万条训练数据(Instruction Data),只调了1400万个参数(总共有73亿个),就能做到这种效果。训练时间也很短,一块48G显存的A6000显卡上3小时搞定,不用海量计算资源。

为了搞清楚到底哪些设计是最重要的,作者也做了一堆消融实验。结论很清晰:

  • • 没有object-aware prefix,性能掉2%左右。
  • • 没有dual-flow attention(就是分别处理prefix和hidden state的机制),也掉了接近2%。
  • • 没有LoRA微调LLM,只冻结LLaMA参数,掉得更多。
  • • 如果连object特征+LoRA微调一起去掉,性能直接爆降10%以上。

很明显,视觉这边的精细处理和文本这边的轻量调优(LoRA)都是核心。

还有个挺有意思的现象:如果把图片输入拿掉,只靠文本查询和图像caption(比如描述"一个男人在冲浪"这种文字描述),性能还是比大多数传统baseline好,但肯定不如真正用视觉patch做输入。这也说明,简单的图像caption不能完全替代图像本身的信息。

作者还做了个小scale-up实验,看看如果换更大的LLM,比如LLaMA-13B,会不会有更大提升。结果发现,确实涨了一点,但边际收益有限。说明在这种检索任务里,LLaMA-7B已经够用了,盲目换更大的模型意义不大,还平白增加计算开销。

还有一个特别直观的观察就是,如果只用文本或者只用图片去做查询,生成的关键词其实很不一样。比如文本倾向于"racing"、"American"这种概念词,图片则倾向于"snowboarding"、"statue"、"toy"这种描述视觉物体的词。也就是说,不同模态确实关注点不同,单靠一个模态的信息根本搞不定,所以GeMKR用融合式处理是合理且必要的。

最后,作者做了几组case study(实际例子)也挺好玩的。

比如给一个问题“What sport can you use this for?”(这是什么运动用的?)加一张摩托越野的照片,GeMKR生成的知识线索是“motocross is a form of off-road motorcycle racing”,然后一查就精准对上了motocross相关文档。
还有“这是什么植物?”配一张椰子树照片,它能生成"palm trees are among the most exotic and recognizable foliage"这样的线索,完美命中。

可以看出来,它不光能做整体匹配,还能抓细节,做到真正意义上的“多模态细粒度对齐”。

总结一下,GeMKR这篇论文的亮点不在于它用了什么花哨的模型,而是流程彻底简化小改动大收益训练超高效检索结果超稳健。核心理念就是:

  1. 1. 大模型自己生成知识线索,不再搞复杂的retrieval模块。
  2. 2. 小心地处理视觉信息,兼顾效率和细粒度。
  3. 3. 约束式生成,保证线索和文档一一对应。
  4. 4. 整个过程,重点是融合,检索只是辅助。

很典型的一种思路转变,从“识别和比对”走向了“生成和查找”,挺值得借鉴的。

 

 


参考资料:

https://arxiv.org/pdf/2401.08206




图片

看完了这些,你对跨模态检索有什么看法呢?欢迎在评论区留言,发表你的观点!若对你有帮助,欢迎转发给身边有需要的人!欢迎点赞在看关注

图片

HAPPY LABOR DAY

图片

点个 下方名片 关注我们

图片
Agent等热门技术方向,分享个人使用AI工具的心得体会,帮助大家快速上手和理解这些工具。只要你对AI感兴趣,都可以在这里找到实用的学习资源。" data-id="Mzg4MTUzNDQ0Nw==" data-origin_num="117" data-biz_account_status="0" data-service_type="1">

往期精彩回顾




多模态论文VLMo,它给我们提供了什么样的思路呢
多模态论文CLIP,它究竟做了些什么贡献
MCP服务和工具调用的区别" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">用图片生动形象表示mcp服务和工具调用的区别
OpenAI最新研究报告:o3和o4-mini相关风险缓解领域的工作进展和一些功能介绍
多模态论文ViLT,它究竟做了些什么贡献
体验了扣子空间,暂时不要有多大期待
我是这样做公众号封面的
人也能和海豚“对话”了,谷歌推出新模型DolphinGemma



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询