微信扫码
添加专属顾问
我要投稿
探索多模态文档检索的前沿技术,了解三大获奖方案如何革新信息检索。 核心内容: 1. 多模态文档检索技术概述及其重要性 2. MMDocIR任务:长文档多模态检索挑战与数据集 3. M2KR任务:开放域视觉检索基准及多模态检索框架
前期也提到,在实际场景中,用户通常需要检索多模态文档,包括文本、图像、表格和图表。这需要一个更复杂的检索系统,能够处理多模态信息,并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。因此衍生了一系列的多模态RAG方案,如:开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG、多模态GraphRAG初探:文档智能+知识图谱+大模型结合范式提到的诸多方案。
下面来看看www会议开设的多模态文档检索挑战赛的三个获奖方案。
概述:多模态文档检索任务专注于对多模态文档或网页中的段落进行建模,利用文本和多模态信息进行嵌入建模。最终目标是根据用户的文本或多模态查询检索相关的多模态文档或段落。
任务一:MMDocIR – 长文档的多模态检索
此任务旨在评估检索系统识别文档中视觉丰富的信息的能力。MMDocIR 评估集包含 313 篇长文档,平均篇幅 65.1 页,涵盖多个领域:研究报告、行政管理、行业、教程、研讨会、学术论文、宣传册、财务报告、指南、政府文件、法律和新闻文章。不同领域的多模态信息分布各异。
每个领域都呈现出独特的多模态信息分布,带来了不同的检索挑战。
目标:对于给定的文本查询 → 检索相关文档页面: 识别文档中与用户查询最相关的页面。每个查询的检索范围仅限于给定文档中的所有页面。
数据集:MMDocIR
任务 2:M2KR – 开放域视觉检索基准
此任务评估检索系统在开放域场景(包括维基百科网页)中检索视觉丰富的信息的能力。它涉及多种主题、形式(图形、表格、文本)和语言。原始 M2KR 数据集仅包含从维基百科页面中提取的文本。我们扩展了数据集,以包含维基百科页面的屏幕截图。
子任务:
图片→Wiki文档检索: 数据集: WIT、KVQA。 图片+文字→Wiki文档检索: 数据集: OVEN、OKVQA、Infoseek、E-VQA。
code:https://github.com/hbhalpha/MDR
首先使用cv_tools/DINO识别视觉关键点
训练五个不同参数的专家模型进行双任务投票
融合专家投票结果与视觉关键点结果
code:https://github.com/i2vec/MMDocRetrievalChallenge 框架分为两个主要组成部分:
流程图详细思路如下:
输入:
候选页面被分割成多个区域,以获得区域级表示。
使用Qwen2.5-VL模型生成候选页面的文本描述,提供互补的语义信息。
用户查询(可以是文本、图像或多模态格式)也被处理成统一的嵌入空间。
过程:
应用三种匹配策略:
计算每种模态的余弦相似度(CosSim)。
将三种匹配策略的相关性得分融合,综合考虑视觉、多模态和文本信号。
输出: 经过分值融合后,使用基于VLM的验证模块评估查询与候选结果的语义对齐。过滤模块促进高置信度的匹配,丢弃误报,确保最终结果既精确又与查询语义一致。
输入:
文本形式的用户查询
候选文档页面的全页图像、分割区域图像和OCR识别的文本多种粒度,以实现多粒度检索。
过程:
使用ColQwen2-7B对用户查询和全页图像候选进行编码,进行初始全页检索。
使用GME-7B进行两个额外的检索路径:
计算每种检索路径的余弦相似度(CosSim)。
将全页检索、OCR文本检索和区域图像检索的相关性得分融合,结合全局、文本和区域信息。
输出:经过分值融合后,使用基于VLM的验证模块(由Qwen2.5-VL模型驱动)对排名靠前的候选结果进行语义验证。验证模块进行细粒度的跨模态验证,确认查询意图与候选内容的一致性,确保最终结果具有高精度和可靠性。
1、多源分数融合
实施两层分值融合过程:
2、VLM验证机制
在融合步骤之后,应用基于VLM的验证过程,使用Qwen2.5-VL模型进行语义验证。该模块通过预测每个候选是否为真实匹配(Yes)或不匹配(No)来执行语义验证。验证通过的候选结果在最终输出中被优先考虑,确保只有具有强语义对齐的结果被保留。这一验证步骤增加了跨模态理解的关键层,超越了传统的基于相似度的方法,进一步优化了检索结果。
方案分两步:MMDocIR和M2KR
code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task1_MMDocIR
这个过程是不是很熟悉,前期介绍的:
https://mp.weixin.qq.com/s/coMc5jNPJldPk9X74tDAbA
https://mp.weixin.qq.com/s/mzmv01yKl1c8941BJY60ig
code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task2_M2KR
该项目实现了一个端到端的视觉检索流程,该流程接收查询图像,并通过将其与从维基百科页面抓取或提取的图像进行匹配,检索出最相关的维基百科文章。它使用来自 ColQwen2 和 FAISS 的嵌入进行高效的相似性搜索,并支持从实时维基百科页面抓取图像以及从屏幕截图中提取图像。
功能如下:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-07
Adobe首发多Agent、跨模态框架MDocAgent:复杂文档理解性能爆炸12%,错误率直降21%
2025-05-07
多模态 GraphRAG 初探:文档智能+知识图谱+大模型结合范式
2025-05-05
推翻传统RAG,腾讯用生成式检索打开多模态新局面
2025-04-30
用AI大模型把手写笔记转换为LaTeX PDF文档
2025-04-30
Qwen能吞下整本扫描版PDF,直接转Word了,这波操作太赞了!
2025-04-28
3D 小白亲测:用 Trae + Blender MCP 从零开始 AI 建模(附踩坑指南)
2025-04-27
行业落地分享:作业帮问答检索系统实践
2025-04-27
大模型赋能CAD图纸智能识别与集成实战指南
2024-09-12
2024-06-14
2024-06-17
2024-08-06
2024-08-30
2024-05-30
2024-11-28
2024-10-07
2024-10-16
2024-04-21
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05
2025-03-02
2025-01-08
2024-12-13