我要投稿

Adobe首发多Agent、跨模态框架MDocAgent：复杂文档理解性能爆炸12%，错误率直降21%

发布日期：2025-05-07 18:13:15 浏览次数： 2441

作者：ArronAI

微信搜一搜，关注“ArronAI”

文档问答太难了

含有丰富文本和视觉元素（如图表、图像等）的长文档，在进行文档问答时，现有的方案有其局限性：

传统的大型语言模型（LLMs）仅能处理文本信息
大型视觉语言模型（LVLMs）虽然能够处理视觉内容，但在处理长文档时往往效率低下，并且难以对文本和视觉信息进行有效的融合与推理。
现有的检索增强生成（RAG）方法虽然能够从长文档中提取关键信息，但它们通常仅依赖于单一模态（文本或图像）进行检索，缺乏跨模态的信息整合能力。

MDocAgent

5个智能体

MDocAgent通过引入多个专门的智能体（agents），协同处理文本和图像信息，以实现对文档内容的深入理解。具体而言，MDocAgent 包含以下五个智能体：

通用智能体（General Agent）：负责初步的多模态信息整合，为后续的分析提供基础。
关键信息提取智能体（Critical Agent）：识别并提取对回答问题至关重要的文本和视觉信息，为其他智能体提供指导。
文本智能体（Text Agent）：专注于文本信息的分析，从文本中提取与问题相关的细节。
图像智能体（Image Agent）：专注于图像信息的分析，从图像中提取与问题相关的视觉细节。
总结智能体（Summarizing Agent）：综合所有智能体的输出，生成最终的答案。

MDocAgent架构

MDocAgent 通过多模态多智能体的协同工作，实现对文档内容的全面理解。
该框架不仅关注文本和图像信息的独立分析，还强调跨模态信息的融合与推理。
通过将文档预处理、多模态上下文检索、关键信息提取、专门智能体处理以及答案合成等步骤有机结合，MDocAgent 能够在复杂的文档环境中，精准地定位和整合关键信息，从而生成准确的答案。

文档预处理：

文档预处理的目的是，将文档转换为适合后续分析的格式。
对于文档中的每一页，使用 OCR 技术识别图像中的文本内容，同时通过 PDF 解析技术提取数字化文本。
将提取的文本表示为文本段落序列，每个段落包含一页中的部分或全部文本。
同时，将每一页的原始图像保留下来，以便后续的视觉分析。

多模态上下文检索：

多模态上下文检索阶段的目标是，从文档中检索与问题最相关的文本和图像信息。
使用 ColBERT 对文档中的文本段落进行索引，并根据问题检索出最相关的文本段落。
使用 ColPali 对文档中的图像页面进行处理，生成视觉嵌入向量，并根据问题检索出最相关的图像页面。
通过比较文本和图像的相关性得分，选择最相关的文本段落和图像页面作为后续分析的上下文。
这一阶段通过结合文本和图像检索，为后续的智能体分析提供了丰富的上下文信息。

关键信息提取：

关键信息提取阶段目的是，从检索到的上下文中提取对回答问题至关重要的信息。
通用智能体对检索到的文本和图像信息进行初步分析，生成初步答案。
关键信息提取智能体则进一步分析这些信息，提取出对回答问题至关重要的文本和视觉信息。
提取的关键信息将作为后续专门智能体处理的输入，指导它们的分析过程。
这一阶段通过提取关键信息，为后续的专门智能体处理提供明确的指导，提高系统的效率和准确性。

专门智能体处理：

专门智能体处理的目的是，对提取的关键信息进行深入分析。
文本智能体接收提取的关键文本信息和相关的文本上下文，通过分析文本内容，生成详细的文本答案。
图像智能体接收提取的关键视觉信息和相关的图像上下文，通过分析图像内容，生成详细的视觉答案。
文本智能体和图像智能体分别从文本和图像的角度对问题进行分析，生成的答案将作为后续答案合成阶段的输入。
这一阶段通过专门智能体的协同工作，实现对文本和图像信息的深入分析，为最终答案的生成提供了丰富的依据。

答案合成：

答案合成阶段目的是，综合所有智能体的输出，生成最终的答案。
总结智能体接收来自通用智能体、文本智能体和图像智能体的答案。
总结智能体分析这些答案，识别其中的共同点、差异和互补信息。
总结智能体根据这些分析结果，生成一个综合性的答案，该答案不仅考虑了文本和图像信息，还考虑了它们之间的关系。
这一阶段通过综合分析所有智能体的输出，生成了一个全面且准确的答案。

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1

案例1

要求比较文档中两个不同拉丁裔群体的人口数量：外国出生的拉丁裔和通过手机采访的拉丁裔。
文档中包含了相关的文本描述和表格数据，但这些信息分散在不同的位置，需要同时从文本和图像中提取并整合。

检索阶段：

ColBERT 和 ColPali 成功检索到了包含相关信息的页面，但仅检索到页面是不够的，还需要进一步分析页面中的具体内容。
ColBERT：仅依赖文本信息，未能准确解析文本中的数值数据，错误地得出“外国出生的拉丁裔人口更多”的结论。
M3DocRAG：虽然结合了文本和图像信息，但由于缺乏对关键信息的细致提取和跨模态整合能力，未能正确回答问题。
MDocAgent 通过多模态上下文检索，同时利用文本和图像信息，避免了单一模态方法的局限性。

初步分析与关键信息提取：

通用智能体（General Agent）生成了一个初步但较为模糊的答案，指出“通过手机采访的拉丁裔人口更多”。

关键信息提取智能体（Critical Agent）识别出关键信息，包括文本中的“外国出生（排除波多黎各）”和图像中的“手机抽样框架”表格。
专门智能体处理：

文本智能体（Text Agent）根据关键信息提取智能体提供的线索，从文本中提取到“外国出生（排除波多黎各）的人数为 795”。
图像智能体（Image Agent）从表格中提取到“通过手机采访的人数为 1051”。

答案合成：

总结智能体（Summarizing Agent）整合所有智能体的输出，生成最终答案：“通过手机采访的拉丁裔人数（1051）大于外国出生的拉丁裔人数（795）”。

案例2：

要求从一个列表中识别出唯一一个没有包含人员的相应图像的原因。
文档中包含了一个关于 NTU 智慧校园的列表，但列表没有明确编号，且每个原因旁边都有相应的图像。

检索阶段：

ColBERT 未能检索到正确的证据页面，导致 ColBERT + Llama-3.1-8B 无法回答问题。
ColPali 成功检索到了包含证据的页面，但由于缺乏对关键信息的细致提取和跨模态整合能力，未能正确回答问题。
MDocAgent 通过多模态检索，成功定位到包含关键信息的页面。

初步分析与关键信息提取：

通用智能体（General Agent）生成了一个初步答案，但未能准确识别。
关键信息提取智能体（Critical Agent）识别出关键文本线索“Most Beautiful Campus”和相应的视觉元素（NTU 校园的图像）。

专门智能体处理：

文本智能体（Text Agent）根据关键信息提取智能体提供的线索，尝试从文本中找到相关信息，但由于文本中没有明确的列表编号，未能直接找到答案。
图像智能体（Image Agent）利用关键信息，正确识别出“NTU campus without people”作为答案。

答案合成：

总结智能体（Summarizing Agent）综合所有智能体的输出，最终确定答案为“Most Beautiful Campus”，并指出该原因的图像中没有人员

案例3：

要求从文档中识别出 Professor Lebour 的学位。
文档中包含相关文本描述和图像，但信息分散在不同的位置，需要同时从文本和图像中提取并整合。

检索阶段：

ColBERT 成功检索到了包含相关信息的页面，但 ColBERT + Llama-3.1-8B 在生成答案时错误地将 “F.G.S.” 识别为一个学位，导致答案不准确。
ColPali 未能检索到正确的页面，导致 M3DocRAG 无法回答问题。
MDocAgent 通过多模态检索，成功定位到包含关键信息的页面。

初步分析与关键信息提取：

通用智能体（General Agent）生成了一个初步答案，但未能准确识别所有信息，错误地将 “F.G.S.” 识别为一个学位。
关键信息提取智能体（Critical Agent）识别出关键文本线索 “M.A.”，并从图像中提取了相关的视觉线索。

专门智能体处理：

文本智能体（Text Agent）根据关键信息提取智能体提供的线索，从文本中提取到 “G. A. Lebour, M.A., F.G.S.”，并确认 “M.A.” 是一个学位。
图像智能体（Image Agent）利用关键信息，确认图像中没有提供额外的学位信息，但支持文本中的 “M.A.”。

答案合成：

总结智能体（Summarizing Agent）综合所有智能体的输出，最终确定答案为 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

小参数，大能力 | 星际视觉语言大模型再进化，0.8B轻量版正式发布

2026-06-16

RapidOCR: 从 setup.py 迁移到 pyproject.toml 打包实践

2026-06-12

PaddleOCR 3.7 正式接入ONNX Runtime，一个参数换后端，轻量部署新选择

2026-06-11

本地部署OCR，可能是AI进单位的第一道门

2026-06-08

正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型

2026-05-30

还在用 MinerU 解析 PDF？这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%，速度还快 3.68 倍

2026-05-30

Qwen-VLA：迈向通用具身智能的统一动作框架

2026-05-25

罗福莉说的“伪多Agent”，我试了OmniWork后发现，真全干专家长这样

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-22

震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

2026-04-01

全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模

2026-04-02

一个神奇的视频生成 Skills，实测，狂喜

2026-04-27

用Claude Code剪视频，自动去口癖、加字幕、调色，完全免费开源

2026-04-21

豆包「打电话」升级 Seeduplex：周围再吵，只认准你的声音

2026-04-09

千问发布Qwen3.5-Omni全模态模型，超越Gemini3.1 Pro？附实测~

2026-03-31

刚刚，李飞飞最新成果发布，手机也能跑亿级粒子的 3D 世界了｜附体验地址

2026-04-15

GLM-5V-Turbo：多模态Coding，图像即代码

2026-04-02

千人千面，精控调色，更懂你的Wan2.7-Image来了

2026-04-01

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部