支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Adobe首发多Agent、跨模态框架MDocAgent:复杂文档理解性能爆炸12%,错误率直降21%

发布日期:2025-05-07 18:13:15 浏览次数: 1549 作者:ArronAI
推荐语

Adobe突破性AI技术,MDocAgent多Agent框架,实现文档理解新高度。

核心内容:
1. 复杂文档理解的现有挑战与局限性
2. MDocAgent多Agent框架的创新设计
3. 跨模态信息融合与文档问答性能提升

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

文档问答太难了 

含有丰富文本和视觉元素(如图表、图像等)的长文档,在进行文档问答时,现有的方案有其局限性:

  • 传统的大型语言模型(LLMs)仅能处理文本信息
  • 大型视觉语言模型(LVLMs)虽然能够处理视觉内容,但在处理长文档时往往效率低下,并且难以对文本和视觉信息进行有效的融合与推理。
  • 现有的检索增强生成(RAG)方法虽然能够从长文档中提取关键信息,但它们通常仅依赖于单一模态(文本或图像)进行检索,缺乏跨模态的信息整合能力。

MDocAgent 

5个智能体

MDocAgent通过引入多个专门的智能体(agents),协同处理文本和图像信息,以实现对文档内容的深入理解。 具体而言,MDocAgent 包含以下五个智能体:

  • 通用智能体(General Agent):负责初步的多模态信息整合,为后续的分析提供基础。
  • 关键信息提取智能体(Critical Agent):识别并提取对回答问题至关重要的文本和视觉信息,为其他智能体提供指导。
  • 文本智能体(Text Agent):专注于文本信息的分析,从文本中提取与问题相关的细节。
  • 图像智能体(Image Agent):专注于图像信息的分析,从图像中提取与问题相关的视觉细节。
  • 总结智能体(Summarizing Agent):综合所有智能体的输出,生成最终的答案。

MDocAgent架构

  • MDocAgent 通过多模态多智能体的协同工作,实现对文档内容的全面理解。
  • 该框架不仅关注文本和图像信息的独立分析,还强调跨模态信息的融合与推理。
  • 通过将文档预处理、多模态上下文检索、关键信息提取、专门智能体处理以及答案合成等步骤有机结合,MDocAgent 能够在复杂的文档环境中,精准地定位和整合关键信息,从而生成准确的答案。
  • 文档预处理:
    • 文档预处理的目的是,将文档转换为适合后续分析的格式。
    • 对于文档中的每一页,使用 OCR 技术识别图像中的文本内容,同时通过 PDF 解析技术提取数字化文本。
    • 将提取的文本表示为文本段落序列,每个段落包含一页中的部分或全部文本。
    • 同时,将每一页的原始图像保留下来,以便后续的视觉分析。
  • 多模态上下文检索:
    • 多模态上下文检索阶段的目标是,从文档中检索与问题最相关的文本和图像信息。
    • 使用 ColBERT 对文档中的文本段落进行索引,并根据问题检索出最相关的文本段落。
    • 使用 ColPali 对文档中的图像页面进行处理,生成视觉嵌入向量,并根据问题检索出最相关的图像页面。
    • 通过比较文本和图像的相关性得分,选择最相关的文本段落和图像页面作为后续分析的上下文。
    • 这一阶段通过结合文本和图像检索,为后续的智能体分析提供了丰富的上下文信息。
  • 关键信息提取:
    • 关键信息提取阶段目的是,从检索到的上下文中提取对回答问题至关重要的信息。
    • 通用智能体对检索到的文本和图像信息进行初步分析,生成初步答案。
    • 关键信息提取智能体则进一步分析这些信息,提取出对回答问题至关重要的文本和视觉信息。
    • 提取的关键信息将作为后续专门智能体处理的输入,指导它们的分析过程。
    • 这一阶段通过提取关键信息,为后续的专门智能体处理提供明确的指导,提高系统的效率和准确性。
  • 专门智能体处理:
    • 专门智能体处理的目的是,对提取的关键信息进行深入分析。
    • 文本智能体接收提取的关键文本信息和相关的文本上下文,通过分析文本内容,生成详细的文本答案。
    • 图像智能体接收提取的关键视觉信息和相关的图像上下文,通过分析图像内容,生成详细的视觉答案。
    • 文本智能体和图像智能体分别从文本和图像的角度对问题进行分析,生成的答案将作为后续答案合成阶段的输入。
    • 这一阶段通过专门智能体的协同工作,实现对文本和图像信息的深入分析,为最终答案的生成提供了丰富的依据。
  • 答案合成:
    • 答案合成阶段目的是,综合所有智能体的输出,生成最终的答案。
    • 总结智能体接收来自通用智能体、文本智能体和图像智能体的答案。
    • 总结智能体分析这些答案,识别其中的共同点、差异和互补信息。
    • 总结智能体根据这些分析结果,生成一个综合性的答案,该答案不仅考虑了文本和图像信息,还考虑了它们之间的关系。
    • 这一阶段通过综合分析所有智能体的输出,生成了一个全面且准确的答案。

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1 

案例1

  • 要求比较文档中两个不同拉丁裔群体的人口数量:外国出生的拉丁裔和通过手机采访的拉丁裔。
  • 文档中包含了相关的文本描述和表格数据,但这些信息分散在不同的位置,需要同时从文本和图像中提取并整合。
  • 检索阶段:
    • ColBERT 和 ColPali 成功检索到了包含相关信息的页面,但仅检索到页面是不够的,还需要进一步分析页面中的具体内容。
    • ColBERT:仅依赖文本信息,未能准确解析文本中的数值数据,错误地得出“外国出生的拉丁裔人口更多”的结论。
    • M3DocRAG:虽然结合了文本和图像信息,但由于缺乏对关键信息的细致提取和跨模态整合能力,未能正确回答问题。
    • MDocAgent 通过多模态上下文检索,同时利用文本和图像信息,避免了单一模态方法的局限性。
  • 初步分析与关键信息提取:
    • 通用智能体(General Agent)生成了一个初步但较为模糊的答案,指出“通过手机采访的拉丁裔人口更多”。
  • 关键信息提取智能体(Critical Agent)识别出关键信息,包括文本中的“外国出生(排除波多黎各)”和图像中的“手机抽样框架”表格。
  • 专门智能体处理:
    • 文本智能体(Text Agent)根据关键信息提取智能体提供的线索,从文本中提取到“外国出生(排除波多黎各)的人数为 795”。
    • 图像智能体(Image Agent)从表格中提取到“通过手机采访的人数为 1051”。
  • 答案合成:
    • 总结智能体(Summarizing Agent)整合所有智能体的输出,生成最终答案:“通过手机采访的拉丁裔人数(1051)大于外国出生的拉丁裔人数(795)”。

案例2:

  • 要求从一个列表中识别出唯一一个没有包含人员的相应图像的原因。
  • 文档中包含了一个关于 NTU 智慧校园的列表,但列表没有明确编号,且每个原因旁边都有相应的图像。
  • 检索阶段:
    • ColBERT 未能检索到正确的证据页面,导致 ColBERT + Llama-3.1-8B 无法回答问题。
    • ColPali 成功检索到了包含证据的页面,但由于缺乏对关键信息的细致提取和跨模态整合能力,未能正确回答问题。
    • MDocAgent 通过多模态检索,成功定位到包含关键信息的页面。
  • 初步分析与关键信息提取:
    • 通用智能体(General Agent)生成了一个初步答案,但未能准确识别。
    • 关键信息提取智能体(Critical Agent)识别出关键文本线索“Most Beautiful Campus”和相应的视觉元素(NTU 校园的图像)。
  • 专门智能体处理:
    • 文本智能体(Text Agent)根据关键信息提取智能体提供的线索,尝试从文本中找到相关信息,但由于文本中没有明确的列表编号,未能直接找到答案。
    • 图像智能体(Image Agent)利用关键信息,正确识别出“NTU campus without people”作为答案。
  • 答案合成:
    • 总结智能体(Summarizing Agent)综合所有智能体的输出,最终确定答案为“Most Beautiful Campus”,并指出该原因的图像中没有人员

案例3:

  • 要求从文档中识别出 Professor Lebour 的学位。
  • 文档中包含相关文本描述和图像,但信息分散在不同的位置,需要同时从文本和图像中提取并整合。
  • 检索阶段:
    • ColBERT 成功检索到了包含相关信息的页面,但 ColBERT + Llama-3.1-8B 在生成答案时错误地将 “F.G.S.” 识别为一个学位,导致答案不准确。
    • ColPali 未能检索到正确的页面,导致 M3DocRAG 无法回答问题。
    • MDocAgent 通过多模态检索,成功定位到包含关键信息的页面。
  • 初步分析与关键信息提取:
    • 通用智能体(General Agent)生成了一个初步答案,但未能准确识别所有信息,错误地将 “F.G.S.” 识别为一个学位。
    • 关键信息提取智能体(Critical Agent)识别出关键文本线索 “M.A.”,并从图像中提取了相关的视觉线索。
  • 专门智能体处理:
    • 文本智能体(Text Agent)根据关键信息提取智能体提供的线索,从文本中提取到 “G. A. Lebour, M.A., F.G.S.”,并确认 “M.A.” 是一个学位。
    • 图像智能体(Image Agent)利用关键信息,确认图像中没有提供额外的学位信息,但支持文本中的 “M.A.”。
  • 答案合成:
    • 总结智能体(Summarizing Agent)综合所有智能体的输出,最终确定答案为 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询