我要投稿

港大新作：多模态RAG，支持图、文、表、公式等8种文档格式

发布日期：2025-07-01 12:20:42 浏览次数： 2548

作者：CourseAI

微信搜一搜，关注“CourseAI”

RAG-Anything能处理和查询包含文本、图像、表格、公式等多模态内容的复杂文档的图RAG。

是在LightRAG基础上扩展的，LightRAG也真是火爆17.8K星了。

RAG-Anything继承了LightRAG架构，整体如下：

文档解析阶段

集成 MinerU 文档解析框架
自动识别并提取文档中的文本块、图像、表格、公式等异构元素，保持元素间的语义关联关系。
支持PDF、Office文档系列（DOC/DOCX/PPT/PPTX/XLS/XLSX）、图像等主流格式的统一处理与标准化输出。

多模态内容理解与处理

通过自主分类路由机制实现异构内容的智能识别与优化分发。
自动识别、分类并将不同内容类型路由至优化的执行通道。
通过专用处理流水线实现文本和多模态内容的并发执行。这种方法在保持内容完整性的同时最大化吞吐效率。

多模态分析

为自定义和新兴内容类型提供可配置的处理框架
通过插件架构实现新模态处理器的动态集成
支持专用场景下处理流水线的运行时配置

高精度解析复杂数学表达式和公式
提供原生LaTeX格式支持以实现与学术工作流的无缝集成
建立数学方程与领域特定知识库间的概念映射

对表格和结构化数据格式进行系统性解释
实现数据趋势分析的统计模式识别算法
识别多个表格数据集间的语义关系和依赖性

图像分析和内容识别
视觉语义生成上下文感知的描述性标题
提取视觉元素间的空间关系和层次结构

视觉内容分析,包括：
结构化数据分析
数学表达式解析
可扩展模态

创建多模态知识图谱

多模态实体提取：将重要的多模态元素转换为结构化知识图谱实体。该过程包括语义标注和元数据保存。
跨模态关系映射：在文本实体和多模态组件之间建立语义连接和依赖关系。通过自动化关系推理算法实现这一功能。
层次结构保持：通过"归属于"关系链维护原始文档组织结构。这些关系链保持逻辑内容层次和章节依赖关系。
加权关系评分：为关系类型分配定量相关性分数。评分基于语义邻近性和文档结构内的上下文重要性。

多模态检索

向量-图谱融合：集成向量相似性搜索与图遍历算法。该方法同时利用语义嵌入和结构关系实现全面的内容检索。
模态感知排序：实现基于内容类型相关性的自适应评分机制。系统根据查询特定的模态偏好调整排序结果。
关系一致性维护：维护检索元素间的语义和结构关系。确保信息传递的连贯性和上下文完整性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-24

当软件不值钱了以后，最稀缺的资源是什么？

2026-02-24

OpenAI Codex负责人：我们熟悉的编程方式正在终结 | Jinqiu Select

2026-02-24

OpenClaw 最佳实践：5条“基本原则”

2026-02-24

春节归来第一天，Second Me 做了一个「Agent 互联网的 App Store」

2026-02-24

万字深度解读 MCP Apps：重构 Web 应用，开启 AI 助手的“小程序”时代。

2026-02-24

AI Agent系列｜什么是 ReAct Agent？

2026-02-24

刚刚，Anthropic深夜大点名，这三家中国公司进行蒸馏攻击？！

2026-02-23

Claude Code如何突破白领工业革命

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

深度解读：OpenClaw 架构及生态

2026-02-03

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

从安装到运行：手把手教你用Clawdbot完成第一个智能任务

2026-01-27

大家都在问

当软件不值钱了以后，最稀缺的资源是什么？

2026-02-24

AI Agent系列｜什么是 ReAct Agent？

2026-02-24

OpenClaw "卷"疯了！四天3版！2.14-2.17 版本更新了啥？

2026-02-20

一切皆可Agent Skills，无处不在的AI Agent会替代业务流程吗？

2026-02-14

context是什么？怎么用？

2026-02-13

模型能力、提示词、Skill、工作流、Vibe Coding——到底都是什么？

2026-02-12

谷歌Chrome深夜爆更，Agent不用「装」人了！前端最后防线崩了？

2026-02-12

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

2026-02-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean