我要投稿

Dify v1.11.0：知识库支持多模态检索

发布日期：2025-12-25 19:11:06 浏览次数： 2137

作者：Dify

微信搜一搜，关注“Dify”

翻开任何一份企业文档，你会发现知识从来不只是文字。产品说明书中有实拍图，技术报告附带架构图，各类培训手册和操作指南也包含大量截图。这些视觉内容承载的信息量往往不亚于文字本身。

尽管多模态 Embedding 能力早已出现，真正将其落地到知识库产品中的方案并不多见。企业要么自行构建复杂的跨模态处理链路，将图片与文本分开处理后再尝试融合；要么暂时搁置图片，仅依赖文本检索。两种方式都有明显局限。

现在，dify 知识库正式支持多模态能力。文本与图片能够被统一理解、共同检索，并直接用于 Workflow 应用的构建。AI Agent 从知识库获取的上下文不再局限于文字，而是可以看见图片内容、理解其中的信息，并据此作出回答。

核心突破：统一语义空间

从 Dify v1.11.0 开始，我们引入统一语义空间的多模态向量，让图片和文本 Embedding 具有共同的语义坐标体系，使得“以图搜文、以文搜图、以图搜图”成为现实，提升用户检索准确度。

多模态支持：在最新版本中，系统可自动提取文档中通过 Markdown 语法引用、且链接可访问的图片（支持 JPG、PNG、GIF，单图不超过 2MB）。而选择多模态嵌入模型后，这些图片将进一步进行向量化处理，与文本一同参与检索。

广泛的模型生态： 在模型侧，Dify 支持多家云厂商与开源生态的多模态 Embedding 和 Rerank 模型，例如：AWS Bedrock、Google Vertex AI、Jina、通义等，支持的多模态模型在面板中都会带有统一的 VISION 标识，便于识别和选择。

从“语义匹配”到“图片理解”

直观捕捉用户意图：用户不仅可以用自然语言描述问题需求和特征，还可以上传相关图片，同时检索语义相关的文本和图片，帮助用户快速定位要点信息。
更完整的 RAG 推理路径：在使用支持 VISION 的 LLM 生成回答时，AI 不再局限于文本引用，还可以将相关配图一并带入推理过程，根据图片中的细节进行解释，让回答更贴近用户需求。

技术价值

为什么 RAG 离不开 Embedding 与 Rerank 的协同？

在广义的 RAG 架构中，信息历经“切片-索引-召回-重排-生成”的完整路径后，实现了从散落文档到精准信息流的转化，这一过程体现了 RAG 的本质：信息的精准筛选与深度理解，在这个过程中，Embedding 与 Rerank 缺一不可：

多模态 Embedding

可以把多模态内容映射到向量空间里，用信息相似度完成第一轮快速召回匹配，这决定了你的问题能否被精准匹配到相关知识库内容，同时在面对海量内容，要怎么快速定位到相关内容。

多模态 Rerank

在召回基础上，进一步评估文本与图片的相关性，确保关键图文证据排在最前，让 LLM 拿到最匹配的上下文。

场景实例

多模态知识库实现“看图答疑”助手

用户可以使用自然语言描述需求，上传真实场景图片，使其实现 “检索-识别-分析-回答”的一体化流程。

Step 1：创建多模态知识库并导入用户手册

1. 文档导入：

新建知识库，上传《产品功能手册》

2. 知识库配置：

选择带有 VISION 标识的多模态 Embedding 模型以及 Rerank 模型，可以看到此时预览区已将图片做了初步处理

在本次更新中，我们在知识库面板中增加多模态标识 VISION，提升了标签管理

3. 检查图片解析情况：

在知识库中，图片可在分段级别进行管理与编辑，用户还可以上传自定义图片作为附件补充内容。

当知识库配置为多模态 Embedding 模型时，图片会被向量化并参与检索。

若配置的是纯文本 Embedding 模型，图片则仅作为附件提供给 LLM，在检索阶段不会参与向量匹配。

4. 测试召回效果：

我们使用一张产品真实照片做了一次召回测试：

直接上传耳机实拍图作为查询条件，系统从产品使用手册中召回了多个高度相关的分块，不仅命中了对应章节的文字说明，还将手册里相关的结构示意图、配件图一起召回出来，验证了多模态 Embedding 图片索引能力，并借助多模态 Rerank 保证最相关的图文结果排在最前。

Step 2：搭建 Workflow 实现流程化查询

构造 Workflow 以实现以图搜图，本篇内容以用户上传实际用处场景，借助 LLM 进行实际问题分析。

用户输入进行分支判断

设置用户输入节点，接收用户问题描述和图片信息，并用分支节点做一个简单判断：如果问题属于知识库可覆盖的范围，就走“检索 + 分析”的路径；否则走其 LLM 逻辑，进一步补充信息，也可以增加新的节点选择，比如连接到工单系统，提示人工处理。

知识检索节点

如果说 LLM 是整个流程的“大脑”，那么知识检索就是流程中的“小抄”，在这个步骤中，我们引入用户输入变量，让 Workflow 根据用户问题从知识库里找回最相关的图文分块，为分析提供补充依据，同时相关的图片信息也会在日志中体现。

配置 LLM 节点

对于整个流程的“大脑”，多模态功能的增加让 Workflow 的可用性极大提高：只需开启 Vision 模式，选择图片上传变量，LLM 就能从你上传的图片中提取关键信息，并结合任务需求进一步分析与定位问题。

变量聚合以及结果输出

最后，我们采用变量聚合节点把前序检索结果以及 LLM 分析结论汇总，输出为一条结构清晰、可执行的答案。

结语

从单一文本走向多模态全量检索

多模态知识库的上线，标志着 Dify 功能正在从单一的文本知识检索工具，迈向一个更完整的企业知识理解与自动化平台。

它不再仅仅是“看懂”一张图，而是将视觉信息转化为流程上下文，在此基础上参与推理，无论是查询技术实践、下发自动通知，还是驱动复杂的业务 Workflow，让你的 Agent 不再只是被动回答问题，而是基于真实世界的信息做出判断、分析并执行任务，成为企业中真正可落地、可信赖的智能执行体。

END

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-10

Dify 官方上架 Higress 插件，轻松接入 AI 网关访问模型服务

2026-02-06

Dify 1.12.0：Summary Index，从碎片检索到完整上下文

2026-01-26

Dify 官方上架 Nacos A2A 插件，补全双向多智能体协作能力

2026-01-16

Dify × PaddleOCR：强强联手，深度集成重塑 Agent 工作流智能文档底座

2026-01-14

刚刚，Dify v1.11.3发布，看看是否需要升级？

2026-01-11

五步框架：把 Workflow 变成可进化的 Skill

2026-01-08

dify v1.11.2 又又三个坑，别踩了！

2026-01-06

Dify v1.11.2 今天又发现来3个缺陷，看看有什么影响？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

【紧急预警】Dify 用户速看：Next.js 爆 CVSS 10.0 核弹级漏洞，已被真实验证攻击

2025-12-05

核弹级漏洞！Dify中招，刻不容缓，立即修复！

2025-12-08

Dify 自建部署完全指南：从上手到放弃到真香

2025-11-20

Dify v1.10.1-fix.1 版本紧急发布！

2025-12-05

五步框架：把 Workflow 变成可进化的 Skill

2026-01-11

深夜：Dify 1.10.0事件驱动工作流程正式发布了

2025-11-14

dify 1.10.0 Event-Driven Workflows 版本发布：全新 Trigger 触发器与升级指南详解

2025-11-17

Dify 2025年技术演进总结，有你钟意的亮点吗？

2025-11-29

Dify v1.10.1升级到Dify v1.10.1-fix.1遇到了唯一问题！

2025-12-10

Dify应用开发指南：提示词工程VS上下文工程

2025-11-15

大家都在问

刚刚，Dify v1.11.3发布，看看是否需要升级？

2026-01-14

Dify v1.11.2 今天又发现来3个缺陷，看看有什么影响？

2026-01-06

怎样选择Dify工作流中的OCR工具？

2025-12-21

Dify回退版本翻车，你遇到了吗？

2025-12-20

Dify如何接入本地大模型？

2025-12-17

Dify 2025年技术演进总结，有你钟意的亮点吗？

2025-11-29

重大消息，刚刚Dify 1.9.1发布了！我们聊聊带来了哪些吸引人的功能特性？

2025-09-30

刚刚Dify 1.9.0正式发布，快看看有哪些新变化？

2025-09-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean