微信扫码
添加专属顾问
我要投稿
Dify v1.11.0 突破性实现多模态知识检索,让AI真正看懂图文内容,企业文档处理迎来全新升级。核心内容: 1. 统一语义空间技术实现图文跨模态检索 2. 支持主流云厂商与开源生态的多模态模型 3. 完整RAG路径实现从"语义匹配"到"图片理解"的进化
翻开任何一份企业文档,你会发现知识从来不只是文字。产品说明书中有实拍图,技术报告附带架构图,各类培训手册和操作指南也包含大量截图。这些视觉内容承载的信息量往往不亚于文字本身。
尽管多模态 Embedding 能力早已出现,真正将其落地到知识库产品中的方案并不多见。企业要么自行构建复杂的跨模态处理链路,将图片与文本分开处理后再尝试融合;要么暂时搁置图片,仅依赖文本检索。两种方式都有明显局限。
现在,dify 知识库正式支持多模态能力。文本与图片能够被统一理解、共同检索,并直接用于 Workflow 应用的构建。AI Agent 从知识库获取的上下文不再局限于文字,而是可以看见图片内容、理解其中的信息,并据此作出回答。
核心突破:统一语义空间
从 Dify v1.11.0 开始,我们引入统一语义空间的多模态向量,让图片和文本 Embedding 具有共同的语义坐标体系,使得“以图搜文、以文搜图、以图搜图”成为现实,提升用户检索准确度。
多模态支持:在最新版本中,系统可自动提取文档中通过 Markdown 语法引用、且链接可访问的图片(支持 JPG、PNG、GIF,单图不超过 2MB)。而选择多模态嵌入模型后,这些图片将进一步进行向量化处理,与文本一同参与检索。
广泛的模型生态: 在模型侧,Dify 支持多家云厂商与开源生态的多模态 Embedding 和 Rerank 模型,例如:AWS Bedrock、Google Vertex AI、Jina、通义等,支持的多模态模型在面板中都会带有统一的 VISION 标识,便于识别和选择。
从“语义匹配”到“图片理解”
直观捕捉用户意图:用户不仅可以用自然语言描述问题需求和特征,还可以上传相关图片,同时检索语义相关的文本和图片,帮助用户快速定位要点信息。
更完整的 RAG 推理路径:在使用支持 VISION 的 LLM 生成回答时,AI 不再局限于文本引用,还可以将相关配图一并带入推理过程,根据图片中的细节进行解释,让回答更贴近用户需求。
技术价值
为什么 RAG 离不开 Embedding 与 Rerank 的协同?
在广义的 RAG 架构中,信息历经“切片-索引-召回-重排-生成”的完整路径后,实现了从散落文档到精准信息流的转化,这一过程体现了 RAG 的本质:信息的精准筛选与深度理解,在这个过程中,Embedding 与 Rerank 缺一不可:
多模态 Embedding
可以把多模态内容映射到向量空间里,用信息相似度完成第一轮快速召回匹配,这决定了你的问题能否被精准匹配到相关知识库内容,同时在面对海量内容,要怎么快速定位到相关内容。
多模态 Rerank
在召回基础上,进一步评估文本与图片的相关性,确保关键图文证据排在最前,让 LLM 拿到最匹配的上下文。
场景实例
多模态知识库实现“看图答疑”助手
用户可以使用自然语言描述需求,上传真实场景图片,使其实现 “检索-识别-分析-回答”的一体化流程。
Step 1:创建多模态知识库并导入用户手册
1. 文档导入:
新建知识库,上传《产品功能手册》
2. 知识库配置:
选择带有 VISION 标识的多模态 Embedding 模型以及 Rerank 模型,可以看到此时预览区已将图片做了初步处理
在本次更新中,我们在知识库面板中增加多模态标识 VISION,提升了标签管理
3. 检查图片解析情况:
在知识库中,图片可在分段级别进行管理与编辑,用户还可以上传自定义图片作为附件补充内容。
当知识库配置为多模态 Embedding 模型时,图片会被向量化并参与检索。
若配置的是纯文本 Embedding 模型,图片则仅作为附件提供给 LLM,在检索阶段不会参与向量匹配。
4. 测试召回效果:
我们使用一张产品真实照片做了一次召回测试:
直接上传耳机实拍图作为查询条件,系统从产品使用手册中召回了多个高度相关的分块,不仅命中了对应章节的文字说明,还将手册里相关的结构示意图、配件图一起召回出来,验证了多模态 Embedding 图片索引能力,并借助多模态 Rerank 保证最相关的图文结果排在最前。
Step 2:搭建 Workflow 实现流程化查询
构造 Workflow 以实现以图搜图,本篇内容以用户上传实际用处场景,借助 LLM 进行实际问题分析。
用户输入进行分支判断
设置用户输入节点,接收用户问题描述和图片信息,并用分支节点做一个简单判断:如果问题属于知识库可覆盖的范围,就走“检索 + 分析”的路径;否则走其 LLM 逻辑,进一步补充信息,也可以增加新的节点选择,比如连接到工单系统,提示人工处理。
知识检索节点
如果说 LLM 是整个流程的“大脑”,那么知识检索就是流程中的“小抄”,在这个步骤中,我们引入用户输入变量,让 Workflow 根据用户问题从知识库里找回最相关的图文分块,为分析提供补充依据,同时相关的图片信息也会在日志中体现。
配置 LLM 节点
对于整个流程的“大脑”,多模态功能的增加让 Workflow 的可用性极大提高:只需开启 Vision 模式,选择图片上传变量,LLM 就能从你上传的图片中提取关键信息,并结合任务需求进一步分析与定位问题。
变量聚合以及结果输出
最后,我们采用变量聚合节点把前序检索结果以及 LLM 分析结论汇总,输出为一条结构清晰、可执行的答案。
结语
从单一文本走向多模态全量检索
多模态知识库的上线,标志着 Dify 功能正在从单一的文本知识检索工具,迈向一个更完整的企业知识理解与自动化平台。
它不再仅仅是“看懂”一张图,而是将视觉信息转化为流程上下文,在此基础上参与推理,无论是查询技术实践、下发自动通知,还是驱动复杂的业务 Workflow,让你的 Agent 不再只是被动回答问题,而是基于真实世界的信息做出判断、分析并执行任务,成为企业中真正可落地、可信赖的智能执行体。
END
🥳
如果你喜欢 Dify,欢迎:
体验 Dify 云端版本:https://dify.ai/
在 GitHub 上给我们点亮:支持我们的开源项目
https://github.com/langgenius/dify
贡献代码,和我们一起打造更强大的 Dify:你的每一行代码都能让 Dify 更加完美。
通过社交媒体和线下活动:分享 Dify 与你的使用心得,让更多人受益于这个强大的工具。
我们正在招聘,简历请投至 joinus@dify.ai。
职位详情见:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-23
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify
2025-12-21
你的知识库为什么总搜不到答案?试试Dify这个“隐藏开关”
2025-12-21
怎样选择Dify工作流中的OCR工具?
2025-12-20
Dify回退版本翻车,你遇到了吗?
2025-12-18
Aiops探索:在n8n工作流里调用Dify应用API
2025-12-17
Dify 从不被看好到 GitHub Top 50 的项目,垄断日本市场,它到底做对了什么
2025-12-17
Dify如何接入本地大模型?
2025-12-17
Aiops探索:这个场景我决定放弃n8n而是选择Dify
2025-10-13
2025-12-05
2025-12-08
2025-10-12
2025-11-09
2025-11-11
2025-09-30
2025-11-20
2025-12-05
2025-10-16