免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Dify v1.11.0:知识库支持多模态检索

发布日期:2025-12-25 19:11:06 浏览次数: 1518
作者:Dify

微信搜一搜,关注“Dify”

推荐语

Dify v1.11.0 突破性实现多模态知识检索,让AI真正看懂图文内容,企业文档处理迎来全新升级。

核心内容:
1. 统一语义空间技术实现图文跨模态检索
2. 支持主流云厂商与开源生态的多模态模型
3. 完整RAG路径实现从"语义匹配"到"图片理解"的进化

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

翻开任何一份企业文档,你会发现知识从来不只是文字。产品说明书中有实拍图,技术报告附带架构图,各类培训手册和操作指南也包含大量截图。这些视觉内容承载的信息量往往不亚于文字本身。


尽管多模态 Embedding 能力早已出现,真正将其落地到知识库产品中的方案并不多见。企业要么自行构建复杂的跨模态处理链路,将图片与文本分开处理后再尝试融合;要么暂时搁置图片,仅依赖文本检索。两种方式都有明显局限。


现在,dify 知识库正式支持多模态能力。文本与图片能够被统一理解、共同检索,并直接用于 Workflow 应用的构建。AI Agent 从知识库获取的上下文不再局限于文字,而是可以看见图片内容、理解其中的信息,并据此作出回答。


核心突破:统一语义空间


从 Dify v1.11.0 开始,我们引入统一语义空间的多模态向量,让图片和文本 Embedding 具有共同的语义坐标体系,使得“以图搜文、以文搜图、以图搜图”成为现实,提升用户检索准确度。


  • 多模态支持:在最新版本中,系统可自动提取文档中通过 Markdown 语法引用、且链接可访问的图片(支持 JPG、PNG、GIF,单图不超过 2MB)。而选择多模态嵌入模型后,这些图片将进一步进行向量化处理,与文本一同参与检索。


  • 广泛的模型生态: 在模型侧,Dify 支持多家云厂商与开源生态的多模态 Embedding 和 Rerank 模型,例如:AWS Bedrock、Google Vertex AI、Jina、通义等,支持的多模态模型在面板中都会带有统一的 VISION 标识,便于识别和选择。 


从“语义匹配”到“图片理解”

  • 直观捕捉用户意图:用户不仅可以用自然语言描述问题需求和特征,还可以上传相关图片,同时检索语义相关的文本和图片,帮助用户快速定位要点信息。


  • 更完整的 RAG 推理路径:在使用支持 VISION 的 LLM 生成回答时,AI 不再局限于文本引用,还可以将相关配图一并带入推理过程,根据图片中的细节进行解释,让回答更贴近用户需求。


技术价值

为什么 RAG 离不开 Embedding 与 Rerank 的协同?


在广义的 RAG 架构中,信息历经“切片-索引-召回-重排-生成”的完整路径后,实现了从散落文档到精准信息流的转化,这一过程体现了 RAG 的本质:信息的精准筛选与深度理解,在这个过程中,Embedding 与 Rerank 缺一不可:

1

多模态 Embedding 

可以把多模态内容映射到向量空间里,用信息相似度完成第一轮快速召回匹配,这决定了你的问题能否被精准匹配到相关知识库内容,同时在面对海量内容,要怎么快速定位到相关内容。

2

多模态 Rerank 

在召回基础上,进一步评估文本与图片的相关性,确保关键图文证据排在最前,让 LLM 拿到最匹配的上下文。


场景实例

多模态知识库实现“看图答疑”助手


用户可以使用自然语言描述需求,上传真实场景图片,使其实现 “检索-识别-分析-回答”的一体化流程。


Step 1:创建多模态知识库并导入用户手册

1. 文档导入:

新建知识库,上传《产品功能手册》

2. 知识库配置:

选择带有 VISION 标识的多模态 Embedding 模型以及 Rerank 模型,可以看到此时预览区已将图片做了初步处理


在本次更新中,我们在知识库面板中增加多模态标识 VISION,提升了标签管理



3. 检查图片解析情况:

在知识库中,图片可在分段级别进行管理与编辑,用户还可以上传自定义图片作为附件补充内容。

  • 当知识库配置为多模态 Embedding 模型时,图片会被向量化并参与检索。

  • 若配置的是纯文本 Embedding 模型,图片则仅作为附件提供给 LLM,在检索阶段不会参与向量匹配。


4. 测试召回效果:

我们使用一张产品真实照片做了一次召回测试:

直接上传耳机实拍图作为查询条件,系统从产品使用手册中召回了多个高度相关的分块,不仅命中了对应章节的文字说明,还将手册里相关的结构示意图、配件图一起召回出来,验证了多模态 Embedding 图片索引能力,并借助多模态 Rerank 保证最相关的图文结果排在最前。



Step 2:搭建 Workflow 实现流程化查询

构造 Workflow 以实现以图搜图,本篇内容以用户上传实际用处场景,借助 LLM 进行实际问题分析。


  1. 用户输入进行分支判断

设置用户输入节点,接收用户问题描述和图片信息,并用分支节点做一个简单判断:如果问题属于知识库可覆盖的范围,就走“检索 + 分析”的路径;否则走其 LLM 逻辑,进一步补充信息,也可以增加新的节点选择,比如连接到工单系统,提示人工处理。


  1. 知识检索节点

如果说 LLM 是整个流程的“大脑”,那么知识检索就是流程中的“小抄”,在这个步骤中,我们引入用户输入变量,让 Workflow 根据用户问题从知识库里找回最相关的图文分块,为分析提供补充依据,同时相关的图片信息也会在日志中体现。


  1. 配置 LLM 节点

对于整个流程的“大脑”,多模态功能的增加让 Workflow 的可用性极大提高:只需开启 Vision 模式,选择图片上传变量,LLM 就能从你上传的图片中提取关键信息,并结合任务需求进一步分析与定位问题。


  1. 变量聚合以及结果输出

最后,我们采用变量聚合节点把前序检索结果以及 LLM 分析结论汇总,输出为一条结构清晰、可执行的答案。


结语

从单一文本走向多模态全量检索


多模态知识库的上线,标志着 Dify 功能正在从单一的文本知识检索工具,迈向一个更完整的企业知识理解与自动化平台。


它不再仅仅是“看懂”一张图,而是将视觉信息转化为流程上下文,在此基础上参与推理,无论是查询技术实践、下发自动通知,还是驱动复杂的业务 Workflow,让你的 Agent 不再只是被动回答问题,而是基于真实世界的信息做出判断、分析并执行任务,成为企业中真正可落地、可信赖的智能执行体。

END

🥳

如果你喜欢 Dify,欢迎:

  • 体验 Dify 云端版本:https://dify.ai/

  • 在 GitHub 上给我们点亮:支持我们的开源项目

https://github.com/langgenius/dify

  • 贡献代码,和我们一起打造更强大的 Dify:你的每一行代码都能让 Dify 更加完美。

  • 通过社交媒体和线下活动:分享 Dify 与你的使用心得,让更多人受益于这个强大的工具。

  • 我们正在招聘,简历请投至 joinus@dify.ai

  • 职位详情见:

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询