我要投稿

聊聊在Dify上如何做高效RAG&集成Milvus向量库存储检索的原理

发布日期：2025-07-17 16:29:56 浏览次数： 2129

作者：阿郎小哥的随笔驿站

微信搜一搜，关注“阿郎小哥的随笔驿站”

向量模型的配置

在 Nvidia A10 等机器上，基于 Ollama、xinference 等中间件部署向量模型，目前向量模型的选型暂定为 bge-m3、bge-reranker-v2-m3；然后在 dify 内引入即可。

Dify 写入 Milvus 原理

基于配置的向量模型，通过特定的中间件 SDK 或是标准的 OpenAPI，Dify 将文档数据实时写入到 Milvus 中存储，并用于后续的检索。

知识检索节点

用于引入 RAG。在 Dify 知识库模块配置好文档的检索等参数后，直接在如下的知识库中引入即可。

知识库模块

知识检索节点->引入知识库

元数据过滤。基础维度的数据过滤，默认的元数据在已导入的知识库中配置，如此知识索引节点便可引入元数据。

知识库的配置&Milvus 向量存储

知识库的配置，直接决定了 Miluv 向量的存储，即配置好了知识库，Dify 通过预先配置的模型提供商中的 Text Embedding 模型与 Reranker 模型，以及相应的 OpenAPI 或中间件特定 SDK 接口（譬如 Mivlus 有自己的 client sdk）。

如上导入完文档后，Dify 就会生成知识库，同时会将文档转换为 Embedding，并写入到 Milvus 的 Collection 内。

默认是单数据库多 Collection。与传统关系型数据库的对应关系是，Milvus 库->Mysql 库，Milvus Collection-> Mysql Table。

而在 Dify 的知识库内不断的导入文件，则是往当前的 Collection 内写入数据。

LLM 的协同

什么是 LLM 的协同，这个协同严格来说，是指 Prompt 的组装；即 RAG 检索的内容与预设的 prompt 组装成最终的 Prompt，作为提示词输入到 LLM 中返回响应，但这里就存在两个问题：

RAG 检索到的不太相关的文档，对 LLM 的输出反而会产生影响。
并不是所有 RAG 检索到的内容，都需要送入到 LLM 中，这种情况下反而会误导 LLM，应该降低无效 RAG 的调用率。

对于第一个问题，解决方案如下：

在 RAG 的配置中，根据检索得分（score）过滤不相关的内容，在 LLM 中，只有 RAG 检索到的高分文档，才引入到 LLM 中作为上下文。

但有个不足，需要处理好预设 Prompt 在 RAG 上下文为空时的提示词。

总的来说，通过 score 限定只有强相关的文档才会被引入到预设 Prompt 中，避免对 LLM 不必要的影响与误导。

第二个问题的场景最典型的是：

query：你是谁？

RAG 文档检索：我是 xxxx。

基于 RAG 的 Prompt 可能就会被 RAG 文档的内容误导，即使此时 RAG 的文档得分很高，其实对于这类问题，应该是由 LLM 自己来回答，而不用每次调用 RAG 检索一遍文档。

因此第二个问题最核心的点是在：避免每次都调用 RAG。而这也是传统 RAG 的弊端。

解决方案一般是如下两个：

基于 Prompt 指导，LLM 自行判断。这也是最常见的方式
Agentic RAG。比较麻烦，不知道 Dify 能否原生的支持；否则的话，就只能用 HTTP 接口调用的方式了。

RAG query 的优化

示例如下：

query："我觉得活着没意思，我想跳桥。"。

RAG 检索（embedding）：

RAG 检索（embedding+reranker）：

即便 RAG 检索引入了语义相关性，但受限于 query，还是有很大的阻碍。

解决方案

query 改写，即引入 LLM 将 query 改写摘要并分类。
标记文档数据，结合上面一点，使得 query 能够更准确的挂靠上文档。

对于这种方案，不仅仅是增强了向量检索的准确度，而且在减少向量调用率上也是非常有用的，即定义某些类别的 query 不需要查询 RAG，而是直接走 LLM。

总结与解决方案

RAG 的引入不是一蹴而就，虽然期间会有很多的问题，如上也阐述了一些；但归根来说，只要将文档数据标记好，并整理好每段的内容长度，再导入向量中。同时改写 query，使得文档的命中率更高，同时避免无谓的 RAG 的调用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-04

搜索的终极形态？向量搜索重构信息检索范式

2025-12-04

RAG 深度解读：检索增强生成如何改变人工智能

2025-12-03

大模型RAG入门宝典｜从AI搜索到实战搭建，小白&程序员必收藏的检索增强指南

2025-12-03

货拉拉RAG优化实践：从原始数据到高质量知识库

2025-12-03

RAG评估:Opik监控追踪RAG应用

2025-12-02

Struct Array 如何让多向量检索返回完整实体？知识库、电商、视频通用|Milvus Week

2025-12-02

企业级 AI Agent规模化落地的避坑指南，就藏在这四大趋势里

2025-12-01

MCP与数据库的完美结合

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

万字长文详解腾讯优图RAG技术的架构设计与创新实践

2025-09-08

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

企业级 RAG 系统实战（2万+文档）：10 个项目踩过的坑（附代码工程示例）

2025-10-11

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

总结了 13 个顶级 RAG 技术

2025-10-12

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

通过两个案例，看RAG如何解决大模型的“知识短板”

2025-09-08

大家都在问

RAG知识库迎来大洗牌：GraphRAG如何让机器真正读懂世界？

2025-11-23

再谈RAG的文档解析——文档解析的难点在哪里？

2025-11-20

为什么RDF是AI系统的“天然知识层”？

2025-11-19

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部