我要投稿

RAG 不是先向量检索再回答：Metadata Filter 才是企业知识库的第一道门

发布日期：2026-06-22 13:01:48 浏览次数： 1517

作者：Java开发者的AI笔记

微信搜一搜，关注“Java开发者的AI笔记”

很多 Java 开发者第一次做 RAG，最容易把重点放在向量数据库选型上：到底用 Milvus、pgvector、Elasticsearch 还是 Redis？Embedding 模型怎么选？topK 设多少？

这些都重要，但在企业知识库项目里，另一个问题往往更早暴露：用户问的是同一个问题，系统却把别的部门、别的租户、过期版本、未发布文档一起召回了。

这不是模型能力问题，也不完全是向量数据库问题，而是 RAG 检索链路缺少了一个工程上非常关键的约束：Metadata Filter。

真正的问题不是“搜不到”，而是“搜得太宽”

假设你在公司内部做一个制度问答系统。文档里有：

研发部绩效规则

销售部提成规则

2024 版报销制度

2025 版报销制度

草稿状态的流程说明

已发布的正式制度

用户问：“出差住宿标准是多少？”

如果只做向量相似度检索，系统很可能把“相似”的内容全部召回。它不关心文档属于哪个部门，也不关心版本是否有效，更不关心用户有没有权限看。

这时即使大模型本身很强，也会陷入一个尴尬局面：上下文里混进了不该出现的材料，回答自然就不稳定。

所以企业 RAG 的第一层能力，不应该是“尽可能多召回”，而是“先把不该参与检索的内容挡在外面”。

Metadata Filter 到底过滤什么

RAG 里的 Metadata，通常是文档切块时附带的一组结构化字段。比如：

{ "tenantId": "t_001", "department": "finance", "docType": "policy", "version": "2025", "status": "published", "visibility": "internal"}

Embedding 负责表达文本语义，Metadata 负责表达业务边界。

两者的分工很像 Java 后端里的“全文搜索 + SQL 条件”。相似度检索解决“内容像不像”，Metadata Filter 解决“这条数据有没有资格参与搜索”。

常见过滤维度包括：

过滤维度	作用
tenantId	多租户隔离，避免串数据
department	部门级知识隔离
docType	只检索制度、FAQ、接口文档等特定类型
status	排除草稿、废弃、待审核内容
version	限定最新版本或指定版本
permission	根据用户权限控制可见范围
effectiveDate	控制制度生效时间

这一步如果缺失，RAG 很容易看起来“能跑”，但一上线就出现权限、口径和可信度问题。

Spring AI 里可以怎么落地

Spring AI 的 VectorStore 抽象支持相似度检索，也支持通过 SearchRequest 传入检索参数。不同向量数据库对过滤表达式的支持会有差异，实际项目要以当前版本官方文档和具体存储实现为准。

下面示例只展示关键思路：用户问题进入 RAG 服务后，先根据登录用户构造 metadata 条件，再执行向量检索。

@Servicepublic class KnowledgeSearchService {
 private final VectorStore vectorStore;
 public KnowledgeSearchService(VectorStore vectorStore) { this.vectorStore = vectorStore; }
 public List String filter = """ tenantId == '%s' && status == 'published' && department in ['%s', 'public'] """.formatted(user.tenantId(), user.department());
 SearchRequest request = SearchRequest.builder() .query(question) .topK(6) .similarityThreshold(0.72) .filterExpression(filter) .build();
 return vectorStore.similaritySearch(request); }}

这个例子里有三个关键点。

第一，tenantId 不应该由前端传入，而应该来自后端登录态或鉴权上下文。

第二，status == 'published' 这种条件要尽量固化在服务端，不能让用户通过 Prompt 改写。

第三，topK 和 similarityThreshold 不是越大越好。过滤之后的候选集更干净，通常可以用更小的上下文换来更稳定的回答。

如果你使用 Spring AI 的 Advisor 机制，也可以把过滤条件作为检索增强的一部分挂到 ChatClient 调用链里。但我更建议第一版先把“检索服务”单独封装出来，方便记录日志、调试召回结果、做评估集。

文档入库时就要设计 Metadata

很多 RAG 项目做不好，不是因为查询阶段代码写错，而是文档入库阶段太随意。

比如把 PDF 切成 chunk 后，只保存了文本和 embedding，没有保存文档来源、业务类型、发布时间、权限范围。等到后面想做权限隔离时，才发现所有数据都混在一个向量空间里，只能重新清洗和入库。

更合理的做法是：文档解析、切块、Embedding、写入向量库时，就把业务字段一起写进去。

Map, Object> metadata = Map.of( "tenantId", tenantId, "department", department, "docType", "policy", "status", "published", "version", version, "source", fileName);
Document document = new Document(chunkText, metadata);vectorStore.add(List.of(document));