我要投稿

短语检索不等于BM25+向量检索｜ Milvus Phrase Match实战

发布日期：2025-12-16 19:34:32 浏览次数： 1965

作者：Zilliz

微信搜一搜，关注“Zilliz”

今天还是来继续聊聊做企业级知识库，那些常见的避坑小技巧，这一次的主题是短语检索。

如果你做过搜索、日志分析、知识库、RAG，那么你一定被下面这几个场景折磨过：

明明日志里有 `connection reset by peer`，就是搜不到？
”北京上海” 和 “上海北京” 能不能算一个短语？
英文还好说，中文只要分词一错误，检索就直接废掉？
RAG 想加“必须包含某短语”的硬条件，向量模型却完全表达不了？

别慌! Milvus 2.6 的 Phrase Match 就是来解决这一切的。

Phrase Match = 倒排索引基础 + 严格词序 + 位置信息 + 灵活距离调节(slop)，不仅中英文通吃，更能让你的短语匹配精度直接拉满。

01 为什么你会马上爱上 Phrase Match？

我们先不上来讲原理, 而是从一个工程师每天都在遭遇的场景——错误日志检索——直接开始.

你有这样的日志：

connection reset by peerconnection fast reset by peerconnection was suddenly reset by the peerpeer reset connection by ...peer unexpected connection reset happened

当你想找 `"connection reset by peer"` 的所有变体时……

❌ BM25没有词序意识：只能找“connection”, “peer”，词序全乱

❌ 向量检索没有硬约束：知道意思，却无法要求“必须包含短语”

🤯 结果：要么漏，要么误报，要么顺序乱，你根本无法准确定位问题

而 `Phrase Match` 只需一个参数：slop，就能轻松弥足上述技术的不足, 把检索目标的变体全部抓出来。

slop=0：必须完全连续（严格匹配）
slop=1：允许插一个词（自然语言常见变体）
slop=2：允许插多个词
slop=3：允许倒序（自然语言最难搞的部分）

运行`phrase_match_logs_demo.py`我们来看实际效果：

02 Phrase Match 是如何做到的？

Phrase Match 将传统 BM25「基于词频统计」的检索思路，演进为「短语结构感知」的精准匹配, 如下图所示：

03 中文 vs 英文 Phrase Match：实战小技巧

很多人觉得 Phrase Match 在中文“效果不好”，其实在绝大多数情况下，是因为：

1. 分词器没有设对（没用 `chinese` analyzer）

2. 沿用英文的 slop 直觉，导致中文 slop 设得太小

在对中文进行 Phrase Match 时，`analyzer_params` 必须显式指定为 `"chinese"`：

```python# Chinese analyzer（基于中文分词）schema.add_field(field_name="text_zh",datatype=DataType.VARCHAR,max_length=2000,enable_analyzer=True,enable_match=True,analyzer_params={"type": "chinese"},)````

⚠ 关于中文 slop：它和英文“数值表现”并不一样（官方 [issue #45807](https://github.com/milvus-io/milvus/issues/45807) 有详细解释）

英文单词的 `positionLength = 1`

中文词的 `positionLength` 可能 大于 1

👉 结果就是：要匹配同样结构的短语，中文通常需要更大的 slop，数值也更“稀疏”（例如 1、3、5、7…）

运行 `phrase_match_multilang_demo.py` 看看实际效果：

👉 关键结论可以这样理解：

概念上：中英文的 Phrase Match 规则是一致的——slop 都是在控制“短语中各个词之间允许多远的距离、是否允许插词/倒序”。
实现上：因为中文的 `positionLength` 设计不同，同样的语义，在中文里往往需要更大的 slop 数值（例如英文用 2，中文可能要 5 才能覆盖到同一类倒序+插词情况）。

所以，如果你发现“中文 Phrase Match 不工作”，通常不是 Milvus 的问题，而是：

1. 分词器没用 `chinese`；

2. 你用了“英文习惯”的 slop 上限，对中文来说还远远不够。