我要投稿

搜索的终极形态？向量搜索重构信息检索范式

发布日期：2025-12-04 16:39:45 浏览次数： 2006

作者：大模型数据工坊

微信搜一搜，关注“大模型数据工坊”

传统的基于关键词的搜索引擎擅长匹配精确的词语，但当用户使用不同的词汇、同义词或更复杂的短语来表达意图时，往往力不从心。而语义搜索，通过理解词语背后的含义和语境，而非仅仅关注词语本身，彻底革新了信息检索方式。本指南将探讨语义嵌入如何实现这种强大的搜索功能。

什么是语义搜索？

语义搜索是一种数据检索技术，旨在理解搜索查询的含义和上下文意图，而不仅仅是匹配关键词。例如，语义搜索引擎不仅会搜索与“汽车”完全匹配的结果，还会返回包含“汽车”、“车辆”或讨论“驾驶轿车”等内容的文档，从而识别出其背后的概念。这种能力显著提高了搜索结果的相关性和用户满意度。

理解嵌入

语义搜索的核心是词嵌入。词嵌入是将信息（例如单词、短语、句子或整个文档）在高维空间中的数值表示（向量）。这些向量的关键特性是，含义或上下文相似的项在这个空间中彼此靠近，而含义或上下文不同的项则彼此远离。

嵌入是如何生成的

词嵌入通常由复杂的机器学习模型生成，特别是像Transformer这样的神经网络（大型语言模型，例如BERT、GPT等，都基于这种架构）。这些模型使用海量的文本数据进行训练，以学习词语和概念之间错综复杂的关系。

在训练过程中，模型学习将文本输入映射到稠密的向量空间，其中向量之间的空间关系反映了语义关系。例如，“国王”的嵌入向量可能与“王后”的嵌入向量接近，“国王”和“男人”之间的向量差异可能类似于“王后”和“女人”之间的向量差异。

嵌入的关键特征：

稠密向量：与稀疏词袋表示不同，嵌入是稠密的，这意味着向量中的大多数元素都是非零的。
高维：嵌入通常有数百甚至数千个维度（例如，384、768、1536 维），使其能够捕捉细微的语义关系。
上下文相关的：现代词嵌入（如 BERT 或 Sentence Transformers 中的词嵌入）通常是上下文相关的，这意味着像“bank”这样的词的词嵌入会因其指的是金融机构还是河岸而有所不同。
语言无关（可能）：一些高级模型可以生成多语言嵌入，从而实现跨不同语言的语义搜索。

核心机制：相似性嵌入

基于词嵌入的语义搜索的基本原理很简单：

将所有内容表示为向量：将搜索查询和所有文档（或文档的一部分）转换为嵌入。
衡量向量相似度：计算查询嵌入与每个文档嵌入之间的“距离”或“相似度”。
检索最近邻：与查询嵌入最相似（最接近）的文档被认为是最相关的。

常用相似性度量

有几种数学方法可以量化两个向量之间的相似性：

余弦相似度：最常用的向量嵌入度量方法。它计算两个向量之间夹角的余弦值。值为 1 表示方向相同（最相似），0 表示正交（没有关系），-1 表示方向相反。它关注的是方向，而不是大小。

公式：cosine_similarity(A, B) = (A ⋅ B) / (||A|| ⋅ ||B||)

点积：类似于余弦相似度，但还考虑向量的大小。如果嵌入向量被归一化（单位向量），则点积和余弦相似度就相同了。
欧氏距离：衡量空间中两点（向量）之间的直线距离。距离越小，相似度越高。

公式：euclidean_distance(A, B) = sqrt(sum((Aᵢ - Bᵢ)²))

对于大多数语义搜索应用而言，余弦相似度是首选，因为它对向量幅度的变化具有鲁棒性，而向量幅度的变化有时可能是嵌入生成过程的产物，而不是语义内容的指标。

基于嵌入的语义搜索架构

语义搜索的实现包括两个主要阶段：索引阶段和查询阶段。

1. 索引阶段（离线过程）

此阶段将为您的文档语料库准备语义搜索。

文档收集：收集所有您希望使其可搜索的文本数据。这可以包括文章、产品描述、论坛帖子等。
文本预处理：（可选但推荐）清理文本数据。这可能包括：

移除 HTML 标签、特殊字符或样板代码。
将文本转换为小写。
处理特定模型的分词。
将长文档拆分成更小的、语义连贯的块（例如，段落或句子），以提高检索粒度。

嵌入生成：对于每个文档（或块），使用预训练或微调的嵌入模型生成其向量表示。

Python

from sentence_transformers import SentenceTransformer# 1. Choose an Embedding Model# 'all-MiniLM-L6-v2' is a good balance of speed and qualitymodel = SentenceTransformer('all-MiniLM-L6-v2')documents = [    "The quick brown fox jumps over the lazy dog.",    "A group of canines rests near a running stream.",    "Artificial intelligence is transforming industries globally.",    "The cat sat on the mat."]# 2. Generate Embeddings for Documentsdocument_embeddings = model.encode(documents, show_progress_bar=True)print(f"Generated {len(document_embeddings)} embeddings, each with shape: {document_embeddings[0].shape}")# Example output: Generated 4 embeddings, each with shape: (384,)

向量数据库存储和索引：将这些嵌入向量存储在专门的向量数据库（例如 Pinecone、Weaviate、Milvus、Qdrant、Chroma）或近似最近邻 (ANN) 库（例如 FAISS、Annoy、NMSLIB）中。这些工具针对存储和高效查询高维向量进行了优化，尤其适用于相似性搜索。

近似最近邻 (ANN) 算法：对于大型数据集，精确的最近邻搜索计算量过大。ANN 算法牺牲少量精度，显著提升了搜索速度。它们构建的数据结构能够实现快速的近似相似性查找。

2. 查询阶段（实时处理）

此阶段发生在用户提交搜索查询时。

查询嵌入生成：获取用户的搜索查询，并使用与文档相同的嵌入模型将其转换为嵌入。

Python

# Using the same model as for documentsquery = "animals resting"query_embedding = model.encode(query)print(f"Generated query embedding with shape: {query_embedding.shape}")# Example output: Generated query embedding with shape: (384,)

向量相似度搜索：将查询的向量嵌入发送到您的向量数据库/人工神经网络索引。数据库会快速找到最相似的前 k 个文档嵌入。

Python

import numpy as npfrom sklearn.metrics.pairwise import cosine_similarity# For a small example, we can compute similarity manuallysimilarities = cosine_similarity(query_embedding.reshape(1, -1), document_embeddings)[0]# Get indices of top similar documentstop_n = 2top_indices = np.argsort(similarities)[::-1][:top_n]print(f"\nQuery: '{query}'")print("Top results:")for i in top_indices:    print(f"  - Document: '{documents[i]}'")    print(f"    Similarity: {similarities[i]:.4f}")# Example Output:# Query: 'animals resting'# Top results:#   - Document: 'A group of canines rests near a running stream.'#     Similarity: 0.6970#   - Document: 'The quick brown fox jumps over the lazy dog.'#     Similarity: 0.2858