支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RAG开发者必看谷歌新论文MUVERA:让多向量检索与单向量搜索一样快

发布日期:2025-07-08 10:20:08 浏览次数: 1545
作者:极客开源

微信搜一搜,关注“极客开源”

推荐语

谷歌最新论文MUVERA突破多向量检索瓶颈,让复杂搜索与单向量一样高效!

核心内容:
1. 多向量检索面临的三大核心挑战
2. MUVERA算法的固定维度编码(FDE)创新原理
3. 将Chamfer相似度转化为单向量搜索的技术实现路径

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

在做 #RAG 的开发者一定要看看 Google 这篇信息检索领域的#论文,介绍了一种名为 #MUVERA 的先进检索#算法。该算法能将复杂的多向量检索问题,巧妙地简化为单向量的最大内积搜索,从而在保持高精度的同时,实现与单向量搜索相媲美的速度

可以关注公众号 #极客开源 👆获取最新一手 #AI大模型 #开源项目 信息,如果这篇文章对你有用,可以点个“推荐”,听说会影响公众号的#推荐算法

背景:从单向量到多向量

神经嵌入模型是现代信息检索(IR)的基石。无论是搜索引擎还是推荐系统,其核心任务都是根据用户的查询(例如"珠穆朗玛峰有多高?"),从海量数据中找到最相关的信息。嵌入模型能将每个数据点(如文档、图片)转换为一个数值向量,即"嵌入",并确保语义相近的数据点在数学上也相互靠近。

传统的做法是为每个数据点生成一个单一的#向量嵌入。通过计算向量间的内积相似度,系统可以利用高效的最大内积搜索(MIPS)算法,快速找到匹配结果。然而,近年来以 ColBERT 为代表的多向量模型展现了更优越的性能。这类模型为每个数据点生成一组向量,而非单个向量,并采用更复杂的相似度函数(如 Chamfer 相似度)来捕捉更丰富、更细腻的语义关系。虽然多向量方法提升了准确率,但也带来了巨大的计算开销,使得检索过程变得异常昂贵。

多向量检索的挑战

多向量表示虽然在可解释性和泛化能力上表现出色,但其检索过程面临着严峻的挑战:

1. 嵌入数量剧增:为每个词元(token)都生成嵌入,导致需要处理的向量数量急剧增加。
2. 相似度计算复杂:Chamfer 匹配这类相似度计算是一种非线性操作,需要进行矩阵乘法,其计算成本远高于单向量的点积。
3. 缺乏高效的搜索方法:单向量检索可以受益于空间划分等高度优化的亚线性搜索算法,避免全局暴力比较。但多向量相似度的复杂性使得这些快速的几何技术难以直接应用。

因此,一个文档可能因为某个词元与查询高度相关而被关注,但整体上却并非最佳匹配。这要求必须采用更复杂且计算密集的检索方法。

MUVERA 的解决方案:固定维度编码(FDE)

为了解决上述问题,论文《MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings》提出了一种创新的多向量检索算法。其核心思想是,通过一种巧妙的数学变换,将一组多向量压缩成一个固定维度的单一向量,即固定维度编码(Fixed Dimensional Encoding, FDE)。

这种变换的关键在于,经过压缩后,两个 FDE 向量之间的内积能够高度近似原始多向量集合之间的 Chamfer 相似度。这样一来,复杂的多向量检索问题就被成功地简化为了单向量的最大内积搜索(MIPS)问题。

MUVERA 的工作流程可以分解为以下三步

1. FDE 生成:通过特定的映射函数,将查询和文档的多向量集合转换成固定长度的 FDE 向量。
2. 基于 MIPS 的检索:使用标准的 MIPS 索引和算法,对文档的 FDE 向量进行高效检索,快速召回一批最相似的候选文档。
3. 重新排序:对召回的候选集,使用原始且更精确的 Chamfer 相似度进行重新排序,以确保最终结果的准确性。

MUVERA 的一个显著优势是其 FDE 变换过程与具体数据集无关,这使得它对数据分布的变化具有很强的鲁棒性,也非常适合流式数据处理的应用场景。更重要的是,FDE 能够保证在特定误差范围内近似真实的 Chamfer 相似度。因此,经过重排后,MUVERA 能够确保找到最匹配的多向量表示。

查询 FDE 构建示意图:图示中,每个词元(token)被映射到一个高维向量。高维空间通过超平面被随机切割成不同区域。输出的 FDE 向量中,每个坐标块对应一个区域,其值等于所有落入该区域的查询向量的坐标之和。

文档 FDE 构建示意图:文档 FDE 的构建过程与查询类似,区别在于落入同一区域的向量坐标是进行平均化处理,而非求和。这种不对称的设计能够更准确地捕捉 Chamfer 相似度的特性。

理论基础

该方法的理论灵感来源于概率树嵌入,这是几何算法理论中的一个强大工具,并针对内积和 Chamfer 相似度进行了适配。

FDE 生成的核心在于对嵌入空间进行随机划分。如果查询和文档中的相似向量恰好落入同一个划分区域,它们的相似度就可以被高效地近似计算。通过随机化的划分方案,可以从概率上保证整体的近似效果。论文中提供了严格的理论证明,证实了 FDE 对 Chamfer 相似度的近似能力,为使用单向量代理进行多向量检索提供了坚实的理论基础。

实验结果

在 BEIR 基准测试的多个信息检索数据集上,MUVERA 的表现非常出色。实验表明,相较于之前的顶尖方法(如 PLAID),MUVERA 在显著降低延迟的同时,获得了更高的检索召回率。

主要发现包括:

1. 更高的召回率:与常见的多向量检索方法(单向量启发式)相比,MUVERA 在检索少得多的候选文档(5-20 倍)的情况下,就能达到同等甚至更高的召回率。
2. 极低的延迟:与高度优化的多向量检索系统 PLAID 相比,MUVERA 在 BEIR 基准测试中的平均召回率高出 10%,而延迟则惊人地降低了 90%。

此外,实验还发现 MUVERA 的 FDE 可以通过乘积量化技术进行有效压缩,在对检索质量影响极小的情况下,将内存占用减少 32 倍。

结论

MUVERA 是一种新颖、高效的多向量检索算法,其近似质量和实际性能都得到了理论和实验的验证。通过将多向量搜索简化为单向量 MIPS,它充分利用了现有的优化搜索技术,以极高的效率实现了最先进的性能。

这项工作为高效的多向量检索开辟了新的道路,对于#搜索引擎#推荐系统#RAG 等应用都至关重要。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询