我要投稿

当“相似度 ≠ 相关性”：PageIndex 带来的 RAG 新范式

发布日期：2025-09-17 18:32:00 浏览次数： 2522

作者：AI Pulse

微信搜一搜，关注“AI Pulse”

过去两年，RAG（Retrieval-Augmented Generation，检索增强生成）几乎成为了所有 AI 应用的标配。无论是智能客服、企业知识库，还是财务分析、法律文档问答，大家都在用同一套逻辑：把文档切块、向量化，然后通过余弦相似度去匹配，再把检索到的内容丢给大模型进行回答。

这套方案简单有效，但问题也显而易见——当问题变得复杂、跨页甚至涉及多层逻辑时，向量相似度检索往往“南辕北辙”。举个例子：

你问“2023 年公司经营活动现金流的同比变化是多少？”
传统 RAG 可能会找到包含“现金流”的一堆段落，却遗漏了关键的上下文：经营活动 vs 投资活动，2023 vs 2022。
结果就是：相似度很高，但相关性很差。

那么，有没有更像“人类专家”一样读文档的 AI 检索方式？

最近开源的 PageIndex 就提供了一种全新的思路，它并不依赖向量数据库，而是通过文档的逻辑结构加上大模型推理，来实现更准确、更透明的检索。

💻 官方代码：https://github.com/VectifyAI/PageIndex

PageIndex 概述

PageIndex 是由 VectifyAI 开源的一套 “基于推理的 RAG” 框架。它的核心理念是：

文档不是一堆无序的段落，而是有层级结构的树。
与其切块向量化，不如先提取出目录树，保持文档原始逻辑。
当用户提问时，让大模型顺着这棵树“推理式检索”，逐步缩小范围，直到定位到相关节点。

这样一来，整个检索过程就像人类专家查阅报告一样：先看目录找到相关章节，再深入阅读关键段落，而不是在浩如烟海的文本里盲目搜索相似词。

在 PageIndex 的官方介绍和开源测试中，有几个亮点非常值得关注：

1. 不再切块，避免上下文丢失

传统 RAG 要把长文档“切块”才能送进向量数据库，而切块会打断语境。例如，一个表格前后的文字解释很可能被切开，导致检索时答非所问。
PageIndex 则直接保留完整结构，不切块，保证上下文连续。

2. 树状结构，透明可追溯

PageIndex 的输出是一棵 JSON 目录树，每个节点都包含：标题、页码、摘要、子节点等。
当用户提出问题时，检索路径完全可见——你能清楚地看到系统是如何从“财务报表” → “现金流量表” → “经营活动现金流”一步步定位下去的。这在企业应用里尤其关键，因为答案不仅要对，还要能解释为什么对。

3. 推理代替相似度匹配

在 PageIndex 中，检索不是“Top-K 相似度搜索”，而是“基于推理的树搜索”。
换句话说，它会考虑“哪个章节更有可能回答这个问题”，而不是单纯比对词语相似度。这让它在跨页、多条件问题上表现更好。

4. 实测效果远超传统方案

在权威的财务文档 Benchmark——FinanceBench 上，PageIndex 驱动的模型（Mafin 2.5）取得了 98.7% 的准确率，远超基于向量数据库的主流 RAG 系统。
这意味着，在专业场景（财报、法律合同、技术手册）中，它几乎能做到“接近专家级”的表现。

PageIndex 的工作原理

为了更直观地理解，我们可以看一下 PageIndex 的流程：

OCR/解析文档
使用 PageIndex 自研的 OCR 模型（支持长上下文），把 PDF 或扫描件转成结构化文本，并保留层级标题、页码。
生成目录树（PageIndex Tree）
文档被转换为一棵树，每个节点包含标题、摘要和子节点。这相当于把文档“知识地图化”。
用户提问 → 树搜索
当问题到来时，PageIndex 让大模型从树根开始推理，逐步筛选节点，直到找到最相关的分支。
返回节点上下文
最终不仅返回答案，还会附带原始节点内容和检索路径，方便验证。

这种方式，完全不同于“向量切块 → 相似度排序”的黑盒检索，更像一个逻辑可追踪的专家助理。

PageIndex vs 传统 RAG：对比表

特性	PageIndex（基于推理）	传统 RAG（向量检索）
检索方式	树结构 + 推理	向量相似度
文档处理	保留原始结构，不切块	切块，打断上下文
可追溯性	路径透明，节点可定位	黑盒，难回溯
适用场景	专业文档、长文本、要求高准确率	海量数据、轻量级应用
性能指标	FinanceBench 98.7%	普遍远低于此

PageIndex 更慢一些，但更准，也更值得信赖。

快速实现

git clone https://github.com/VectifyAI/PageIndex.gitcd PageIndexpip3 install -r requirements.txt# 配置 OpenAI API Keyecho "CHATGPT_API_KEY=你的key" > .env# 运行 PageIndexpython3 run_pageindex.py --pdf_path /path/to/your/document.pdf

输出结果会包含一棵目录树，以及每个节点的结构化信息。也可以直接在命令行输入问题，得到答案和检索路径。