免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


当“相似度 ≠ 相关性”:PageIndex 带来的 RAG 新范式

发布日期:2025-09-17 18:32:00 浏览次数: 1526
作者:AI Pulse

微信搜一搜,关注“AI Pulse”

推荐语

PageIndex 革新 RAG 技术,通过树状推理检索解决传统向量相似度的上下文断裂问题,让 AI 更像人类专家一样精准定位信息。

核心内容:
1. 传统 RAG 技术的局限性:向量相似度检索导致的上下文丢失问题
2. PageIndex 的创新设计:基于文档逻辑结构的树状推理检索机制
3. 实测效果与应用优势:在财务文档等复杂场景中的显著性能提升

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

👆点击上方名片关注哟👆
过去两年,RAG(Retrieval-Augmented Generation,检索增强生成)几乎成为了所有 AI 应用的标配。无论是智能客服、企业知识库,还是财务分析、法律文档问答,大家都在用同一套逻辑:把文档切块、向量化,然后通过余弦相似度去匹配,再把检索到的内容丢给大模型进行回答。

这套方案简单有效,但问题也显而易见——当问题变得复杂、跨页甚至涉及多层逻辑时,向量相似度检索往往“南辕北辙”。举个例子:

  • 你问“2023 年公司经营活动现金流的同比变化是多少?”

  • 传统 RAG 可能会找到包含“现金流”的一堆段落,却遗漏了关键的上下文:经营活动 vs 投资活动,2023 vs 2022。

  • 结果就是:相似度很高,但相关性很差。

那么,有没有更像“人类专家”一样读文档的 AI 检索方式?

最近开源的 PageIndex 就提供了一种全新的思路,它并不依赖向量数据库,而是通过文档的逻辑结构加上大模型推理,来实现更准确、更透明的检索。

💻 官方代码:https://github.com/VectifyAI/PageIndex

PageIndex 概述

PageIndex 是由 VectifyAI 开源的一套 “基于推理的 RAG” 框架。它的核心理念是:

  1. 文档不是一堆无序的段落,而是有层级结构的树

  2. 与其切块向量化,不如先提取出目录树,保持文档原始逻辑。

  3. 当用户提问时,让大模型顺着这棵树“推理式检索”,逐步缩小范围,直到定位到相关节点。

这样一来,整个检索过程就像人类专家查阅报告一样:先看目录找到相关章节,再深入阅读关键段落,而不是在浩如烟海的文本里盲目搜索相似词。

在 PageIndex 的官方介绍和开源测试中,有几个亮点非常值得关注:

1. 不再切块,避免上下文丢失

传统 RAG 要把长文档“切块”才能送进向量数据库,而切块会打断语境。例如,一个表格前后的文字解释很可能被切开,导致检索时答非所问。
PageIndex 则直接保留完整结构,不切块,保证上下文连续。

2. 树状结构,透明可追溯

PageIndex 的输出是一棵 JSON 目录树,每个节点都包含:标题、页码、摘要、子节点等。
当用户提出问题时,检索路径完全可见——你能清楚地看到系统是如何从“财务报表” → “现金流量表” → “经营活动现金流”一步步定位下去的。这在企业应用里尤其关键,因为答案不仅要对,还要能解释为什么对

3. 推理代替相似度匹配

在 PageIndex 中,检索不是“Top-K 相似度搜索”,而是“基于推理的树搜索”。
换句话说,它会考虑“哪个章节更有可能回答这个问题”,而不是单纯比对词语相似度。这让它在跨页、多条件问题上表现更好。

4. 实测效果远超传统方案

在权威的财务文档 Benchmark——FinanceBench 上,PageIndex 驱动的模型(Mafin 2.5)取得了 98.7% 的准确率,远超基于向量数据库的主流 RAG 系统。
这意味着,在专业场景(财报、法律合同、技术手册)中,它几乎能做到“接近专家级”的表现。


PageIndex 的工作原理

为了更直观地理解,我们可以看一下 PageIndex 的流程:

  1. OCR/解析文档
    使用 PageIndex 自研的 OCR 模型(支持长上下文),把 PDF 或扫描件转成结构化文本,并保留层级标题、页码。

  2. 生成目录树(PageIndex Tree)
    文档被转换为一棵树,每个节点包含标题、摘要和子节点。这相当于把文档“知识地图化”。

  3. 用户提问 → 树搜索
    当问题到来时,PageIndex 让大模型从树根开始推理,逐步筛选节点,直到找到最相关的分支。

  4. 返回节点上下文
    最终不仅返回答案,还会附带原始节点内容和检索路径,方便验证。

这种方式,完全不同于“向量切块 → 相似度排序”的黑盒检索,更像一个逻辑可追踪的专家助理。


PageIndex vs 传统 RAG:对比表
特性
PageIndex(基于推理)
传统 RAG(向量检索)
检索方式
树结构 + 推理
向量相似度
文档处理
保留原始结构,不切块
切块,打断上下文
可追溯性
路径透明,节点可定位
黑盒,难回溯
适用场景
专业文档、长文本、要求高准确率
海量数据、轻量级应用
性能指标
FinanceBench 98.7%
普遍远低于此
PageIndex 更慢一些,但更准,也更值得信赖。

快速实现
git clone https://github.com/VectifyAI/PageIndex.gitcd PageIndexpip3 install -r requirements.txt# 配置 OpenAI API Keyecho "CHATGPT_API_KEY=你的key" > .env# 运行 PageIndexpython3 run_pageindex.py --pdf_path /path/to/your/document.pdf

输出结果会包含一棵目录树,以及每个节点的结构化信息。也可以直接在命令行输入问题,得到答案和检索路径。


适用场景

PageIndex 特别适合这几类场景:

  • 财务分析:跨页、跨表格的数据对比和逻辑判断。

  • 法律合规:合同条款、法规文件的精确定位。

  • 科研文献:论文综述、长篇报告,避免切块丢失上下文。

  • 技术手册/说明书:层级结构清晰、跨章节引用频繁。

简单说:凡是长、复杂、逻辑性强的文档,PageIndex 都能发挥优势。

RAG 的瓶颈越来越明显,特别是在企业级场景,“相关性”比“相似度”重要得多。PageIndex 的出现,给我们展示了一条全新的道路:让检索更像推理,而不是搜索。

它的意义在于:不再只是让 AI 背诵段落,而是让 AI 真正学会“读懂文档”。

未来,当我们谈起 RAG 时,可能会有两条路线:

  • 向量派:追求快速、轻量,适合大规模简单问答。

  • 推理派:追求准确、透明,适合高价值专业应用。

而 PageIndex,正是推理派的代表。

对于研究者、开发者和企业用户来说,这个开源项目值得深入研究。也许在不远的将来,它会成为下一代 RAG 的“标配”。

📢 想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。

💡 技术咨询/商务合作:ai_pulse_tech@foxmail.com

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询