我要投稿

从答案到洞察：Structured RAG正在重塑企业知识库的底层逻辑

发布日期：2025-11-14 20:51:10 浏览次数： 1567

作者：子非AI

微信搜一搜，关注“子非AI”

• 传统RAG的分析瓶颈：在处理需要聚合、比较或全面筛选的企业级复杂查询时，基于向量检索的传统RAG（检索增强生成）系统在准确性和完整性上存在固有局限。
• Structured RAG (S-RAG) 范式：S-RAG提出了一种新方法，在离线阶段将非结构化文档预处理，提取信息并构建成结构化数据库。
• 查询即代码：在响应用户请求时，S-RAG将自然语言问题转化为精确的数据库查询（如SQL），从而实现确定性的计算与推理，而非模糊的语义匹配。
• 性能验证：实验数据显示，S-RAG在聚合类问题上的准确率相较于传统RAG有显著提升（高达60%），并且能够实现近乎完美的召回率，为高风险应用场景提供了可靠性基础。
• 混合架构的价值：通过结合S-RAG的精确性和传统RAG的语义灵活性，混合架构能够高效处理更广泛的查询类型，代表了下一代企业级知识系统的发展方向。

当RAG遭遇分析瓶颈：问题的根源

想象这样一个场景：在一次关键的季度复盘会上，一位决策者向公司的AI知识助手提问：“我们所有子公司中，上一财年资本支出最高的是哪家？具体金额是多少？” AI助手或许能流畅地生成一段文本，但其内容可能只是相关报告的摘要，甚至包含错误信息。

这暴露了当前广泛应用的 检索增强生成（RAG） 技术在企业实际应用中的一个核心困境。当问题从简单的“信息查找”转向复杂的“分析推理”时，传统RAG开始显现其局限性。

这种局限性主要源于其底层机制，并体现在三个关键方面：

1. 无法有效处理聚合问题：传统RAG通过向量相似度检索文本片段。但面对“计算所有项目的平均成本”或“找出销售额最高的五个区域”这类需要跨多个文档进行数学运算的查询时，它无能为力。大语言模型（LLM）本身并不擅长在有限的上下文中对零散的文本进行精确计算。
2. 难以保证结果的完整性：在合规、审计等领域，“列出所有符合特定条件的合同”是常见需求，答案的完整性至关重要。基于相似度检索的RAG本质上是概率性的，旨在寻找“最相关”而非“所有相关”的文档。这种机制无法保证100%的召回率，任何遗漏都可能带来风险。
3. 在密集信息语料库中表现不佳：在金融财报、法律文书、技术手册等内容中，文档的格式、术语和行文风格高度统一。这使得向量模型难以区分细微但关键的差异，导致检索结果充斥着大量语义相近但信息无效的“噪音”，干扰LLM生成准确答案。

S-RAG：用数据库思维重塑AI问答

为了克服这些瓶颈，一种名为Structured RAG (S-RAG) 的新范式应运而生。其核心思想是回归经典的数据处理原则：在进行复杂查询之前，先将非结构化信息转化为结构化数据。

这个过程主要分为两个阶段：离线的信息摄取和在线的查询推理。

第一步：离线摄取 (Ingestion) - 构建结构化知识库

这一阶段在后台自动完成，旨在将原始文档转化为可供精确查询的数据库。

• 模式预测 (Schema Prediction)：系统首先分析少量样本文档和代表性问题，利用LLM的理解能力，智能推断出文档集共同的数据“模式”（Schema）。例如，对于一系列财报，系统能自动识别出“公司名”、“财年”、“总收入”等关键字段及其数据类型。
• 记录预测 (Record Prediction)：定义好模式后，S-RAG会遍历整个文档库，从每份文档中精确抽取出对应模式的数值。同时，它会进行关键的标准化处理，例如，将文本中的“一百万”、“1M”和“1,000,000”都统一为数字1000000。这些规整、标准化的信息最终被存入一个结构化数据库表中。

第二步：在线推理 (Inference) - 从自然语言到精确查询

当用户提出问题时，S-RAG的运行机制与传统RAG截然不同。

• 它不再进行模糊的语义搜索，而是将用户的自然语言问题，精准地翻译成一条数据库查询语句（如SQL）。
• 数据库执行这条确定性的指令后，返回一个或一组精确的数据。最后，LLM将这些数据结果组织成通顺、自然的语言呈现给用户。整个过程逻辑清晰、结果精确且可验证。

实证检验：S-RAG的性能表现

为了客观评估S-RAG的有效性，研究人员构建了两个新的数据集（Hotels、World Cup）并结合已有的金融分析基准（FinanceBench）进行了全面测试。

• 数据集概况
为了更好地模拟需要多文档聚合的真实场景，研究人员创建了两个新数据集。Hotels数据集完全由AI生成，以确保模型无法利用先验知识；World Cup数据集则基于真实的维基百科页面。

Dataset	#Docs	#Questions	Doc Length (avg)	Answer Length (avg)	Requires Aggregation
FinanceBench	10,798	1,023	25,603	114	Partial
World Cup	22	83	2,752	19	Yes
Hotels	350	193	1,180	12	Yes

表1: 实验使用的数据集统计与特性。
• 基线模型的挑战
在评估前，研究人员测试了强大的LLM（如GPT-o3）在没有外部知识（Zero-shot）的情况下回答这些问题的能力。结果显示，模型对于Hotels这类全新数据几乎无法回答，而对World Cup这类基于公共知识的数据则表现较好。这证明了对于私有、非公开数据，一个强大的RAG系统是不可或缺的。

Dataset	Answer Comparison	Answer Recall
FinanceBench-Agg	0.08	0.09
World Cup	0.71	0.72
Hotels	0.00	0.01

表2: LLM在无外部知识（Zero-shot）情况下的表现。
• 核心性能对比
在聚合类问题的基准测试中，S-RAG相较于传统方法表现出明显优势。
图4：在聚合问题基准测试中，S-RAG（Structured RAG）的准确率显著高于基于向量的RAG（Embedder-based RAG）和OpenAI Responses API。

图5：对于要求完整性的穷举类问题，S-RAG的召回率（Answer Recall）接近完美（1.0），远超其他方法。
下表提供了更详细的数值结果，展示了不同S-RAG变体（使用黄金标准模式或自动推断模式）与基线系统的对比。即使是模式需要自动推断的S-RAG，在Hotels和World Cup上也表现出色。

System	Metric	FinanceBench-Agg	World Cup	Hotels
S-RAG-GoldSchema	AnswerComparison	0.86	0.95	0.94
	AnswerRecall	0.88	0.97	0.96
S-RAG-InferredSchema	AnswerComparison	0.08	0.89	0.90
	AnswerRecall	0.10	0.92	0.92
OpenAI-Responses	AnswerComparison	0.60	0.81	0.35
	AnswerRecall	0.61	0.84	0.36
VectorRAG	AnswerComparison	0.62	0.80	0.44
	AnswerRecall	0.67	0.81	0.45
FullCorpus	AnswerComparison	0.08	0.77	0.70
	AnswerRecall	0.11	0.81	0.73

表3: 各系统在聚合问题评估集上的详细结果。
• 一个直观的例子
为了更具体地感受差异，请看下面这个来自World Cup数据集的例子。


Question	What is the average number of total goals scored across all World Cups in this dataset?
Expected Answer	The average number of total goals scored across all World Cups in this dataset is 119.59.
VectorRAG	...Based on the context, the total number of goals in the 1998 World Cup was 171. In the 2002 World Cup, it was 161... It seems I don't have enough data to calculate the average...
FullCorpus	I will calculate the average number of goals. The total goals are 70 + 84 + ... + 145 = 1188. There are 10 tournaments... The average is 118.8.
S-RAG	The average number of total goals scored across all World Cups in this dataset is 119.59.

表4: 不同系统对“世界杯平均总进球数”这一问题的回答示例。

可以看到，传统RAG由于上下文不完整，无法给出正确答案，而S-RAG则直接、准确地完成了计算。

演进与启示：混合模式与深层思考

S-RAG并非要完全取代传统RAG，二者结合的“混合模式”展现了更广阔的应用前景。

混合检索：精确性与灵活性的结合

对于同时包含结构化和非结构化查询要素的复杂问题，可以采用混合检索策略：

1. 精确筛选：首先，利用S-RAG的结构化查询能力，从海量文档中迅速定位到一小批高度相关的文档。
2. 深度理解：然后，在这个高质量、小范围的文档集上，再使用传统向量RAG进行深度的语义理解和答案生成。

这种“先精后广”的策略，兼顾了准确性与灵活性。在包含各类问题的完整FinanceBench测试集上，混合模式的S-RAG表现优于纯粹的向量RAG系统。

System	Answer Comparison	Answer Recall
HYBRID-S-RAG	0.78	0.80
OpenAI-Responses	0.67	0.68
VectorRAG	0.64	0.69

表5: 在完整的FinanceBench评估集上的性能对比。

S-RAG带来的深层启示

S-RAG的成功，也为我们思考AI发展路径提供了两个重要启示：

1. 新旧技术的融合：LLM的强大能力并不意味着要抛弃所有传统技术。S-RAG证明，将LLM的自然语言处理能力与经过数十年验证的数据库技术相结合，可以创造出远超单一技术范式的强大系统。AI的进步在于智慧的融合，而非颠覆一切。
2. 重塑RAG的核心瓶颈：过去，许多研究聚焦于优化LLM的“生成（Generation）”环节。S-RAG则指出，对于分析类任务，真正的瓶颈在于“检索（Retrieval）”。通过将检索从“寻找相关文本”转变为“执行精确计算”，从根本上提升了系统的可靠性和确定性。