支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RAG 的性能评估

发布日期:2025-07-14 06:07:48 浏览次数: 1536
作者:技术mi

微信搜一搜,关注“技术mi”

推荐语

RAG系统评估不容忽视,全面解析如何确保生成答案的准确性与相关性。

核心内容:
1. RAG系统评估的两大关键环节:检索质量与生成质量
2. 生成质量的核心指标:忠实性与答案相关性
3. 检索质量的核心指标:上下文相关性与召回率

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

一个端到端集成的 RAG 系统,即便表面上运行良好,也暗藏风险。若未经全面评估就贸然投入使用,后果可能十分严重——尤其是在那些对信息准确性和上下文理解有严苛要求的应用场景中,因此RAG 系统同样需要严格的评估。

因为在实际部署中,各个环节都可能出现问题:例如,文档分块策略可能不够精准高效;检索模型无法稳定地召回最相关的上下文;而生成模型则可能曲解信息,最终产出不准确甚至具有误导性的答案。

在评估 RAG 系统时,常常难以获取带有人工标注的测试集或标准答案。究其原因,基于大语言模型的下游应用往往是高度定制化和面向特定场景的。因此,我们更倾向于采用无参考指标(Reference-Free Metrics),这类指标无需外部标准答案,可以直接衡量生成内容本身的质量——而这,恰恰是 RAG 应用评估的重中之重。

对 RAG 系统的评估主要围绕两大环节:检索质量(Retrieval Quality)生成质量(Generation Quality)以下是几个核心指标的详细说明:

生成质量评估 (Generation Quality)这类指标关注由大型语言模型(LLM)最终生成的答案本身的质量,通常不需要参考标准答案(Ground Truth)。

1. 忠实性 (Faithfulness)

核心问题:答案是否忠于所引用的上下文?是否存在捏造或“幻觉”?
评估目标:衡量生成的答案中的所有声明,是否都能在检索到的上下文中找到直接或间接的依据。一个高忠实性的答案不会引入上下文之外的虚构信息。
评估方法:常用的方法是利用一个评判式 LLM,将长答案分解为一系列独立的、可验证的陈述。然后,逐一检查每个陈述是否能被给定的上下文所支持。

2. 答案相关性 (Answer Relevancy)

核心问题:答案是否直接、有效地回应了用户的问题?
评估目标:衡量答案与用户问题的相关程度。此指标不关心答案的事实准确性,只关心它是否“答非所问”。我们期望得到的是具体、切题的回复,而不是那些虽然正确但过于宽泛、跑题或包含无关信息的答案。
评估方法:通过 LLM 判断生成的答案在多大程度上满足了用户的查询意图。

检索质量评估 (Retrieval Quality)这类指标关注检索模块(Retriever)所召回的上下文的质量,通常需要一个标准答案(Ground Truth)作为参照

3. 上下文相关性 (Context Relevancy)

核心问题:检索到的上下文与问题本身是否相关?
评估目标:衡量检索到的信息中,有多少是真正与用户问题相关的。理想的上下文应该像“信噪比”高的信号,只包含回答问题所需的关键信息。无关信息会成为噪声,干扰并误导后续的生成模型。
评估方法:逐一分析检索到的每个文档块(chunk),判断其对于回答用户问题是否有用。

4. 上下文召回率 (Context Recall)

核心问题:所有需要用来回答问题的信息,是否都已经被检索系统找到了?
评估目标:衡量检索到的上下文是否“全面”覆盖了生成标准答案所需的全部信息。高召回率意味着关键信息没有被遗漏。
评估方法:将标准答案(Ground Truth)分解为多个关键论点,然后检查每一个论点是否都能在检索到的上下文中找到支持。

5. 上下文精度 (Context Precision)

核心问题:检索到的信息中,有多少是真正有用的?排名靠前的上下文是否都是相关的?
评估目标:衡量检索到的上下文的“信噪比”。如果说召回率关心的是“信号”是否都找全了,那么精度关心的就是找来的信息里“噪声”有多少。它验证检索到的信息是否对生成最终的正确答案有直接贡献,并关注相关信息是否被排在更靠前的位置。
评估方法:分析检索到的上下文,判断其中真正与标准答案(Ground Truth)相关的部分所占的比例。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询