我要投稿

阿里RAG全链路评估框架之CoFE-RAG

发布日期：2025-09-25 09:11:19 浏览次数： 1844

作者：当家的AI进阶之路

微信搜一搜，关注“当家的AI进阶之路”

CoFE 论文学习

CoFE-RAG是一种面向检索增强生成（RAG）系统的全链路综合评估框架

研究背景与动机

RAG显著提升了回答的准确性与可靠性，有效缓解了传统生成模型中的“幻觉”问题。然而，现有RAG评估方法存在三大核心挑战：

Ø 数据多样性不足：知识来源和查询类型的多样性不足限制了RAG系统的适用性。【现有评价方法的外部知识库基本来源于从HTML中抓取的格式良好的纯文本，缺乏数据多样性，难以纳入PDF等复杂文档。此外，这些方法主要侧重于简单的查询】

Ø 问题定位模糊：多数方法仅评估端到端结果，难以定位RAG流程中具体阶段（如分块、检索、重排序、生成）的问题。

Ø 检索评估不稳定：依赖“黄金片段”标注，当分块策略变更时需重新标注，成本高昂。

为系统性解决上述问题，本文提出 CoFE-RAG，实现对RAG全流程的可解释、高效、稳定评估。

CoFE-RAG 框架设计

核心思想：多粒度关键词驱动评估

CoFE-RAG引入多粒度关键词替代传统“黄金片段”标注，实现对检索与重排序阶段的免标注评估。

粒度

定义

作用

粗粒度关键词

从查询与上下文中提取的核心主题词（如“智能汽车”）

初步筛选相关片段

细粒度关键词

每个信息点对应的原文片段列表（如政策目标、时间节点）

精细评分与验证

全链路评估流程

1. 文档收集与解析

- 来源：开源网站（金融、科技、医疗、互联网等领域）

- 格式：PDF、DOC、PPT、XLSX

- 时间跨度：主要为近年文档，部分为2024年，超越GPT-4等模型知识截止日期

2. 文档分块与标题补全

- 使用 LlamaIndex（PDF/DOC/PPT）和 Pandas（XLSX）进行内容提取

- 分块大小：512 tokens，重叠100 tokens

- 利用 GPT-4 从首片段提取关键信息作为标题，附加至各片段以增强上下文连贯性

3. 评估数据构建

数据构建过程包括查询生成、多粒度关键词生成和参考答案生成

数据构建三要素如下表

要素

方法

质量控制

查询生成

GPT-4 自动生成四类查询（见表2）

（1）查询必须清晰、准确、无语法错误，避免使用模棱两可的代词，如he、it、this等;

（2）查询必须与其各自查询类型的定义保持一致;

（3）查询应可从相应文档片段中提供的信息推断出来。然后，我们聘请训练有素的注释者来评估（人工评估）每个查询的可接受性。仅当查询完全符合所有条件时，才被视为可接受的查询。

多粒度关键词

GPT-4 提取粗/细粒度关键词

人工评估

细粒度关键词接受率 >80%

参考答案

GPT-4 生成 + 人工评分（1–5分）

仅保留评分 ≥4 的高质量答案

四类查询定义与示例如下表

类型

描述

示例

Factual（事实型）

寻求具体事实或证据

“美国的首都是哪里？”

Analytical（分析型）

寻求概念或现象的分析

“地球为何变暖？”

Comparative（比较型）

寻求不同维度的对比

“A和B有何区别？”

Tutorial（教程型）

寻求任务执行步骤

“如何安装TensorFlow？”

4. 评估指标

评估指标设计（按阶段划分）¶

阶段

指标

说明

分块

通过关键词匹配间接评估

检索

Recall, Accuracy

基于多粒度关键词匹配计算

重排序

Recall, Accuracy

同上，评估重排序后Top-K效果

生成

BLEU, Rouge-L, Faithfulness, Relevance, Correctness

多维度评估生成质量

核心贡献总结

维度

贡献

方法论创新

提出多粒度关键词机制，摆脱对“黄金片段”的依赖，支持灵活分块策略

评估全面性

实现RAG全流程（分块→检索→重排序→生成）可解释评估

数据多样性

构建包含多格式文档、四类查询、中英文双语的综合性基准数据集

实用性提升

支持自动化标注+人工审核，兼顾效率与质量，适用于真实系统优化

总结

优点和局限性总结

优点：

全链路评估

创新点：首次系统性地将RAG流程划分为 chunking → retrieval → reranking → generation 四个阶段，并分别设计评估方法。

好处：可以精确定位系统瓶颈，避免“黑盒”式评估，提升优化效率。

多粒度关键词

创新点：用“粗粒度关键词”+“细粒度关键词”替代传统的“golden chunk”标注方式。

好处：无需为每个chunk打标签，降低人工成本、支持灵活调整chunking策略，避免重新标注

多样化数据场景

创新点：构建了覆盖 PDF、PPT、DOC、XLSX 等多种文档格式的知识库

好处：更贴近真实应用场景，支持 factual / analytical / comparative / tutorial 四类查询，覆盖更广的用户需求

局限性：

评估指标偏传统

检索阶段仍使用Recall/Accuracy，生成阶段使用 BLEU/Rouge/等。计算存在一定的局限性，只通过字词的共现来评估，缺乏语义层面的评估

多粒度关键词的泛化能力未知

虽然避免了golden chunk依赖，但关键词本身是否足够鲁棒、是否能覆盖所有查询类型仍待验证、对于高度抽象或跨段落推理的查询，关键词可能难以捕捉完整语义。

评估没有考虑多轮对话等复杂场景

当前评估是单次检索+生成的静态流程。未涉及多轮对话、动态检索等复杂场景的评估

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-24

ChatGPT VS Claude ，Agent记忆用对话压缩还是RAG按需检索

2025-12-24

上下文不等于记忆：从单Agent到多Agent协作，记忆系统是关键

2025-12-23

为什么Claude Code不用RAG？

2025-12-22

图索引性能提升 400%：详解 VSAG 向量检索框架

2025-12-22

告别关键词高亮，语义高亮才是解决搜索 / Agent噪音的标准答案

2025-12-22

让RAG像人类一样“扫视全文”：上下文检索技术详解

2025-12-22

Uber 如何利用 OpenSearch 实现十亿级向量搜索

2025-12-22

别让大模型在“垃圾堆”里找金子：深度解析 RAG 的上下文压缩技术

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

企业级 RAG 系统实战（2万+文档）：10 个项目踩过的坑（附代码工程示例）

2025-10-11

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

总结了 13 个顶级 RAG 技术

2025-10-12

RAG 深度解读：检索增强生成如何改变人工智能

2025-12-04

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

RAGFlow 深度介绍

2025-10-31

RAGFlow v0.22.0 发布：数据源同步、变量聚合、全新管理界面与多项重大更新

2025-11-13

大模型RAG入门宝典｜从AI搜索到实战搭建，小白&程序员必收藏的检索增强指南

2025-12-03

任何格式RAG数据实现秒级转换！彻底解决RAG系统中最令人头疼的数据准备环节

2025-10-12

大家都在问

为什么Claude Code不用RAG？

2025-12-23

终于，NotebookLM 和 Gemini 合体了。这是什么神之更新？

2025-12-21

Apple 入局 RAG：深度解析 CLaRa 框架，如何实现 128x 文档语义压缩？

2025-12-10

RAG知识库迎来大洗牌：GraphRAG如何让机器真正读懂世界？

2025-11-23

再谈RAG的文档解析——文档解析的难点在哪里？

2025-11-20

为什么RDF是AI系统的“天然知识层”？

2025-11-19

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean