微信扫码
添加专属顾问
我要投稿
阿里推出CoFE-RAG框架,突破RAG评估瓶颈,实现全链路精准诊断与优化。 核心内容: 1. 现有RAG评估三大痛点:数据单一、问题难定位、标注成本高 2. CoFE-RAG创新方案:多粒度关键词驱动+免标注评估机制 3. 全流程评估体系设计:从文档解析到答案生成的闭环验证
CoFE 论文学习
CoFE-RAG是一种面向检索增强生成(RAG)系统的全链路综合评估框架
RAG显著提升了回答的准确性与可靠性,有效缓解了传统生成模型中的“幻觉”问题。然而,现有RAG评估方法存在三大核心挑战:
Ø 数据多样性不足:知识来源和查询类型的多样性不足限制了RAG系统的适用性。【现有评价方法的外部知识库基本来源于从HTML中抓取的格式良好的纯文本,缺乏数据多样性,难以纳入PDF等复杂文档。此外,这些方法主要侧重于简单的查询】
Ø 问题定位模糊:多数方法仅评估端到端结果,难以定位RAG流程中具体阶段(如分块、检索、重排序、生成)的问题。
Ø 检索评估不稳定:依赖“黄金片段”标注,当分块策略变更时需重新标注,成本高昂。
为系统性解决上述问题,本文提出 CoFE-RAG,实现对RAG全流程的可解释、高效、稳定评估。
CoFE-RAG引入多粒度关键词替代传统“黄金片段”标注,实现对检索与重排序阶段的免标注评估。
粒度 | 定义 | 作用 |
粗粒度关键词 | 从查询与上下文中提取的核心主题词(如“智能汽车”) | 初步筛选相关片段 |
细粒度关键词 | 每个信息点对应的原文片段列表(如政策目标、时间节点) | 精细评分与验证 |
全链路评估流程
1. 文档收集与解析
- 来源:开源网站(金融、科技、医疗、互联网等领域)
- 格式:PDF、DOC、PPT、XLSX
- 时间跨度:主要为近年文档,部分为2024年,超越GPT-4等模型知识截止日期
2. 文档分块与标题补全
- 使用 LlamaIndex(PDF/DOC/PPT)和 Pandas(XLSX)进行内容提取
- 分块大小:512 tokens,重叠100 tokens
- 利用 GPT-4 从首片段提取关键信息作为标题,附加至各片段以增强上下文连贯性
3. 评估数据构建
数据构建过程包括查询生成、多粒度关键词生成和参考答案生成
数据构建三要素如下表
要素 | 方法 | 质量控制 |
查询生成 | GPT-4 自动生成四类查询(见表2) | (1)查询必须清晰、准确、无语法错误,避免使用模棱两可的代词,如he、it、this等; (2)查询必须与其各自查询类型的定义保持一致; (3)查询应可从相应文档片段中提供的信息推断出来。然后,我们聘请训练有素的注释者来评估(人工评估)每个查询的可接受性。仅当查询完全符合所有条件时,才被视为可接受的查询。 |
多粒度关键词 | GPT-4 提取粗/细粒度关键词 | 人工评估 细粒度关键词接受率 >80% |
参考答案 | GPT-4 生成 + 人工评分(1–5分) | 仅保留评分 ≥4 的高质量答案 |
四类查询定义与示例如下表
类型 | 描述 | 示例 |
Factual(事实型) | 寻求具体事实或证据 | “美国的首都是哪里?” |
Analytical(分析型) | 寻求概念或现象的分析 | “地球为何变暖?” |
Comparative(比较型) | 寻求不同维度的对比 | “A和B有何区别?” |
Tutorial(教程型) | 寻求任务执行步骤 | “如何安装TensorFlow?” |
评估指标设计(按阶段划分)¶
阶段 | 指标 | 说明 |
分块 | - | 通过关键词匹配间接评估 |
检索 | Recall, Accuracy | 基于多粒度关键词匹配计算 |
重排序 | Recall, Accuracy | 同上,评估重排序后Top-K效果 |
生成 | BLEU, Rouge-L, Faithfulness, Relevance, Correctness | 多维度评估生成质量 |
维度 | 贡献 |
方法论创新 | 提出多粒度关键词机制,摆脱对“黄金片段”的依赖,支持灵活分块策略 |
评估全面性 | 实现RAG全流程(分块→检索→重排序→生成)可解释评估 |
数据多样性 | 构建包含多格式文档、四类查询、中英文双语的综合性基准数据集 |
实用性提升 | 支持自动化标注+人工审核,兼顾效率与质量,适用于真实系统优化 |
总结
优点:
全链路评估
创新点:首次系统性地将RAG流程划分为 chunking → retrieval → reranking → generation 四个阶段,并分别设计评估方法。
好处:可以精确定位系统瓶颈,避免“黑盒”式评估,提升优化效率。
多粒度关键词
创新点:用“粗粒度关键词”+“细粒度关键词”替代传统的“golden chunk”标注方式。
好处:无需为每个chunk打标签,降低人工成本、支持灵活调整chunking策略,避免重新标注
多样化数据场景
创新点:构建了覆盖 PDF、PPT、DOC、XLSX 等多种文档格式的知识库
好处:更贴近真实应用场景,支持 factual / analytical / comparative / tutorial 四类查询,覆盖更广的用户需求
局限性:
评估指标偏传统
检索阶段仍使用Recall/Accuracy,生成阶段使用 BLEU/Rouge/等。 计算存在一定的局限性,只通过字词的共现来评估,缺乏语义层面的评估
多粒度关键词的泛化能力未知
虽然避免了golden chunk依赖,但关键词本身是否足够鲁棒、是否能覆盖所有查询类型仍待验证、对于高度抽象或跨段落推理的查询,关键词可能难以捕捉完整语义。
评估没有考虑多轮对话等复杂场景
当前评估是单次检索+生成的静态流程。未涉及多轮对话、动态检索等复杂场景的评估
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-15
2025-07-16
2025-07-09
2025-07-08
2025-09-15
2025-08-05
2025-08-18
2025-09-02
2025-08-25
2025-07-01
2025-09-10
2025-09-10
2025-09-03
2025-08-28
2025-08-25
2025-08-20
2025-08-11
2025-08-05