微信扫码
添加专属顾问
我要投稿
深入了解RAG技术如何通过检索与生成的结合提升AI回答质量,并掌握关键评估指标。 核心内容: 1. RAG技术的三大核心流程:索引、检索与生成 2. 评估RAG系统的三大关键指标:准确率、忠实度与检索效率 3. 召回率、精确度与F值的具体计算与应用场景
Retrieval Augmented Generation,检索增强生成。 RAG = 检索技术(Search)+ LLM 提示。其主要目的是通过从外部检索与输入问题相关的相关信息,然后利用这些信息来引导生成过程,从而提高生成文本的相关性、准确性和多样性。具体可以参照下图:
RAG技术包括三个核心部分:索引(Indexing)、检索(Retrieval)和生成(Generation)。
首先,系统会对原始知识先进行分割切片,然后利用向量模型(Embedding Model)进行编码并存储在向量数据库中。
其次,当用户提出问题时,会使用检索算法(如BM25、DPR、ColBERT等)从向量数据库中找到最相关的信息。
最后,这些检索到的信息被整合到原始问题(提示词Prompt)中作为上下文输入到一个生成模型,最终生成更准确且符合上下文的答案。
那么在实际的应用中,我们应该更关注哪一个指标呢?我个人认为,倾向于更加重视召回率。因为现在大模型对于噪声数据有着比较高的容忍度,即使包含了一些错误或者噪声数据。一般情况下。大模型也能够过滤掉没用的部分,提炼出准确的答案。所以在条件允许的情况下,比如说GPU资源充足,系统性能足够强大,我会建议尽可能的优化召回率。这样做不仅能确保我们不会错过任何重要的信息,也能够让我们的模型啊,在面对复杂问题的时候,更加的稳健。
通过这种方式。我们就可以直接衡量RAG系统回答的准确性,或者得到一个综合的评分来反映整体的表现。
自动评估:自动评估同样也需要预先准备包含问题和标准答案的测试样本集,然后把这些问题交给RAG系统来获得作答结果。在自动评估的过程中,介绍两种主要的技术路径:
第一种方法是把问题和系统的作答结果输入到Cross-Encoder模型,得到它们之间的相关性作为得分。
第二种方法是计算标准答案和系统输出之间的文本相似度,以此作为评分的基础。
理论上,如果两者的相似度越高,那么模型回答的准确性也就越高。
值得我们注意的是,在第一种方法中,即使没有标准答案,也可以通过对问题和系统回答的相关性分析来进行初步的评分,这对于早期阶段的快速迭代特别有用。
最后,我们还要充分利用工具的力量。人工评估虽然比较精准,但确实非常耗时耗力,我们不妨用一些三方平台提供的强大评估工具和服务(例如LangSmith平台和Langfuse平台),当我们运行RAG服务时,这些平台不仅能够帮助我们追踪整个过程,从找到什么样的上下文,到最终的检索和生成的效果,还能够提供一站式的全面评估服务,这样一来,我们就可以轻松的掌握各个环节的表现,确保评估结果的准确性和可靠性。
当然,也可以考虑用类似RAGAS框架去解决。
https://docs.ragas.io/en/v0.1.21/getstarted/index.html
https://github.com/explodinggradients/ragas
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-10
AI 答疑助手优化实践:从 RAG 到 LightRAG 的全链路升级
2026-04-09
阿里云百炼「记忆库」正式上线,让龙虾真正记住你!
2026-04-09
用Karpathy的设计哲学重构龙虾助手的知识库架构
2026-04-08
AI数据工程师在应用中如何"返璞归真"
2026-04-08
AIOps探索:分享一套保障100%准确率的告警知识检索方案
2026-04-06
全网爆火的大模型AI知识库,保姆级教程来了
2026-04-02
RAG进化了,深扒Claude Code源码中RAG高级技巧
2026-04-01
Claude Code 源码一夜流出:会看热闹的人很多,会读源码的人很少
2026-01-15
2026-02-13
2026-02-03
2026-02-03
2026-02-06
2026-02-02
2026-01-28
2026-02-06
2026-02-05
2026-02-06
2026-03-17
2026-03-11
2026-02-22
2026-02-15
2026-02-04
2026-02-03
2026-01-19
2026-01-12