微信扫码
添加专属顾问
我要投稿
深入了解RAG技术如何通过检索与生成的结合提升AI回答质量,并掌握关键评估指标。核心内容: 1. RAG技术的三大核心流程:索引、检索与生成 2. 评估RAG系统的三大关键指标:准确率、忠实度与检索效率 3. 召回率、精确度与F值的具体计算与应用场景
Retrieval Augmented Generation,检索增强生成。 RAG = 检索技术(Search)+ LLM 提示。其主要目的是通过从外部检索与输入问题相关的相关信息,然后利用这些信息来引导生成过程,从而提高生成文本的相关性、准确性和多样性。具体可以参照下图:
RAG技术包括三个核心部分:索引(Indexing)、检索(Retrieval)和生成(Generation)。
首先,系统会对原始知识先进行分割切片,然后利用向量模型(Embedding Model)进行编码并存储在向量数据库中。
其次,当用户提出问题时,会使用检索算法(如BM25、DPR、ColBERT等)从向量数据库中找到最相关的信息。
最后,这些检索到的信息被整合到原始问题(提示词Prompt)中作为上下文输入到一个生成模型,最终生成更准确且符合上下文的答案。
那么在实际的应用中,我们应该更关注哪一个指标呢?我个人认为,倾向于更加重视召回率。因为现在大模型对于噪声数据有着比较高的容忍度,即使包含了一些错误或者噪声数据。一般情况下。大模型也能够过滤掉没用的部分,提炼出准确的答案。所以在条件允许的情况下,比如说GPU资源充足,系统性能足够强大,我会建议尽可能的优化召回率。这样做不仅能确保我们不会错过任何重要的信息,也能够让我们的模型啊,在面对复杂问题的时候,更加的稳健。
通过这种方式。我们就可以直接衡量RAG系统回答的准确性,或者得到一个综合的评分来反映整体的表现。
自动评估:自动评估同样也需要预先准备包含问题和标准答案的测试样本集,然后把这些问题交给RAG系统来获得作答结果。在自动评估的过程中,介绍两种主要的技术路径:
第一种方法是把问题和系统的作答结果输入到Cross-Encoder模型,得到它们之间的相关性作为得分。
第二种方法是计算标准答案和系统输出之间的文本相似度,以此作为评分的基础。
理论上,如果两者的相似度越高,那么模型回答的准确性也就越高。
值得我们注意的是,在第一种方法中,即使没有标准答案,也可以通过对问题和系统回答的相关性分析来进行初步的评分,这对于早期阶段的快速迭代特别有用。
最后,我们还要充分利用工具的力量。人工评估虽然比较精准,但确实非常耗时耗力,我们不妨用一些三方平台提供的强大评估工具和服务(例如LangSmith平台和Langfuse平台),当我们运行RAG服务时,这些平台不仅能够帮助我们追踪整个过程,从找到什么样的上下文,到最终的检索和生成的效果,还能够提供一站式的全面评估服务,这样一来,我们就可以轻松的掌握各个环节的表现,确保评估结果的准确性和可靠性。
当然,也可以考虑用类似RAGAS框架去解决。
https://docs.ragas.io/en/v0.1.21/getstarted/index.html
https://github.com/explodinggradients/ragas
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-12
OpenAI 无需向量化的RAG新范例:探索大模型时代的高效知识问答与模型选择之道
2025-07-11
Rag评估框架
2025-07-11
一文读懂GraphRAG:把知识图谱塞进RAG,AI从“聪明”走向“懂事”
2025-07-11
文档太长模型“吃不下”?试试这15种Chunking策略,轻松搞定RAG!
2025-07-10
Spring Ai RAG 技术让大模型回答更精准
2025-07-09
5分钟了解GraphRAG和Mem0
2025-07-09
AI大模型落地最后一公里:RAG?
2025-07-09
技术总结之RAG用于文档信息抽取及多模态大模型两阶段训练范式
2025-04-19
2025-04-16
2025-05-08
2025-04-23
2025-04-16
2025-06-06
2025-05-30
2025-05-19
2025-04-14
2025-06-05
2025-07-09
2025-07-04
2025-07-01
2025-07-01
2025-07-01
2025-07-01
2025-06-30
2025-06-29