微信扫码
添加专属顾问
我要投稿
RAG范式:从检索的角度将RAG研究领域组织成四个主要阶段:预检索、检索、后检索和生成。
预检索:讨论了索引、查询操作和数据修改等任务,这些任务为有效的数据和查询准备奠定了基础。
检索:介绍了搜索和排名的策略,包括传统检索方法和利用预训练语言模型(如BERT)来提高语义理解。
后检索:包括重新排名和过滤,旨在优化初始检索文档的选择,以提高文本生成的质量。
生成:生成阶段的任务是利用检索到的信息提高生成响应的质量,包括增强和定制步骤。
评估方法:介绍了评估RAG系统的方法,包括对检索和生成方面的评估。
预检索(Pre-Retrieval):
这个阶段是检索过程的开始,包括索引的创建、查询的操纵和数据的修改。索引创建涉及将外部信息源组织成可以快速检索的格式。查询操纵旨在改善用户查询以更好地匹配索引数据。数据修改则可能包括去除不相关信息或添加元数据以提高检索效率。
检索(Retrieval):
在这个阶段,系统使用检索模型根据特定查询从索引中检索相关信息。这可能涉及到传统的检索算法,如BM25,或者利用预训练的语言模型,如BERT,来提高语义匹配的准确性。
后检索(Post-Retrieval):
这个阶段发生在初始检索之后,目的是优化检索到的文档。这通常包括重新排名(Re-Ranking)和过滤(Filtering)两个步骤,旨在提升文档的相关性和质量,从而为生成阶段提供更精确的信息。
生成(Generation):
最后,在生成阶段,系统将检索到的信息与用户的查询结合起来,通过大型语言模型生成文本。这个阶段可能包括增强(Enhancing)和定制(Customization)两个子步骤,以确保生成的文本不仅准确反映检索到的信息,而且满足用户的特定需求和上下文。
索引(Indexing):创建一个包含外部来源的索引,这为检索相关信息提供了基础。索引过程包括文本规范化(如分词、词干提取和去除停用词),以及将文本段落组织成句子或段落,以便于更精确的搜索。
查询操作(Query Manipulation):对用户查询进行调整以更好地匹配索引数据。这可能包括查询重构(改写查询以更贴近用户意图)、查询扩展(通过同义词或相关术语扩展查询以捕获更多相关结果)以及查询规范化(解决拼写或术语上的差异以实现一致的查询匹配)。
数据修改(Data Modification):增强检索效率的另一个关键步骤,包括预处理技术,如去除不相关或冗余信息以提高结果质量,以及通过添加元数据等额外信息来丰富数据,从而提高检索内容的相关性和多样性。
检索(Retrieval)
搜索与排名(Search & Ranking):这一步骤使用搜索算法浏览索引数据,寻找与用户查询相匹配的文档。在识别出相关文档后,接下来的过程是对这些文档进行初步排名,根据它们与查询的相关性进行排序。
检索策略:检索阶段可能采用不同的策略,包括利用传统的检索算法(如BM25算法)或使用预训练的语言模型(如BERT)来更好地理解查询的语义信息。这些模型通过考虑词汇的语义相似性来改进搜索的准确性。
语义理解:在检索中,语义理解是至关重要的,它允许系统不仅根据关键词的频率和存在性,而且根据词汇的上下文含义来评估文档的相关性。
向量距离测量:现代检索系统通常会计算文档和查询之间的向量距离,结合传统的检索指标和语义理解来产生既相关又符合用户意图的搜索结果。
多跳检索(Multi-hop Retrieval):一些系统可能采用多跳检索策略,通过多轮检索来迭代地改进检索结果的准确性。
后检索(Post-Retrieval)
重新排名(Re-Ranking):
在检索阶段得到的文档会根据与查询的相关性进行初步排名。在后检索阶段,系统会对这些已检索的文档进行重新评估和打分,以便更精确地突出显示与查询最相关的文档,并降低不相关文档的重要性。
重新排名可能会结合额外的指标和外部知识源,以提高检索精度。在这个阶段,可以使用一些准确度较高但效率较低的预训练模型,因为此时的候选文档集已经相当有限。
过滤(Filtering):
过滤步骤旨在移除那些未达到特定质量或相关性标准的文档。这可以通过多种方法实现,例如设定一个最小相关性得分阈值来排除低于一定相关性水平的文档。
过滤过程还可以利用用户反馈或先前的相关性评估来调整过滤策略,确保只有最相关的文档被保留用于文本生成。
增强(Enhancing):
这一步骤的目标是将检索到的信息与用户的查询合并,创建一个既相关又丰富的响应。通常,这涉及到对检索到的内容进行扩展,增加额外的细节,以丰富文本内容。
生成的文本应该清晰、连贯,并在保持与检索内容一致性的同时,也要有创造性地引入新的见解或观点。
定制(Customization):
这是一个可选步骤,涉及根据用户的特定偏好或请求的上下文调整内容。这可能包括将内容适应于目标受众的需求或将要呈现的格式,并精简信息以简洁地传达内容的核心。
定制过程还可能包括创建摘要或提要,强调关键点或论点,确保输出既信息丰富又简洁。
生成文本:
在这一阶段,使用大型语言模型(LLMs)来生成文本。这通常涉及将查询和检索到的信息串联起来,然后将合并后的内容输入到LLMs中进行文本生成。
质量控制:
生成的文本还需要进行质量控制,确保其准确性、相关性,并且没有误导性的信息。
后处理:
可能还需要一些后处理步骤,比如校对、编辑和格式调整,以确保最终输出的文本符合预期的质量和风格。
检索基础方面(Retrieval-based Aspect):
Accuracy:衡量检索文档在提供正确信息方面的精确度。
Rejection Rate:评估系统在找不到相关信息时拒绝回答的能力。
Error Detection Rate:评价模型识别和忽略检索文档中错误或误导信息的能力。
Context Relevance:评估检索文档与查询的相关性。
生成基础方面(Generation-based Aspect):
BLEU:衡量生成文本的流畅性和与人类产生文本的相似度。
ROUGE-L:量化文本与参考摘要的重叠,评估文本捕获主要思想和短语的能力。
Exact Match (EM) 和 F1 Score:分别确定完全正确答案的百分比和提供精确和召回的平衡评估。
多维度评估框架:
RAGAS:评估RAG系统的生成文本质量、检索文档的相关性以及生成内容的忠实度。
ARES:改进RAGAS,增加了置信区间和对排名准确性的评估。
RECALL:评估模型对外部反事实知识的鲁棒性,包括响应质量和错误检测率。
RGB:评估RAG对LLMs的影响,包括噪声鲁棒性和信息整合的准确性。
特定能力评估:
评估系统在特定任务上的表现,如对话生成、问答等。
抗误导性评估:
评估系统避免生成误导性信息的能力。
鲁棒性评估:
评估系统对于不准确信息的鲁棒性。
任务特定评估:
使用特定于任务的标准和新指标来评估性能。
用户反馈和先前评估:
利用用户反馈或先前的相关性评估来调整过滤过程。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2024-07-25
2025-01-01
2025-02-04
2024-08-13
2024-04-25
2024-06-13
2024-08-21
2024-09-23
2024-04-26
2025-04-30
2025-04-30
2025-04-30
2025-04-30
2025-04-29
2025-04-29
2025-04-29
2025-04-29