支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI 全栈工程体系中,Prompt Engineering、AI Agent 和 RAG 如何协同工作?

发布日期:2025-05-13 11:29:49 浏览次数: 1520 作者:思维小岛
推荐语

探索AI全栈工程体系中的关键技术协同工作机制。

核心内容:
1. 大型语言模型(LLM)作为AI全栈工程体系的核心驱动力
2. Prompt Engineering在引导和控制LLM行为中的关键作用
3. RAG技术如何解决LLM的知识局限性,增强其生成能力
4. AI Agent如何整合多种能力,实现自主行动和任务协调

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

Agent+RAG)" author="思维小岛" src="/cgi-bin/readtemplate?t=tmpl/audio_tmpl&name=AI%26nbsp%3B%E5%85%A8%E6%A0%88%E5%B7%A5%E7%A8%8B%E4%BD%93%E7%B3%BB%E6%8C%87%E5%8D%97(LLMs%2BPrompt%26nbsp%3BEngineering%2BAI%26nbsp%3BAgent%2BRAG)&play_length=" isaac2="0" low_size="26726.4" source_size="26726.4" high_size="26726.4" play_length="570000" data-trans_state="1" data-verify_state="3" voice_encode_fileid="Mzk3NTgzODUxNF8yMjQ3NDg0MTUz" cover="https://api.ibos.cn/v4/weapparticle/accesswximg?aid=111114&url=aHR0cDovL21tYml6LnFwaWMuY24vbW1iaXpfanBnL0sxbVozbEwwTHFXTFhWMkNpY0dieEtnM2xHZ1UzZFoxZVFZTHVSMWUyTnE3aWNnNm5RMjdMNDJINVVtTktiN0lzR25QRllidlJGMngxZjRqVjVPb0RSOGcvMD93eF9mbXQ9anBlZw==">


1、AI 全栈工程体系中,Prompt Engineering、AI Agent 和 RAG 如何协同工作?


LLMs、Prompt EngineeringAI Agent 和 RAG 在构建复杂的AI应用(可以视为“AI 全栈工程体系”的一部分)中扮演着相互关联、协同工作的关键角色。


基础:大型语言模型 (LLM)
首先,大型语言模型 (LLM) 是整个体系的 核心驱动力或“大脑”。它们具备强大的自然语言处理能力,负责理解、推理和生成文本。然而,LLMs 有其固有的局限性,比如可能产生“幻觉”(即编造不准确或虚假的信息)和“知识截止日期”(无法了解训练数据之后发生的事件)。
引导与控制:Prompt Engineering 是与 LLM 交互并引导其行为、发挥其能力的关技术。通过精心设计的提示词,可以显著提高 LLM 输出的质量、相关性和准确性。在智能体和 RAG 系统中,Prompt Engineering 用于:指导 LLM 进行推理和规划。例如,ReAct (Reason+Act) 框架是一种利用 Prompt Engineering 指导 LLM 进行思考(Thought)并采取行动(Action)的技术,这是智能体运作的核心机制之一。
在 RAG 中,检索到的信息会用于 “增强”原始的用户查询,形成一个新的提示词 传递给 LLM,以提供额外的上下文。这本质上也是一种 Prompt Engineering 的应用,确保 LLM 在生成回答时能够利用外部知识。
知识增强:RAG (Retrieval Augmented Generation)
RAG (Retrieval Augmented Generation)是一种解决 LLM 知识局限性和幻觉问题 的关键技术。它通过 动态地从外部知识库(如向量数据库、文档等)中检索相关信息,并将这些信息作为上下文提供给 LLM,从而增强模型的生成能力,使其回答更准确、基于事实且具有时效性。一个典型的 RAG 工作流程包括准备外部知识源(如索引和向量化)、根据用户查询进行检索,然后将检索到的信息与查询结合(增强)后输入给 LLM 生成回答。RAG 为 LLM 提供了 超越其训练数据之外的外部知识,这对于处理需要最新信息或特定领域知识的任务至关重要。
自主行动与协调:AI Agent是一个更复杂的系统,它以 LLM 为核心“大脑”,并整合了 规划 (Planning)、记忆 (Memory)、工具使用 (Tool Use) 等能力。智能体的目标是能够 自主地理解目标,制定计划,执行一系列步骤,与外部环境(通过工具)交互,并根据反馈调整其行为,以完成复杂的任务,而不需要持续的人类干预。
智能体通过 工具 (Tools) 与外部世界连接。这些工具可以是搜索工具、代码解释器、API 调用,RAG 系统本身也可以被视为智能体可以调用的一种重要工具
协同工作:Agentic RAG 作为核心模式这三者的协同工作在 Agentic RAG模式中得到了突出体现。在 Agentic RAG中,一个或多个 AI Agent 被集成到 RAG 流程中。
智能体在这里扮演着 “智能协调者” 的角色,它利用 LLM 的推理能力(受 Prompt Engineering 引导)来:理解复杂的查询,并可能将其分解为更小的子问题(查询分解)。决定何时需要检索外部信息,以及 使用哪种工具进行检索(例如,是进行向量搜索、网页搜索还是调用特定的 API)。制定检索计划,可能进行多轮检索以收集全面的信息。评估检索结果的质量和相关性,甚至在必要时重新进行检索。将最终检索到的信息与用户查询一起,通过 Prompt Engineering 的方式传递给 LLM 进行最终的回答生成。
此外,智能体的 记忆 组件(通常也依赖于向量数据库等技术,与 RAG 的基础设施相关联),帮助智能体在多轮交互中保持上下文,并从过去的经验中学习,进一步优化其规划和工具使用(包括 RAG 的使用)。智能体的 指令 则定义了其行为规则和如何使用其工具集(包括 RAG)。

总的来说,在一个AI全栈工程体系中:


  • LLM:提供基础的智能能力和文本处理能力。
  • Prompt Engineering:是与 LLM 沟通和引导其行为的桥梁,贯穿于智能体的推理、规划以及 RAG 的增强阶段。
  • RAG:作为一个强大的知识增强机制,为 LLM 克服知识局限性提供了外部、动态、实时的信息。
  • AI Agent:则是 将 LLM、Prompt Engineering、RAG 和其他工具整合起来,实现自主规划、行动和任务完成的执行者
  • 特别是 Agentic RAG,展示了智能体如何智能地编排 RAG 流程,使其知识获取更加动态和灵活。

  • 它们层层递进,相互依赖,共同构建了能够处理更复杂、需要外部知识和自主决策的智能应用。


2、RAG 系统中的关键组件和技术(如分块和嵌入)如何影响性能?


在检索增强生成(RAG)系统中,分块(Chunking)和嵌入(Embeddings)是两个关键的技术,它们对系统的整体性能有着显著影响,主要体现在它们如何影响信息检索的质量以及最终生成响应的准确性和相关性。


以下是它们影响性能的方式:


分块(Chunking):
定义和目的:分块是将大型文档分解成更小、更易于管理的文本片段的过程。这是 RAG 系统索引阶段的关键步骤,旨在提高检索质量。
如何影响性能:检索准确性与上下文保留:分块策略(如固定大小、基于递归、语义分块、基于文档的分块)和块的大小、重叠度对于检索的准确性和上下文的保留至关重要。合适的块大小有助于确保检索到的片段既包含足够的信息来回答问题,又不会包含太多无关信息。
检索效率:小而独立的块可能导致检索效率提高,但如果上下文不足,可能会影响 LLM 理解和生成完整答案的能力。
信息缺失:如果块太小或分块策略不当,可能导致相关信息被分割到不同的块中,或者关键信息未能包含在检索到的少量块中。
冗余和噪声:如果块太大或重叠度过高,可能导致检索结果中包含大量冗余信息,增加 LLM 处理的负担,甚至引入噪声。
评估挑战:评估分块对 RAG 系统最终输出的影响是具有挑战性的。
评估指标:Chunk Utilization(块利用率)是一个度量指标,衡量检索到的块文本中有多少被用于构成最终响应。低块利用率可能表明块的大小过大,包含了很多未被使用的文本。
嵌入(Embeddings):
定义和目的:嵌入是文本(或数据)的数值表示,通常是密集、连续的向量,它们在一个高维空间中捕捉文本的语义含义和词语之间的关系。将文本块转换为嵌入是索引阶段的关键步骤,用于实现语义搜索。
如何影响性能:语义搜索能力:嵌入模型的质量直接决定了向量数据库中语义搜索的效果。好的嵌入模型能够更准确地捕捉文本的语义相似性,从而使系统能够检索到与用户查询在意义上最相关的文本块,即使这些块中不包含查询中的 exact 词语。
检索结果的相关性:选择合适的嵌入类型(如密集嵌入、稀疏嵌入、多向量嵌入)对于提高检索性能至关重要。不同的嵌入模型适用于不同的用例和领域。
成本与性能权衡:不同的嵌入模型在性能和成本上存在差异。源材料提到,某些较小的编码器模型(如 gte-small)在归因(attribution,即块被用于构成响应的比例)方面可以带来显著提升,性能与大型模型相近,这表明在保持性能的同时可以节省成本。
评估挑战:评估嵌入模型的有效性具有挑战性,因为它们对下游 RAG 性能的影响可能不够透明。
检索失败分析:通过检查检索到的块(基于嵌入相似度找到的)是否包含回答查询所需的特定信息,可以分析检索是否失败,并评估嵌入模型或分块策略的有效性。
数据库操作速度:嵌入的插入速度(Insertion speed)和查询速度(Query speed)是影响向量数据库性能和成本的关键指标。


分块和嵌入是 RAG 系统实现有效检索的基础。恰当的分块策略有助于将原始文档组织成有意义且易于检索的单元。高质量的嵌入模型则能准确地将这些文本单元映射到向量空间中,使得相似度搜索能够准确地找到与用户查询相关的块。如果分块或嵌入表现不佳,检索组件就可能无法找到最相关的上下文,从而导致 LLM 生成的回答不准确、不完整或缺乏相关性。重排序等技术可以在一定程度上弥补检索的不足,通过重新排列检索到的块来提高最终提供给 LLM 的上下文质量。


3、如何评估和提升基于大型语言模型(LLM)、AI Agent 和检索增强生成(RAG)的系统的可靠性与安全性?


评估这些复杂的系统需要多维度的方法。随着系统复杂性的增加,评估变得越来越困难,但也越来越重要。评估应从单一指标转向多维度、基于场景的评估。


通用评估指标和方法:任务完成度 (Task Completion):评估 AI Agent 是否能完成预设任务。
回答相关性 (Answer Relevancy):确定 LLM 输出是否能以信息丰富且简洁的方式回应输入。
正确性 (Correctness):根据事实真相判断 LLM 输出是否准确。
幻觉 (Hallucination):确定 LLM 输出是否包含虚假或捏造的信息。尽管 RAG 的目的是减少幻觉,但仍可能发生。
QAG Score:利用 LLM 的推理能力来评估 LLM 输出,通过对封闭式问题(通常是“是”或“否”答案)计算得分,这被认为是可靠的,因为它不直接让 LLM 生成分数。
结合自动化和人工评估方法。
RAG 系统评估:RAG 是一个多阶段、多步骤的框架,需要整体和细粒度的评估。这确保了组件级别的可靠性和高层次的准确性。
组件级别评估 (Component-level evaluation):主要关注评估检索器和生成器的质量。
检索指标 (Retrieval Metrics):例如 Chunk Attribution(文档块是否用于生成回答)和 Chunk Utilization(文档块文本用于生成回答的程度)。低利用率可能表明块大小过大。
生成器评估: 评估 LLM 生成回答的质量。
系统指标 (System Metrics): 监控 RAG 部署基础设施的运行状况、性能和资源利用率。
RAGAS: 一个流行的评估框架。
Agent 系统评估:评估 Agent 需要衡量其设计决策、工具使用效率和任务完成的稳健性。
行为模式 (Behavioral patterns): 评估逐步的决策过程。
工具效能 (Tool effectiveness):评估 Agent 使用特定工具或 API 的效率。
成本效率 (Cost efficiency): 监控多轮迭代中的资源使用。
任务成功率 (TaskSuccessRate): 检查 Agent 是否声明成功,或者是否真正完成了任务。
评估者-优化者 (Evaluator-optimizer) 模式:一个 Agent 尝试一个任务,另一个评估者 Agent 提供反馈(例如“需要更多生动的意象”),然后原始 Agent 根据反馈进行修改,这个循环可以迭代进行以提高输出质量。

提升系统的可靠性


提升可靠性涉及优化 LLM 的推理能力、增强 RAG 的知识获取能力以及改进 Agent 的规划和执行能力。


提升 LLM 的可靠性:
提示词工程 (Prompt Engineering):通过提供清晰简洁的指令,设定角色,明确输出格式,以及使用少量样本提示 来引导 LLM 行为。
推理技术: 使用 Chain-of-Thought (CoT) 提示 指导模型逐步思考,Tree-of-Thoughts (ToT) 允许探索多个推理路径,ReAct (Reason+Act) 将自然语言推理与外部工具结合,形成思考-行动循环。
模型微调:通过提供展示 Agent 能力的示例,包括使用特定工具或推理步骤的实例,可以进一步微调模型以适应 Agent 的任务。
RLHF/RLAIF:通过人类反馈或 AI 反馈进行强化学习,使模型生成更符合人类偏好的响应。
提升 RAG 的可靠性:
核心能力:RAG 本身通过从外部来源获取实时、小众数据来增强模型,从而减少幻觉并提高准确性和详细程度。
优化技术:分块策略 (Chunking strategies):将文档分解成更小、更易于管理的块,如固定大小、递归分割、语义分块等,块大小和重叠对检索准确性至关重要。
嵌入模型 (Embedding models):选择合适的嵌入模型将文本转换为向量表示,这影响语义搜索的效果。
重排序 (Re-ranking):在初步检索后使用重排序模型优化文档块顺序,提升提供给 LLM 的上下文质量。
Agentic RAG:将 AI Agent 整合到 RAG 流程中,赋予 Agent 自主决定何时、如何以及检索什么信息的能力。Agent 可以进行多步骤检索、访问多种工具,并能够验证检索到的信息,从而克服传统 RAG 的局限性,提高响应的准确性和稳健性。
提升 Agent 的可靠性:核心组件:Agent 的可靠性基于其核心组件:作为推理引擎的 LLM、用于与外部世界交互的工具、用于从经验中学习和存储上下文的记忆,以及用于分解任务和评估结果的推理能力(规划和反思)。
清晰的指令:高质量的指令对于 Agent 的决策至关重要,可以减少歧义并提高工作流程执行效率。
工具使用 (Tool Use):Agent 利用外部工具(如搜索、API 调用、代码解释器、数据存储)来获取实时信息、建议真实世界的行动并执行复杂任务。这扩展了 LLM 的能力,使其能够动态地与真实世界互动。
规划和反思 (Planning and Reflection):Agent 通过任务分解将复杂问题分解为小步骤,并通过反思评估每一步的结果并根据需要调整计划。
迭代开发 (Iterative development):从简单的原型开始,逐步增加复杂性,并通过持续实验和反馈来完善 Agent 行为。
灵活性和可组合性 (Flexibility and composability):设计 Agent 时考虑灵活性和可组合性。
故障处理:纳入适当的故障模式,帮助 Agent 在无法完成任务时“脱困”。
人为干预 (Human-in-the-loop):规划人为干预,例如在检查点或遇到障碍时暂停 Agent 的执行以获取人类反馈。

提升系统的安全性 (Guardrails)


安全护栏 (Guardrails) 对于确保 Agent 系统安全、可预测地运行至关重要。它们是任何 LLM 部署的关键组成部分。

安全护栏的作用:
帮助管理数据隐私风险(例如,防止系统提示泄露)和声誉风险(例如,强制执行品牌一致的模型行为)。可以解决已识别的风险,并根据发现的新漏洞分层添加。对于基于复杂决策、非结构化数据或脆弱规则系统的用例尤其重要。
安全护栏的实施:可以包括输入过滤 (input filtering)、工具使用控制 (tool use control) 和人工干预。应与强大的身份验证和授权协议、严格的访问控制以及标准软件安全措施相结合。例如,可以使用输入护栏在 Agent 处理用户输入之前检查特定条件,如潜在的客户流失风险。Anthropic 强调构建“有用、诚实、无害”的 Agent。安全指标 (Safety Metrics) 用于识别模型响应中的敏感信息(如 PII)和有害内容(Toxicity)。

评估 LLM、Agent 和 RAG 系统的可靠性与安全性需要一套全面的方法,涵盖通用指标、特定于 RAG 和 Agent 的评估策略。提升可靠性依赖于优化 LLM 的推理能力、利用 RAG 增强知识获取,并设计 Agent 的规划、工具使用和反思循环。安全性则通过实施强大的安全护栏、结合标准安全措施以及持续监控来保障.


4、RAG如何提升LLM的准确性?


检索增强生成(RAG)系统通过以下方式显著提升大型语言模型(LLM)的准确性:

解决LLM的知识局限性和幻觉问题:大型语言模型在其训练数据中学习知识,但这部分知识是静态的,有一个“知识截止日期”。对于训练数据之后发生的事件或新出现的信息,LLM无法感知。LLM也可能产生“幻觉”(Hallucination),即生成听起来合理但实际上是虚假或编造的信息。引入外部、动态、实时的知识:RAG 的核心思想是动态地从外部知识库中检索相关信息这些知识库可以是向量数据库、文档等。这些外部信息是实时的、小众的或特定领域的。通过 RAG,LLM 获得了超越其训练数据之外的外部知识
将检索到的信息作为上下文提供给LLM典型的 RAG 工作流程包括:将外部数据进行分块和嵌入,存储在向量数据库中(索引阶段)。当用户提出问题时,系统检索与问题最相关的文档块。然后,将这些检索到的文档块与原始用户问题结合起来,构建成一个新的、经过“增强”的提示词。这个增强后的提示词被输入给 LLM,指导其生成回答。
使LLM的回答基于事实数据(Grounding):通过将检索到的、外部的、可验证的信息作为上下文,RAG 迫使 LLM 基于这些事实证据来生成回答。这显著减少了 LLM 凭空捏造信息的可能性(减少幻觉),并使其回答能够包含最新的或特定领域的信息,从而提高了响应的准确性和详细程度.
提高输出的可靠性和可信度:通过将 LLM 的响应建立在外部、可验证的信息之上,RAG 显著提高了 LLM 输出的可靠性和可信度,使其适用于需要事实准确性的更广泛应用。这种能力增强了生成回答的可靠性(reliability)和准确性(accuracy).

总而言之,RAG 通过动态检索外部相关知识并将其作为上下文提供给LLM,有效地解决了 LLM 的知识时效性和幻觉问题,使生成的回答基于事实证据,从而显著提升了LLM输出的准确性、可靠性和可信度。特别是 Agentic RAG,通过赋予智能体自主决定何时、如何以及检索信息的能力,进一步提高了知识获取的动态性和灵活性,从而可以生成更准确和稳健的响应.


5、Agentic RAG与传统RAG有何不同?


Agentic RAG 与传统(或称普通、朴素 Naive/Vanilla)RAG 的主要区别在于是否将 AI Agent(智能体) 集成到检索增强生成(RAG)流程中,以及这种集成带来的 自主决策和动态能力


以下是它们之间的具体差异:


核心架构和流程:
传统 RAG:通常是一个相对固定的、"检索然后生成" 的流程。它被描述为一个“一站式解决方案”(one-shot solution)。其基本组成部分包括一个检索组件(通常是嵌入模型和向量数据库)和一个生成组件(LLM)。用户查询被直接用于在向量数据库中进行相似度搜索,检索到相关的文档块,然后将这些检索到的信息与原始查询一起输入给 LLM 进行回答生成。
Agentic RAG:将一个或多个 AI Agent 集成到 RAG 流程中。Agent 成为架构的 核心,并扮演着 “智能协调者” 的角色。Agent 利用 LLM 的推理能力来 自主地管理信息检索过程
检索过程的动态性与自主性:
传统 RAG:检索过程相对 静态 和 被动。系统直接根据用户输入执行预设的检索步骤,没有进一步的思考或调整。不具备查询预处理、多步骤检索和验证检索信息的能力。
Agentic RAG:检索过程更加 动态、灵活且由 Agent 驱动。Agent 可以根据上下文、任务进展和当前理解,主动决定何时需要检索外部信息。Agent 可以 决定如何检索,例如使用哪种工具(见下一点)。Agent 还能 决定检索什么,甚至 重新制定查询
工具的使用:
传统 RAG:通常 仅限于访问预先索引的外部知识源(主要是向量数据库中的文档)。它 没有访问其他外部工具的能力
Agentic RAG: Agent 作为一个更复杂的系统,可以通过 工具 与外部世界连接。这些工具可以包括 向量搜索(传统的 RAG 功能本身可以被视为 Agent 可以调用的一种重要工具),还可以是 网页搜索, 计算器,或 调用各种 API 来访问邮件、聊天记录或其他软件系统。工具的使用扩展了 LLM 的能力,使其能够动态地与真实世界互动。
规划、反思与多步骤能力:
传统 RAG:缺乏规划和反思能力,通常是 单步 完成检索和生成。
Agentic RAG:Agent 具备 规划 (Planning) 和 反思 (Reflection) 的能力。Agent 可以将复杂查询分解为更小的子问题,制定检索计划,甚至进行 多轮检索 以收集全面的信息。Agent 还可以 评估检索结果的质量和相关性,并在必要时 重新进行检索 或根据反馈调整计划。Agentic RAG 可以处理需要 多步骤推理 的复杂查询。
结果的准确性、可靠性与稳健性:
传统 RAG: 通过利用外部知识,本身就能 减少幻觉 并提高准确性和详细程度。
Agentic RAG:通过 Agent 的推理能力和对检索过程的精细控制,例如能够 验证检索到的信息,将查询路由到 更专业的知识源,以及进行迭代和调整,Agentic RAG 能够生成 更准确更稳健 (robust) 和 更可靠 的响应。它克服了传统 RAG 在处理复杂查询时的局限性。
复杂性和应用场景:
传统 RAG: 适用于那些可以通过简单检索就能解决的问题。
Agentic RAG: 更适合处理 开放式问题,复杂决策,非结构化数据,或需要 不固定步骤 的任务。Agentic RAG 能够实现自主执行任务和增强人机协作。
如果将传统 RAG 类比为一本可以查阅的、有索引的百科全书,Agentic RAG 则像是一个聪明的研究助理,他知道如何在需要时去查阅这本百科全书,也可以去图书馆借书(其他数据库),甚至上网搜索最新信息,并且他会思考、规划、验证信息,确保给你一个全面、准确且经过验证的回答。这种由 Agent 带来的自主性、工具使用能力和多步骤推理是 Agentic RAG 与传统 RAG 的本质区别。


6、如何评估RAG系统的性能?


评估检索增强生成(RAG)系统的性能是一个多方面的工作,涉及多个组件和整体输出的质量。评估旨在确保系统的可靠性、准确性和实用性。


以下是评估 RAG 系统性能的关键方面和方法:

组件级别评估 (Component-level evaluation):RAG 的性能高度依赖于其核心组件,因此需要单独评估它们。
检索器 (Retriever) 的评估:
分块 (Chunking) 策略:分块是将大型文档分解成更小片段的过程,对检索质量至关重要。需要评估不同的分块策略(如固定大小、递归分块、语义分块等)和块的大小、重叠度对检索准确性和上下文保留的影响。低 Chunk Utilization(块利用率) 可能表明块太大,包含了未被用于生成响应的文本。
嵌入模型 (Embeddings) 的质量:嵌入模型将文本转换为向量,直接影响语义搜索的效果和检索结果的相关性。选择合适的嵌入模型对于提高检索性能至关重要。可以通过检查检索到的块是否包含回答查询所需的特定信息来分析检索失败,并评估嵌入模型的有效性。一些指标,如 Chunk Attribution,可以衡量检索到的块是否被用于生成回答。
重排序 (Re-ranking):在初步检索后,使用重排序模型可以优化文档顺序,将最相关的排在前面。评估重排序算法(如 Pointwise, Pairwise, Listwise 方法)能确保提供给 LLM 的上下文质量最优。
检索效率:小而独立的块可能提高检索效率。评估向量数据库的嵌入插入速度(Insertion speed)和查询速度(Query speed)对性能和成本有关键影响。
生成器 (Generator) 的评估:评估 LLM 在接收检索到的上下文后生成最终回答的能力。需要评估 LLM 是否能有效整合多段相关信息,避免生成准确但不完整的回答。
系统级别和整体性能评估:评估整个 RAG 系统的输出质量和行为。
准确性 (Accuracy) 与可靠性 (Reliability):RAG 的主要目的之一是减少大型语言模型的“幻觉”(虚假信息)并使其回答基于事实证据 (Grounding)。评估系统生成幻觉的程度以及回答是否能被检索到的外部信息所证实。这种能力增强了响应的可靠性(reliability)和准确性(accuracy)。
相关性 (Relevance) 与完整性 (Completeness):评估生成的回答是否直接且完整地回答了用户的查询,包括了必要的信息。需要克服因检索不足或 LLM 未能整合所有相关信息导致的信息缺失或不完整问题。
处理领域外 (Out-of-Domain) 查询的能力:评估 RAG 系统在面对与其训练数据或外部知识库领域无关的查询时,是否能给出恰当的响应,例如承认无法回答或说明查询超出其知识范围。
安全指标 (Safety Metrics):评估模型响应是否包含有害内容(如 Toxicity)或敏感的个人身份信息 (PII)。这包括检查信用卡号、电话号码、地址等信息。
系统运行指标:监控 RAG 基础设施的运行状况、性能、响应延迟 (latency) 和资源利用率,以确保系统最优运行。成本也是重要的考量因素。
产品指标 (Product Metrics):收集用户反馈,如点赞/点踩或星级评分,以了解用户满意度。
评估方法与工具:
自动化评估框架:RAGAS 是一个流行的 RAG 评估框架。
人工评估:对于复杂的评估,特别是理解回答的细微差别和上下文相关性,人工评估仍然重要。
使用 LLM 生成评估数据:可以利用 LLM(如 GPT-4)根据文本块生成用于测试的查询,以创建评估数据集。也可以使用合成问题来评估回答的语气、PII 和毒性。
Agentic RAG 的特定评估:在 Agentic RAG 中,评估还需要考量智能体的自主决策过程、工具(包括 RAG 工具)的使用效率以及在复杂任务中完成目标的稳健性。
工具平台:Galileo GenAI Studio 被提及为一种用于评估和监控 RAG 系统的工具,提供详细的分析指标和可视化界面。Weaviate 也提供了 RAG 集成和示例,暗示了测试和实验的平台。
迭代与实验:优化 RAG 系统需要不断的迭代开发和持续实验,调整分块策略、嵌入模型、检索参数等,并通过评估指标来衡量改进效果。

总的来说,评估 RAG 系统的性能需要从其组成部分(检索器、生成器)的效率和质量,到整个系统输出的准确性、相关性、安全性等多维度进行考量,并结合自动化工具、人工评估和迭代实验来不断优化。


原始报告和材料可参阅我个人知识库:


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询