我要投稿

RAG评估:Opik监控追踪RAG应用

发布日期：2025-12-03 14:37:47 浏览次数： 1711

作者：书童 AI 实战派

微信搜一搜，关注“书童 AI 实战派”

随着LLM系统规模的扩大，确保其性能保持稳当可靠成为真正的挑战。因此，构建可靠且高效的基于LLM的应用系统，需要的不仅仅是部署一个模型，还需要持续评估以确保质量和可观察性，以便能够在部署后发现问题。

很多团队在兴奋地搭完 RAG 管道后，却发现效果“玄学”：同样一套数据和模型，时而答得精准，时而胡说八道，线上用户反馈也忽好忽坏。到底是检索质量不行？还是生成阶段崩了？抑或上下文过长导致注意力稀释？

配置Opik监控

浏览器访问https://www.comet.com，并创建一个账户。完成后，将进入Opik的监控面板，在右侧“个人信息”找到API_KEY管理。

在当前工作目录创建一个.env文件,写入以下配置：

OPIK_API_KEY=q4AFia9yxMN3qOYHGxxxxxx

需要进行Opik配置：

import opikopik.configure(use_local=False)  #本地监控设置use_local=True

这段配置执行完成，会在用户目录创建一个配置文件：

生成配置内容：

[opik]url_override = https://www.comet.com/opik/api/workspace = xxxxxapi_key = q4AFia9yxMN3qOYHGnaxxxxx

使用Opik进行RAG追踪

0.安装开发依赖

使用pip安装Opik Python SDK开发包和LlamaIndex的集成模块：

pip install opikpip install llama-index

1.定义数据集

准备一个用于评估的数据集，数据集包含输入查询及其对应的预期输出。能够衡量LLM应用程序在一致性、事实性等多个参数上的表现。

2.运行试验

每个查询项都将通过RAG应用程序进行处理，以生成相应。在检索过程中，必须先向向量数据库中检索一些上下文信息，再生成相应：

使用预定义的评估指标，把应用程序的输出与预期输出进行比较，从而生成反馈分数。此外，还将比较预期上下文和减速到的上下文以评估检索流程。

3.追踪实验进展

Opik将跟踪和监控试验，在其仪表盘中记录每个数据集项的输出输出和分数，以便于分析。

将LlamaIndex与Opik集成

将LlamaIndex与Opik集成能够跟踪LlamaIndex操作，例如文档分块和索引，以生成查询和检索。需要配置一个Opik回调处理程序，回调程序充当LlamaIndex和Opik之间的桥梁，实时记录所有操作。

从LlamaIndex和Opik开发包导入处理程序：callbackManager、LlamaIndexCallBackHandler

from llama_index.core import Settingsfrom llama_index.core.callbacks import CallbackManagerfrom opik.integrations.llama_index import LlamaIndexCallbackHandler

创建一个LlamaIndexCallBackHandler实例，实例会总结将所偶LlamaIndex所有操作记录到Opik。

最后，使用LlamaIndexx的Setting来集成CallbackManager，确保LlamaIndex执行的每个操作都会被跟踪。

Settings.callback_manager = CallbackManager([opik_callback_handler])

构建RAG应用程序

使用LlamaIndex加载文档、构建索引并查询索引获得响应。

# Step 1: Load the documentsdocuments = SimpleDirectoryReader("./data/paul_graham").load_data()
# Step 2: Create the indexindex = VectorStoreIndex.from_documents(documents)
# Step 3: Create a query enginequery_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
>>> print(response)

使用SimpleDirectoryReader读取下载目录中的所有文档。

文档加载完成后，VectorStoreIndex遍创建了索引，作为高校检索的基础。索引将问文档内容映射到存储在内存中的向量空间。
索引准备就绪后，即可创建一个查询引擎，用于执行语义搜索并根据索引数据回答特定问题。

使用Opik进行RAG评估和跟踪

创建数据集

创建一个数据集来对其进行评估，数据集包括一个问题、一个答案以及得出该答案的背景信息。

创建数据集项：

自定义字段：

使用Opik监控RAG应用

from opik import track
@trackdef my_llm_application(input: str) -> str:    response = query_engine.query(input)    return str(response)

使用@track装饰器定义一个函数，函数接收用户查询，并提供一个字符串输出（即RAG应用的输出）。这个函数可以是RAG、multimodal RAG、Agentic RAG等。

定义评估指标

from opik.evaluation.metrics import (    Hallucination,    AnswerRelevance,    ContextPrecision,    ContextRecall)
hallucination_metric = Hallucination()answer_relevance_metric = AnswerRelevance()context_precision_metric = ContextPrecision()context_recall_metric = ContextRecall()

根据预期输出和应用程序给出的输出，将获得LLM应用程序的反馈分数。将所有内容整合到一起-数据集、评估任务、评分指标，以及实验配置，还制定了用作评估系统的模型，该模型充当评判者，监控RAG问答是如何工作的。

from opik.evaluation import evaluate
evaluation = evaluate(    dataset=dataset,    task=evaluation_task,    scoring_metrics=[hallucination_metric, answer_relevance_metric,                     context_precision_metric, context_recall_metric],    experiment_config={        "model": MODEL    })