免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

RAG评估:Opik监控追踪RAG应用

发布日期:2025-12-03 14:37:47 浏览次数: 1531
作者:书童 AI 实战派

微信搜一搜,关注“书童 AI 实战派”

推荐语

RAG应用效果不稳定?Opik监控帮你精准定位问题,告别玄学表现!

核心内容:
1. RAG应用中常见的性能波动问题与痛点分析
2. Opik监控系统的配置与集成方法详解
3. 通过数据集评估和实验追踪实现RAG全流程监控

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


随着LLM系统规模的扩大,确保其性能保持稳当可靠成为真正的挑战。因此,构建可靠且高效的基于LLM的应用系统,需要的不仅仅是部署一个模型,还需要持续评估以确保质量和可观察性,以便能够在部署后发现问题。
很多团队在兴奋地搭完 RAG 管道后,却发现效果“玄学”:同样一套数据和模型,时而答得精准,时而胡说八道,线上用户反馈也忽好忽坏。到底是检索质量不行?还是生成阶段崩了?抑或上下文过长导致注意力稀释?
配置Opik监控
浏览器访问https://www.comet.com,并创建一个账户。完成后,将进入Opik的监控面板,在右侧“个人信息”找到API_KEY管理。
在当前工作目录创建一个.env文件,写入以下配置:
OPIK_API_KEY=q4AFia9yxMN3qOYHGxxxxxx
需要进行Opik配置:
import opikopik.configure(use_local=False)  #本地监控设置use_local=True
这段配置执行完成,会在用户目录创建一个配置文件:

生成配置内容:
[opik]url_override = https://www.comet.com/opik/api/workspace = xxxxxapi_key = q4AFia9yxMN3qOYHGnaxxxxx
使用Opik进行RAG追踪
0.安装开发依赖
使用pip安装Opik Python SDK开发包和LlamaIndex的集成模块:
pip install opikpip install llama-index
1.定义数据集
准备一个用于评估的数据集,数据集包含输入查询及其对应的预期输出。能够衡量LLM应用程序在一致性、事实性等多个参数上的表现。
2.运行试验
每个查询项都将通过RAG应用程序进行处理,以生成相应。在检索过程中,必须先向向量数据库中检索一些上下文信息,再生成相应:

使用预定义的评估指标,把应用程序的输出与预期输出进行比较,从而生成反馈分数。此外,还将比较预期上下文和减速到的上下文以评估检索流程。
3.追踪实验进展
Opik将跟踪和监控试验,在其仪表盘中记录每个数据集项的输出输出和分数,以便于分析。
将LlamaIndex与Opik集成
将LlamaIndex与Opik集成能够跟踪LlamaIndex操作,例如文档分块和索引,以生成查询和检索。需要配置一个Opik回调处理程序,回调程序充当LlamaIndex和Opik之间的桥梁,实时记录所有操作。
从LlamaIndex和Opik开发包导入处理程序:callbackManager、LlamaIndexCallBackHandler
from llama_index.core import Settingsfrom llama_index.core.callbacks import CallbackManagerfrom opik.integrations.llama_index import LlamaIndexCallbackHandler
创建一个LlamaIndexCallBackHandler实例,实例会总结将所偶LlamaIndex所有操作记录到Opik。
最后,使用LlamaIndexx的Setting来集成CallbackManager,确保LlamaIndex执行的每个操作都会被跟踪。
Settings.callback_manager = CallbackManager([opik_callback_handler])
构建RAG应用程序
使用LlamaIndex加载文档、构建索引并查询索引获得响应。
# Step 1: Load the documentsdocuments = SimpleDirectoryReader("./data/paul_graham").load_data()
# Step 2: Create the indexindex = VectorStoreIndex.from_documents(documents)
# Step 3: Create a query enginequery_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")
>>> print(response)
  • 使用SimpleDirectoryReader读取下载目录中的所有文档。
  • 文档加载完成后,VectorStoreIndex遍创建了索引,作为高校检索的基础。索引将问文档内容映射到存储在内存中的向量空间。
  • 索引准备就绪后,即可创建一个查询引擎,用于执行语义搜索并根据索引数据回答特定问题。
使用Opik进行RAG评估和跟踪
创建数据集
创建一个数据集来对其进行评估,数据集包括一个问题、一个答案以及得出该答案的背景信息。
创建数据集项:
自定义字段:
使用Opik监控RAG应用
from opik import track
@trackdef my_llm_application(inputstr) -> str:    response = query_engine.query(input)    return str(response)
使用@track装饰器定义一个函数,函数接收用户查询,并提供一个字符串输出(即RAG应用的输出)。这个函数可以是RAG、multimodal RAG、Agentic RAG等。
定义评估指标
from opik.evaluation.metrics import (    Hallucination,    AnswerRelevance,    ContextPrecision,    ContextRecall)
hallucination_metric = Hallucination()answer_relevance_metric = AnswerRelevance()context_precision_metric = ContextPrecision()context_recall_metric = ContextRecall() 
根据预期输出和应用程序给出的输出,将获得LLM应用程序的反馈分数。将所有内容整合到一起-数据集、评估任务、评分指标,以及实验配置,还制定了用作评估系统的模型,该模型充当评判者,监控RAG问答是如何工作的。
from opik.evaluation import evaluate
evaluation = evaluate(    dataset=dataset,    task=evaluation_task,    scoring_metrics=[hallucination_metric, answer_relevance_metric,                     context_precision_metric, context_recall_metric],    experiment_config={        "model"MODEL    })
由此得出评估结果:
另外,还可以在Opik控制面板“实验”部分查看这些结果,当出现幻觉时还可以查看更多细节以及生成特定分数的原因,更多使用方法请参考Opik官方使用文档。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询