微信扫码
添加专属顾问
我要投稿
上篇内容介绍了如何使用TruLens进行RAG效果评估,本文介绍如何使用GPT-4进行打分,这也是目前常用的一种RAG自动化评估方法,比较适合有参考答案的RAG系统构建项目
虽然标题是说使用GPT4进行评估,但其实下文介绍的方法可以使用千问、智谱、百川等提供的模型,甚至Ollama本地部署的模型。实际情况中,大家可以根据实际情况灵活选择,总的来说是要选择相对较强的模型,因为要靠这个指标指导后续迭代方向。本文实际会使用GPT-4o-mini进行打分,使用Deepbricks所提供的服务,它可以使用支付宝付款,而且价格会比官方便宜不少
本文代码已开源,地址在:https://github.com/Steven-Luo/MasteringRAG/blob/main/evaluation/02_gpt_evaluation.ipynb
版本为:0.1.7
本次使用下图所示的样例数据进行测试,总共100条
uuid:所使用文档的UUID,便于评估检索效果
question:问题
qa_type:问题类型,共有两种,分别是detailed和long_context
detailed:用于模拟实际情况中的具体问题,例如具体的增长率,具体的数字
long_text:用于模拟实际情况中,需要较长上下文,甚至需要综合整篇文档的问题,例如“文本主要内容是什么”、多步骤的操作流程等
ref_answer:参考答案
gen_answer:RAG生成的答案,打分主要是对这个结果进行打分
测试集,是使用下文介绍的方法构建的,感兴趣的朋友可以查看
使用RAG技术构建企业级文档问答系统之QA抽取gen_answer是对之前介绍的基础流程效果的打分,感兴趣的朋友可以参考下文:
使用RAG技术构建企业级文档问答系统之基础流程
需要换用千问、智谱等API,只需要替换base_url和相应的api_key即可,需要使用Ollama,可以使用注释部分的代码
打分
检查一下模型响应,是不是按Prompt要求返回了
array(['是', '否'], dtype=object)
计算最终得分
0.74
如果你觉得我的文章对你有用的话,欢迎点赞、关注?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
聊聊AI智能体框架MetaGPT下的RAG实践
2025-04-30
如何用大模型+RAG给宠物做一个AI健康助手(干货分享)?
2025-04-30
HiRAG:基于层级知识索引和检索的高精度RAG
2025-04-29
教程|通义Qwen 3 +Milvus,混合推理模型才是优化RAG成本的最佳范式
2025-04-29
RAG开发框架LangChain与LlamaIndex对比解析:谁更适合你的AI应用?
2025-04-29
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升
2025-04-29
超神了,ChatWiki 支持GraphRAG,让 AI 具备垂直深度推理能力!
2025-04-29
AI 产品思维:我如何把一个 AI 应用从基础 RAG 升级到 multi-agent 架构
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-30
2025-04-29
2025-04-29
2025-04-26
2025-04-25
2025-04-22
2025-04-22
2025-04-20