微信扫码
添加专属顾问
我要投稿
内容大纲
附录:评估基准
2.1 检索增强评估
为量化模型的幻觉现象,Lee等人2022年的文章<<Factuality Enhanced Language Models for Open-Ended Text Generation>>推出了一个新的基准数据集FactualityPrompt,该数据集包含事实性和非事实性提示。该数据集以Wikipedia文档或句子作为事实性验证的知识库。这些Wikipedia文档是从FEVER数据集中挑选的已知的真实信息,而句子则是基于tf-idf或句子嵌入相似度选择的。
Wei等人(2024年的文章Long-form factuality in large language models)提出了一种名为SAFE(Search-Augmented Factuality Evaluator,搜索增强事实性评估器;附有代码)的评估方法,用于检查大型语言模型(LLMs)生成长文本的事实性。
与FActScore相比,SAFE的主要区别在于,对于每个独立且具体的原子事实,SAFE采用语言模型作为代理,在多步骤过程中迭代地发出Google搜索查询,并推断搜索结果是否支持该事实。在每个步骤中,代理会根据要检查的事实以及先前获得的搜索结果生成搜索查询。经过多个步骤后,模型会进行推理,以确定搜索结果是否支持该事实。
实验表明,SAFE方法的表现优于人类标注者,尽管其成本仅为人类标注者的二十分之一:SAFE与人类标注者的同意率高达72%,在双方意见不一致的情况下,SAFE的胜率更是高达76%。
2.2 基于采样的检测
SelfCheckGPT(Manakul等人,2023年,SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models)依赖于对来自黑盒大型语言模型(LLM)的多个样本进行事实性错误的一致性检查。鉴于灰盒事实核查测量需要访问LLM的标记级对数概率,SelfCheckGPT仅需要不依赖于外部知识库的样本,因此仅通过黑盒访问即足够,无需外部知识库。
2.3 对未知知识进行校准
当模型被要求回答无法回答或未知的问题时,可能会产生幻觉(即生成不准确或错误的信息)。为了衡量模型在这种情况下生成真实回答的能力,TruthfulQA(Lin等人,2021年,TruthfulQA: Measuring How Models Mimic Human Falsehoods)和SelfAware(Yin等人,2023年,Do Large Language Models Know What They Don't Know?)是两个重要的基准测试。前者是通过对抗性构建来强调人类常见的错误,而后者则包含了一些因其本质而无法回答的问题。面对这些问题,模型应该拒绝回答或提供相关信息。
Yin等人(2023年,Do Large Language Models Know What They Don't Know?)研究了自我认知的概念,即语言模型是否能够知道自己知道什么以及不知道什么。他们构建了一个名为SelfAware的基准测试集,其中包含五个类别的1032个无法回答的问题和2337个可回答的问题。无法回答的问题来源于带有人工标注的在线论坛,而可回答的问题则是基于与无法回答问题的文本相似性,从SQuAD、HotpotQA和TriviaQA等数据集中选取的。一个问题可能因多种原因而无法回答,例如缺乏科学共识、对未来的想象、完全主观的表述,以及可能产生多种回应的哲学原因等。如果将区分可回答与无法回答的问题视为一个二分类任务,我们可以通过测量F1分数或准确率来评估模型的表现。实验结果表明,规模更大的模型在这一任务上表现更佳。
2.3 间接查询
Agrawal等人(2023年,Do Language Models Know When They're Hallucinating References?)专门研究了大型语言模型(LLM)生成中虚构引用的情况,包括捏造的书籍、文章和论文标题。他们试验了两种基于一致性的方法来检查虚构内容,即直接查询与间接查询。这两种方法均在T > 0时多次运行检查并验证一致性。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
聊聊AI智能体框架MetaGPT下的RAG实践
2025-04-30
如何用大模型+RAG给宠物做一个AI健康助手(干货分享)?
2025-04-30
HiRAG:基于层级知识索引和检索的高精度RAG
2025-04-29
教程|通义Qwen 3 +Milvus,混合推理模型才是优化RAG成本的最佳范式
2025-04-29
RAG开发框架LangChain与LlamaIndex对比解析:谁更适合你的AI应用?
2025-04-29
RAG性能暴增20%!清华等推出“以笔记为中心”的深度检索增强生成框架,复杂问答效果飙升
2025-04-29
超神了,ChatWiki 支持GraphRAG,让 AI 具备垂直深度推理能力!
2025-04-29
AI 产品思维:我如何把一个 AI 应用从基础 RAG 升级到 multi-agent 架构
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-30
2025-04-29
2025-04-29
2025-04-26
2025-04-25
2025-04-22
2025-04-22
2025-04-20