2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

AI的妥协之道:如何平衡内部知识与外部信息

发布日期:2024-04-20 12:09:27 浏览次数: 3215
作者:AI面

微信搜一搜,关注“AI面”

最近一直在用 AI 搜索,内心一直有个疑问,如果 RAG 提供的信息与 LLM 的先验信息有冲突,LLM 会如何处理?

针对这个问题,我上arxiv看了不少论文,最后看到一篇论文给到了我答案,今天我们就根据近期发表的一份论文——《How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs’ internal prior》和他的实验数据报告分析,对这一问题进行深度剖析,旨在揭示LLM在处理RAG与先验知识冲突时的具体策略、影响因素以及存在的挑战。

一、LLM处理RAG与先验知识冲突的策略

  1. 模型先验强度与RAG偏好率的关系研究指出,LLM对RAG提供的信息遵循程度(RAG偏好率)与模型在无上下文情况下的响应信心(先验概率)呈反比关系。这意味着LLM对检索信息的信任度随其自身先验信念的增强而减弱。引用论文中的发现:“The likelihood of the LLM to adhere to the retrieved information presented in context (RAG preference rate) is inversely correlated with the model’s confidence in its response without context (its prior probability).”

  2. 先验知识与检索信息的偏离程度随着检索信息与LLM先验知识之间的偏离程度增大,LLM对检索信息的偏好程度相应降低。这表明,当RAG提供的信息与模型内部知识差异较大时,LLM更倾向于依赖自己的先验知识。根据论文内容,LLMs will increasingly revert to their priors when the original context is progressively modified with unrealistic values.

为每个数据集生成修改后文档的示意图。向大语言模型(LLM)提出一个问题,情况分为有无提供包含相关查询信息的参考文档。随后,这份文档将被改动,加入一些修改后的信息,并将其作为背景信息提供给大语言模型。我们进一步观察,大语言模型是偏好这些修改后的信息,还是坚持自己原先的答案。

二、影响LLM处理冲突信息的因素

  1. 检索内容质量:当检索到的内容与问题相关性高且准确时,LLM几乎总是能正确解答。然而,当检索内容质量下降,尤其是包含错误信息时,LLM的正确率显著下滑,且模型对错误信息的依赖程度与其先验知识的强度密切相关。这提示在构建RAG系统时,不仅要关注LLM本身的性能,还要确保检索模块能够提供高质量、准确的信息。

  2. 领域特异性:不同领域数据集对LLM处理RAG与先验知识冲突的影响各异。在某些特定领域(如医疗、法律等专业领域),LLM对RAG信息的遵循程度可能受到更大影响,这可能是由于这些领域内的信息更为复杂、专业,模型的先验知识更为牢固。这意味着在应用RAG系统于特定领域时,需要特别关注模型在处理领域内专业知识与检索信息冲突时的表现。

  3. 提示技术:通过分析LLM在面对不同程度的参考文档扰动时的响应,研究者发现,当文档被引入轻微至中等程度的错误值时,LLM通常仍能识别并采纳正确的信息;然而,当文档中的错误信息偏离LLM的先验知识达到一定程度时,模型开始更多地依赖其内部知识,即使这可能导致输出错误答案。提示技术的选择对LLM RAG偏好的显著影响,严格的提示导致较高的RAG遵循率,而宽松的提示则导致较低的遵循率和更陡峭的斜率,即随着先验概率每增加10%,RAG偏好率下降约2.3%。

在六个使用 GPT-4 的问答数据集中,我们发现 RAG 偏好率(y轴)与两个因素(x轴)呈反向关系:1. 模型的初步响应概率(左图),2. 与之前的偏离程度(右图)。RAG 偏好率是指与场景中呈现的信息一致的响应占比。模型的初步响应概率是通过计算未使用 RAG 时响应 token 的平均对数概率得出的。每对图的左图描绘了初步概率(分为 10 个等级)与 RAG 偏好率之间的关系,同时显示了最佳拟合趋势线与斜率。右图则展示了与参照信息绝对偏离值的关系(数值型数据集在顶部,最多改变两个对数倍;分类型数据集在底部,共有四种修改类型),以及趋势线。此外,右图还显示了上下半百分位数,表明低概率初步响应的 RAG 偏好率通常低于高概率响应。

三、RAG系统的局限性与挑战

  1. RAG并非万能解:尽管RAG系统在减少LLM幻觉、提供最新知识方面展现出显著效果,但其并非万能解。在某些情况下,如检索内容错误、与模型先验知识严重冲突或模型内部知识更新不足时,RAG系统仍可能导致LLM犯错。

  2. 伦理与社会影响:由于RAG系统常被用于提供权威性信息,如医疗建议、法律咨询等,其输出的准确性直接影响到用户的决策和权益。因此,必须确保RAG系统在处理信息冲突时能够公正、客观地评估检索内容与先验知识的相对可信度,避免误导用户或产生不良后果。

来自三个不同数据集的示例显示了大语言模型(LLM)对各种类型上下文变更的反应差异。其中,用红色标注的回答代表错误回应(与正确答案不符),而绿色标注的回答则代表正确回应。

四、未来研究方向与建议

  1. 优化RAG系统设计与训练:为了提高RAG系统在处理信息冲突时的判断力,未来研究应聚焦于优化系统设计,强化模型对检索信息的批判性评估能力,以及通过训练调整模型权重分配,使得先验知识与检索信息能在冲突情境下得到平衡考虑。

  2. 建立完善的评估框架:为了准确衡量RAG赋能LLM的真实性能,需要建立更为完善的评估框架,不仅关注模型在理想条件下的表现,更要模拟各种复杂、边缘情况下的行为,以全面评估其在信息冲突处理上的稳健性。

  3. 用户教育与透明度提升:用户和开发者应意识到RAG系统的局限性,特别是在处理与模型先验知识冲突的信息时,可能会出现偏向先验或误信错误检索结果的情况。因此,加强用户教育,提高AI搜索系统的透明度,让用户了解其工作原理、可能存在的误差来源以及如何合理解读输出结果至关重要。

探索使用 GPT-4 不同提示语对 RAG 偏好率与先前概率的影响。“严格”模式的提示要求模型严格按照检索到的上下文进行回答,而”宽松”模式的提示则允许模型在理解了提供的上下文后,作出合理的判断。我们发现,与严格模式相比,宽松模式下模型对 RAG 的遵循程度下降更缓和降速更快,这说明了提示语的措辞在控制模型遵循 RAG 方面起到了显著的作用。

分析包括使用 GPT-4(蓝色)、GPT-3.5(橙色)和 Mistral-7B(绿色)来探讨 RAG 偏好率,对比先前概率和偏差情况。有关详细的图示描述,请查看图 2。需要指出的是,由于拒绝回应或回应不当等问题,有些模型在特定数据集中未能产生有意义的预先回应,因此无法对这些数据进行分析。

结论就是当提供正确的检索信息时,大多数模型的错误会得到修正(准确率94%)。然而,当参考文档中的信息是错误的时候,如果 LLM 的内部先验信息较弱,它更有可能使用参考文档里错误的信息;反之,如果内部先验较强,则更能抵抗错误信息。

此外,信息与模型先验的偏离程度越大,模型倾向于选择它的可能性就越小,更有可能使用先验信息。

所以,LLM在处理RAG与先验知识冲突时展现出复杂的策略选择,其行为受到检索内容质量、领域特异性、提示技术等多种因素影响。同时,RAG系统虽有显著优势,但也存在局限性,需要在伦理、社会影响等方面予以重视。未来的研究与实践应致力于优化RAG系统设计、完善评估方法、提升用户认知,以实现更准确、可靠、负责任的AI搜索。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅