微信扫码
添加专属顾问
我要投稿
支付宝的LLM技术如何提升金融文档检索精度?深入了解其生成式检索幻觉缓解方案。核心内容:1. 知识蒸馏推理模块的设计和作用2. 决策Agent在检索精度提升中的角色3. 实验性能比较与在线A/B测试结果
基于LLM的生成式检索(GR)在进行文档知识检索时或多或少的会引入幻觉,在一些对精度要求比较高的场景(如:金融等)如何缓解幻觉,下面来看下支付宝生成式检索缓解幻觉方案,供参考。
如上图所示,框架分为两部分:知识蒸馏推理和决策Agent
目的:通过利用更大规模的LLM生成显式的推理数据,增强较小规模的LLM-based GR模型的训练。知识蒸馏推理模块提升了GR模型的检索精度,减少了幻觉现象。思路如下:
相关和无关查询-文档对的收集:
相关查询-文档对:从训练语料库 中采样得到 。
无关查询-文档对:通过以下步骤获取:
◦ 使用初步GR模型 对搜索日志中的查询集 进行检索,生成文档集合 。
◦ 使用一系列开源LLM 对每个查询-文档对 进行相关性判断,筛选出无关对 。prmopt如下:
◦ 只有当所有LLM都判定某个查询-文档对为无关时,才将其分类为无关。
构建推理源数据: 将相关和无关的查询-文档对组合成推理源数据 。
使用推理生成器 (一个比GR模型 更强大的模型)生成高质量的推理过程。
输入为查询-文档对及其相关性判断结果,输出为推理过程 。
使用下面Prompt进行推理生成:
将推理过程加入到训练数据中,通过监督微调增强GR模型的理解能力。步骤如下:
利用生成的推理数据 增强模型对推理过程的理解。
使用更新后的训练数据集 对GR模型进行监督微调(SFT),得到新的GR模型 。
推理过程的训练损失函数为:
决策Agent的目的是进一步提高检索精度。总体流程如下:
输入:
一个由GR模型检索到的文档 。
候选文档集合 。
步骤:
• 步骤3:筛选最终结果:只有在所有评估视角下都被认为相关的文档才会被保留作为最终的检索结果。可以看作是多个LLM都投票一致。
步骤1:使用检索模型进行初步检索,利用一个检索模型(RM),可以是稀疏检索(SR)或密集检索(DR),为GR检索到的文档 检索出最相关的m个文档 。
步骤2:使用LLM进行多角度评估:使用一个强大的LLM(例如Qwen2.5-32B)从多个角度评估这些文档与查询的相关性。在本文的场景中,结构化信息如产品公司、产品类型和产品期限被用作评估的不同视角。prompt如下:
离线性能比较:与基线GR模型相比,提出的方法在基金数据和保险数据上的准确率(ACC)分别提高了3.34%和4.22%。与检索基线模型BM25相比,基金数据上的ACC提高了17.84%,保险数据上提高了42.72%。
消融研究:移除推理组件导致基金检索准确率下降2%,保险检索下降2.39%。决策代理模块分别提高了基金检索准确率1.67%和保险检索准确率3.88%。这进一步验证了推理和决策代理模块在提高生成式检索精度方面的有效性。
在线A/B测试:在支付宝的基金搜索和保险搜索中进行了在线A/B测试,结果表明在点击页面浏览量(Click_PV)、点击独立访客数(Click_UV)、交易次数(Trade_Count)和交易独立访客数(Trade_UV)等关键搜索指标上均有显著改进,统计显著性水平为95%(p值<0.05)。这表明所提方法在实际应用中也能显著提高搜索质量和转化率。
参考文献:Alleviating LLM-based Generative Retrieval Hallucination in Alipay Search,https://arxiv.org/pdf/2503.21098v2
关于我:余俊晖,主要研究方向为自然语言处理、大语言模型、文档智能。曾获CCF、Kaggle、ICPR、ICDAR、CCL、CAIL等国内外近二十项AI算法竞赛/评测冠亚季军。发表SCI、顶会等文章多篇,专利数项。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-13
AI 全栈工程体系中,Prompt Engineering、AI Agent 和 RAG 如何协同工作?
2025-05-13
关于RAG应用中怎么高质量的进行数据召回——召回策略的研究
2025-05-13
阿里云基于本地知识库构建RAG应用
2025-05-13
用Coze知识库+RAG技术,给AI装上「企业知识外挂」
2025-05-12
《RAG、MCP、Agent傻傻分不清AI概念?一文让新人秒变专家!》
2025-05-12
RAG15种分块策略进行汇总介绍。
2025-05-12
通用RAG:通过路由模块对多源异构知识库检索生成问答思路
2025-05-12
DeepChat+RAGFlow 强强联合!配置知识库实现智能问答效率提升 300%
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-05-13
2025-05-11
2025-05-08
2025-05-05
2025-04-30
2025-04-29
2025-04-29
2025-04-26