微信扫码
添加专属顾问
我要投稿
清华大学等机构最新研究,突破领域特定问答系统准确性和召回率难题。核心内容:1. DO-RAG框架:结合多级知识图谱和语义向量检索,提升领域问答性能2. 代理思维链架构:从多模态文档中提取结构化关系,构建动态知识图谱3. 实验评估:在数据库和电子领域实现高召回率和答案相关性,性能显著提升
这篇论文提出了DO-RAG,一种用于特定领域问答的框架,通过知识图谱增强的检索和生成来解决现有方法的不足。具体来说,
多级知识图谱构建:首先,设计并实现了一个分层的代理提取管道,处理文本、表格、代码片段和图像,自动构建和更新一个知识图谱,捕捉实体、关系和属性。
混合检索融合:开发了一种统一的机制,在查询时将图遍历与语义搜索相结合,确保所有相关的、结构化的信息都能通知大型语言模型(LLM)的提示。
基于事实的幻觉缓解:引入了一个生成后的细化步骤,将初始LLM输出与知识图谱进行交叉验证,并迭代纠正不一致性,显著减少事实错误。
模块化设计:框架支持多种LLMs和检索模块的无缝组件交换和直接扩展到新领域,无需重新训练。
为了评估DO-RAG框架,选择了SunDB(分布式关系数据库管理系统)作为专业领域。实验设计包括以下几个方面:
外部基线比较:在测试的语言模型中,SunDB.AI在所有基线中表现最佳,比FastGPT、TiDB.AI和Dify.AI分别提高了1.70%、24.02%和17.72%。
内部基线比较:知识图谱集成对DeepSeek-R1和DeepSeek-V3的影响显著。集成知识图谱后,两者的上下文召回率均达到1.000,DeepSeek-V3的答案相关性和上下文精确度分别提高了5.7%和2.6%。
领域特定性能:在SunDB和Electrical领域中,上下文召回率值均达到或接近1.0。答案相关性、上下文精确度和忠实度的变化揭示了模型之间的特定优势。
这篇论文介绍了DO-RAG,一种用于特定领域问答的检索增强生成框架。DO-RAG通过代理链式思维提取管道将非结构化的多模态领域数据转换为动态的多级知识图谱,并将图遍历与语义向量搜索相结合以检索丰富的上下文信息。生成后的细化步骤进一步增强了事实准确性。在数据库和电气工程领域的实证结果表明,DO-RAG在上下文召回率和答案相关性方面表现出色,比现有基线框架提高了高达33.38%。这些发现展示了DO-RAG在特定领域中提供稳健、高精度问答的有效性,统一了结构化知识表示和生成推理,为可扩展和自适应的信息系统提供了可靠的基础。
论文评价
问题1:DO-RAG框架在知识图谱构建方面有哪些独特的设计?
DO-RAG框架设计了一个分层的代理提取管道,用于多级知识图谱的构建。具体来说,该管道包括四个专门化的代理,分别在不同的抽象层次上操作:
这种多层次的代理提取方法确保了知识图谱的动态构建和更新,能够捕捉到实体、关系和属性的多粒度信息,避免了冗余,并通过合成摘要节点来简化图谱结构。
问题2:DO-RAG框架如何结合图遍历和语义向量搜索来进行混合检索?
图遍历:用户提交问题后,DO-RAG首先使用基于LLM的意图分析器对问题进行结构化分解,生成子查询以指导从知识图谱中的检索。然后,它通过语义相似性检索相关节点,并进行多跳遍历以扩展检索范围,生成结构化的领域特定上下文。
语义向量搜索:将图遍历得到的上下文用于重写和消除歧义的问题,生成一个更具体和明确的查询。然后,这个查询被编码成一个密集向量,并用于从向量数据库中检索语义相似的文本块。
结果整合:最后,DO-RAG将所有相关信息源(原始用户查询、其重写版本、知识图谱上下文、检索到的文本块和用户交互历史)整合到一个统一的提示结构中,并传递给生成管道。
这种方法确保了所有相关的、结构化的信息都能通知大型语言模型(LLM)的提示,从而提高检索的准确性和生成的上下文丰富性。
问题3:DO-RAG框架在生成答案时如何进行基于事实的幻觉缓解?
DO-RAG框架引入了一个生成后的细化步骤,用于基于事实的幻觉缓解:
初始生成:首先,使用一个初始的提示指导LLM生成答案,同时明确避免不支持的内容。
细化提示:生成的答案通过一个细化提示进行重构和验证,确保答案的事实一致性和清晰度。
压缩阶段:细化后的答案通过一个压缩阶段进行调整,以确保答案的连贯性和简洁性。
后续问题生成:为了增强用户参与度和模拟专家指导,DO-RAG还根据细化后的答案生成后续问题。
此外,如果系统无法找到足够的证据,模型会返回“我不知道”,以保持可靠性并防止幻觉。这种细化步骤显著减少了事实错误,提高了答案的准确性和可靠性。
参考文献
Agentic GraphRAG?" data-itemshowtype="0" linktype="text" data-linktype="2">如何构建医疗健康等复杂场景下的Agentic GraphRAG?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-31
RAG(检索增强生成):提升大语言模型性能的终极指南
2025-05-30
2025年GitHub上十大RAG框架深度解析:从技术原理到实战应用
2025-05-30
90%企业不知道的RAG优化秘籍:Dify原生集成RAGflow (2)
2025-05-30
RAG其实并没有你想的那么简单,Late Chunking vs Contextual Retrieval解决上下文难题
2025-05-30
基于Gemini与Qdrant构建生产级RAG管道:设计指南与代码实践
2025-05-30
RAG和向量数据库之间有什么关系?
2025-05-30
RAG相关术语快速了解
2025-05-29
超越基础:Agentic Chunking 如何彻底改变 RAG?
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-05-30
2025-05-29
2025-05-29
2025-05-23
2025-05-16
2025-05-15
2025-05-14
2025-05-14