微信扫码
添加专属顾问
我要投稿
从RAG到KAG:揭秘大模型如何突破"开卷考试"困境,实现精准推理与知识融合。 核心内容: 1. RAG技术的局限性及向KAG框架的演进路径 2. KAG框架的核心创新:分层知识表示与结构化推理机制 3. 垂直领域应用案例与KAG-Thinker的四大能力跃迁
导语 |
随着人工智能技术的迅速发展,基于大语言模型(LLMs)的应用逐渐成为主流。然而,这些大模型在实际应用中仍像在“闭卷考试”,一旦题目超纲便只能凭空编造,即便后来引入 RAG 让其“开卷”,也常因翻不到正确的页码而答非所问。尤其在垂直领域的应用中,单纯依靠大模型往往无法满足复杂业务对精准问答、实时知识更新和推理深度的需求。因此,技术正从 RAG (Retrieval Augmented Generation, 检索增强生成) 走向 KAG (Knowledge Augmented Generation,知识增强生成框架) :通过整合知识库与结构化推理,让“开卷”不仅翻得到页,还能按逻辑划重点。本文特邀同济大学特聘研究员、博导、腾讯云 TVP 王昊奋重点探讨从 RAG 到 KAG 的技术演进过程,并分析 KAG 框架如何有效解决传统 RAG 模型的不足,为垂直领域应用提供更加精准和高效的解决方案。
目录
一、从“闭卷”到“开卷”:大模型能力的转变
二、RAG 的进化:当检索开始会“思考”
三、RAG 技术的核心问题与技术演进路径
四、大模型外挂知识库的三种技术路线
五、知识增强生成(KAG)路线的提出
六、KAG 推理框架:逻辑符号引导的结构化推理
● 典型任务示例:博士生申请居住证
七、从外部依赖到内化推理:KAG-Thinker 的创新路径
八、从助手到伙伴:RAG 到 KAG 的四大跃迁路线
作者简介
一、从“闭卷”到“开卷”:
大模型能力的转变
知识滞后:预训练数据无法覆盖最新政策、市场动态;
效率瓶颈:复杂问题需要多轮检索与推理,响应时间过长;
领域适配难:行业术语、规则体系与通用模型存在语义断层;
推理脆弱性:多步推理中易因知识缺失或逻辑断点导致结果偏差。
这些痛点的根本原因在于,模型从“闭卷考试”(依赖内在知识)向“开卷考试”(借助外部信息)转型时,能力出现了断层。无论是在搜索、推荐、问答还是对话等场景中,核心需求可以归纳为两点:首先是输出精准可靠,其次是能够与内部大数据系统进行深度对接。用户习惯使用 AI 搜索也反映了这一需求:虽然 AI 搜索引用的来源可能存在虚假信息,但其提供的“证据链”能够增强用户的信任感。同时,用户还希望技术成本可控,并确保数据的安全性与隐私保护。
为应对这些挑战,目前的技术探索趋向于通过外挂知识库(如 RAG)来弥补大模型本身的不足。尽管 RAG 技术已从最初的基础 RAG 发展到具备自主决策能力的 Agentic RAG,但在实际应用中仍然面临挑战。即便引入了 RAG,当大模型遇到预训练数据未覆盖的最新或特定领域问题时(例如政策法规中的“关税”细节,见下图),其表现依旧可能无法令人满意。
在这一过程中,可以提炼出一个基本框架:通过为大模型提供大量额外的相关知识,使其能力从依赖有限内在知识的“闭卷考试”模式,转变为能够参考外部信息的“开卷考试”模式。举例来说,解读特定问题时,可以提供详尽的关税细则、适用条款和豁免情况等详细信息,帮助模型更准确地进行判断和推理。
这一转变的关键在于赋予模型深度阅读理解的能力。通过引入外部知识库,模型不仅可以获取更多的背景信息,还能在生成回答时,依据实时和特定领域的数据做出更合理的决策。这种能力使得大模型在面对复杂问题时,能够在保持逻辑严谨性的同时,弥补内在知识的不足。
二、RAG的进化:当检索开始会“思考”
随着技术的不断进步,RAG 模型逐渐与推理技术相结合,形成了更为强大的推理增强 RAG(Reasoning-Augmented RAG)模型。这一技术突破为人工智能在复杂任务中的应用提供了新的发展机遇,尤其是在垂直领域的实际落地中,展现出了巨大的潜力。
RAG与推理的结合的发展阶段
RAG 与推理的结合经历了两个关键的历史性阶段:第一个阶段由 OpenAI 推出的 o1 模型开启,o1 的出现标志着训练时扩展(train time scaling)到推理时扩展(inference time scaling)的转变。这一进步使得自动化思维链成为可能,并能够通过思考过程提供更精确的回答。第二个阶段出现在今年年初,DeepSeek-R1 的发布进一步推动了技术的发展,特别是DeepSeek-R1 采用的开源策略,以及其创新的轻量、高效且可控的 GRPO(Group Relative Policy Optimization)强化学习方法,为该领域注入了新的活力。
随着 OpenAI o1 和 DeepSeek-R1 等慢思考模型的兴起,RAG 与推理能力结合的研究逐渐增多,促进了 RAG 技术在垂直领域的落地和发展。在这一过程中,技术创新不仅涵盖了最轻量级的提示工程(Prompt Engineering)和微调方法(Fine Tuning),更重要的是基于强化学习(Reinforcement Learning,RL)的方法,特别是在 DeepSeek-R1 发布之后,这类方法变得愈加普及和广泛应用(例如上图橙色区域)。
RAG与推理能力结合的价值
RAG 与推理能力结合的价值,可以从以下两个互补的视角来进行深入分析:
● 弥补现有 RAG 的不足,引入推理增强检索:通过引入推理能力,可以在检索过程中增强推理效果,解决 RAG(尤其是Agentic RAG)在复杂问题解析中的痛点。例如,跨文档协同困难、跨内容检索不连贯、以及效率与精度之间的难以平衡等问题,都能通过推理增强得到有效解决。
●
从大模型自身需求出发,市场主流大模型均内置联网搜索功能:这一设计本质上是在推理过程中对检索的增强。在多步推理过程中,大模型可能因缺乏实时知识而导致推理断层,因规则缺失而产生边界模糊,或因搜索空间爆炸而陷入局部优化。通过动态检索外部知识,可以有效平衡推理的深度与广度,避免知识滞后或规则缺失引发的推理断裂,从而为技术优化提供新的路径。
通过这两种视角的结合,我们不仅能够提升 RAG 技术的应用效果,还能更好地应对实际应用中的各种挑战,促进 AI 技术在更多领域的落地实施。
RAG 与推理的融合,本质上是一个动态任务规划与执行的过程。它将复杂问题系统性地拆解为多个子任务,如理解、分解、检索、验证与整合,从而形成一条逻辑自洽的推理链。在上图关税案例中,传统 RAG 模型可能会直接拼接多个信息片段,生成一个笼统的回答。而 RAG + Reasoning 模型则会采取更为精细的步骤:首先理解问题结构,然后分解子问题,进行多轮检索与交叉验证,最终综合推理并生成建议。这种方法使得结果不仅仅是信息的简单堆砌,而是一份结构清晰、逻辑严密、并具备实用价值的专业建议。
三、RAG技术的核心问题与技术演进路径
事实性错误或无依据
时间、数值不敏感
张冠李戴
不能区分重要性
语义不精准
召回不完备
这些问题的存在,反映了目前大模型在某些特定任务中的局限性。随着技术的不断发展,解决这些问题将是提升大模型应用效果和可靠性的关键。
通过对 RAG 系统的深度剖析,可归纳出三大核心问题:检索机制缺陷、问题思考的逻辑稳定性不足以及计算与逻辑严谨性缺失。这些问题表明,在垂直领域的知识库建设过程中,我们正从基础的信息检索向更高阶的认知推理转型。这个能力升级的过程可以类比于自动驾驶的分级体系,具体包括以下几个层次:
第一层为显性知识检索,仅需从知识库中直接调取明确信息,对应基础 RAG 技术,解决"有没有知识"的问题。
第二层是将隐性知识结合,需整合多份文档中的关联信息,对应推理增强 RAG,通过思维链或动态检索解决"知识如何串联"的问题。
第三层则是明确规则的演绎推理,基于预设规则进行严格推导,需模型具备逻辑稳定性,避免思维链波动,对应强化学习优化的推理模型。
第四层需要基于结果的推断,需从结果反推原因、总结规律或迁移经验,对模型的逻辑严谨性和泛化能力要求最高,对应内生推理框架(如 KAG)的终极目标——通过非强化学习范式实现自主推理。
这一层级划分揭示了垂域 AI 从"信息检索"到"认知推理"的技术演进路径:每提升一层,对模型的知识整合、逻辑稳定和推理严谨性的要求均呈指数级增长。而这些正是当前技术突破的重点方向。
大模型外挂知识库可分为三类路线,各有优劣且非互相取代,未来需集成优势、规避缺点:
●
路线一:搜索引擎技术延展
,流程为索引(index)-检索(retrieve)-生成(含规划与生成)。问题在于:索引阶段仅做文档间简单分块(chunking)和嵌入(embedding),缺乏语义关联;检索阶段无推理能力;规划与生成阶段的自然语言规划不严谨,摘要无后校验(大模型参数冻结未调优)。
●
路线二:升级到 GraphRAG
,在索引阶段通过图结构增强文档间语义关联,检索阶段提升检索召回相关性,但规划与生成环节未改进。
●
路线三:传统知识问答基于图索引
,同样面临图谱构建成本高、门槛高的问题;检索阶段知识覆盖度低(无法像大模型“兜底”所有问题),优点在于规划生成环节严谨、准确性高。
对比上述三种技术路线,我们可以看到它们在索引、规划、检索和生成等方面各自的优缺点。显然,并不存在一种方案能够完全取代其他两种方式。事实上,这三类路线如同软件发展的不同阶段,并非互相替代,而是并存共生。 这一现象引导我们思考如何将这些技术路线的优点进行集成,并规避其缺点。答案是从 RAG 走向 KAG(Knowledge-Augmented Generation,知识增强生成)的路线。
五、KAG(知识增强生成)路线的提出
KAG 的核心理念(CoreIdea)是充分利用知识库或知识图谱中结构严谨的优势,通过多重表征和互索引的方式来优化信息组织,并借助知识和逻辑的语义引导帮助实现结构化的思考和推理。
回顾前文所述的几种外挂知识库技术路线,我们可以看到现有的传统方法各自存在明显的缺陷,然而,在实际应用中,我们对系统能力提出了更高的要求。所以,我们提出了一种全新的 KAG 框架——以知识点为中心的知识索引与知识引导的复杂问题求解方案。该框架包括知识构建(Builder)、问题求解(Solver)以及底层支撑的模型(Model)三个部分,涵盖理解、生成和推理等多个阶段,能够在复杂任务中提供更为精确、可靠的解决方案。
KAG知识索引:自动化知识构建
在实际应用中,借助大模型的能力,我们可以实现知识的自动化构建,这一过程不仅包括开放信息抽取,还涵盖从业务系统中获取的结构化数据。关键在于实现双向校验与互补:一方面,数据库或大数据体系中的结构化知识虽然较为精准,但往往缺乏上下文信息;另一方面,非结构化文本虽然富含上下文,但容易产生噪声。通过知识语义对齐,一方面可以降低知识构建成本,另一方面也能有效缓解开放信息抽取带来的噪声问题。
在这一过程中,我们发现知识本身是分层的,包括概念层面的知识和实际应用层面的知识。此外,知识也具有分类性,涵盖各种实体、事件、属性、关系、概念等结构化知识,以及自然语言描述的陈述性知识(如规则、计算过程等)。同时,还涉及大量的案例知识和推理知识。
KAG知识索引:分层知识表示
因此,如何通过语义对齐将这些不同类型的知识整合到同一个语义空间中变得至关重要。在这一过程中,我们不必要求所有知识都遵循严格的 schema,这意味着我们需要优化传统的知识图谱与大数据时代的架构,使其更适应大模型的需求。这样的表示方式可以分为以下几个层次:
●
严谨层(Rigorousness):这一层的最大优点在于其完整性(Completeness),它提供了非常完备的知识表示。
● 灵活层(Flexible Schema):这一层具有一定的结构信息,但并不强制要求强schema,更像是一个自由模式(Free Schema)图或数据图的概念。
● 领域特定层(Domain-specific Strong Schema):这一层则依赖于领域内的精确schema来确保准确性(Accuracy)。
通过这种表示方式,我们可以在不同的应用场景中平滑地调整专业决策、信息检索和知识完整性的平衡。这样的架构设计,使得我们在面对具体问题时,可以根据实际需求更加灵活地选择最适合的知识表示形式,并在不同层次之间做出合理的权衡。
知识融合与索引构建中的关键要素以及优化方案
在原有知识结构的基础上,我们将增加若干关键要素,以进一步提升知识的可用性和应用效果。具体而言,每个知识点或结构化知识项将添加摘要(summary),并且增加知识点与原始文本 chunk 之间的关联。这样一来,我们就能够通过结构化的节点,类似于传统的倒排索引,将知识转换为具有关联关系的图结构。在此基础上,我们将通过 schema 注入来实现与传统图数据库中 key-value 形式的对接。通过这一方式,既能充分利用现有图数据库的优势,又能结合新兴技术提升知识库的表达能力和查询效率。
在知识融合的过程中,特别是在构建索引时,我们需要重点考虑以下几个要素:对于实体信息,必须补充时空信息、文本段落上下文以及所属领域的本体信息。缺少这些要素时,当前广泛使用的 embedding 模型,尤其是检索模型,可能面临一系列问题:
● 指代缺失或错位:例如,模型可能认为“俄罗斯总统访华”与“美国总统访华”更为相近,而实际上,“俄罗斯总统访华”与“普京抵达北京首都机场”才是更相关的事件;
● 时空错位:例如,2024 年 5 月 30 日与 2024 年 6 月 1 日时间上更接近,但模型可能错误地将其与 2023 年 5 月 30 日匹配;
● 数值混淆:例如,法律条文中的条款编号与金额数值可能被混为一谈;
● 逻辑错位:例如,哮喘属于呼吸系统慢性疾病,但可能被错误关联到消化系统慢性疾病。
为了避免上述问题,我们采用了一个多层次的过程来提升知识的连通性和准确性:从文档出发,经过开放信息抽取,再到语义增强,包括本体对齐、上位概念生成、概念间关联构建以及同义词扩展,有效提升知识的连接性,确保模型能够准确理解不同概念间的关系。通过增强稀疏关联、抑制噪声,使知识结构更加紧密和准确,进一步提高检索和推理的准确性。
同时在整个流程中,我们引入了基于规划的控制机制,将原本依赖思维链(Chain-of-Thought,CoT)的自然语言推理过程,转化为可控的逻辑表达式,从而实现对推理路径的精确引导。这种形式化的表达使得系统能够按需调用不同的求解器(Solver),例如语义检索模块,从而更有效地建立知识关联。
六、KAG推理框架:
逻辑符号引导的结构化推理
KAG 技术的核心之一是如何通过逻辑符号引导的结构化推理来实现复杂问题的求解。为此,我们需要将原始问题按需分解为多个子问题,并清晰地刻画这些子问题之间的逻辑依赖关系。在此基础上,系统应能自主判断以下几项决策:
是否调用符号化知识图谱进行推理?
是否执行文本 chunk 的检索?
是否在结构化数据上进行图遍历与子图匹配?
是否在扩展后的文本内容上进行阅读理解与“思考”操作?
最终,通过多种推理方式的协同工作,系统能够动态更新与整合当前问题相关记忆(memory),为求解提供更为精准的答案。
在整个推理过程中,我们会使用多种逻辑形式(Logical form),包括检索、排序、数学计算、逻辑推理、反问以及输出等对应的逻辑表达形式。通过引入特定的标记(special token),能够将原本单一的数据流转变为数据流与控制流相结合的协同机制。这种机制通过不同的操作符(Operator)和求解器(Solver)可以实现本身的输出校验,确保结果的准确性;还能支持推理问答以及检索过程中的动态数值计算,从而增强模型的推理深度和灵活性。
典型任务示例:博士生申请居住证
以博士生申请居住证是否需要学校开具在读证明为例,该问题的求解过程可以分解为一系列结构化操作:
定位所在地区:首先确定所在地区的相关政策。
查找相关办事事项:查询该地区居住证办理的相关要求。
判断是否需提供在读证明:根据相关政策,判断是否需要提交学校开具的在读证明。
这些步骤实质上转化为检索(retrieve)、扩散查询(diffuse)等具体操作符的有序执行,从而形成从问题到答案的结构化推理路径。
从这个典型任务可以看出,核心在于实现可控的规划过程。需要强调的是,并非所有内容都必须结构化,也并非所有处理都需依赖图结构才能完成。实际上,在一些轻量级的应用场景中,我们可以在保证效果相当的前提下,有效控制构建成本,这对于本地化部署和垂直领域的落地应用非常重要。
七、从外部依赖到内化推理:
KAG-Thinker的创新路径
KAG-Thinker模型能力
大模型推理与检索过程中存在的问题
八、从助手到伙伴:
RAG到KAG的四大跃迁路线
从单一的问答模式升级为系统性决策支持。面对复杂任务,需支持多路径、多分支的推理流程,形成结构化的决策链条,而不仅仅是孤立地回答单个问题。
针对大模型常出现的信息堆砌问题,应增强对返回信息的逻辑自洽性校验,并实现动态补全。通过判断信息之间的一致性,按需触发新的检索或推理步骤,形成闭环的求解过程。
当前大模型存在盲目搜索和过度思考的问题,因此需要实现智能的资源分配机制,合理调度推理深度与广度,避免资源浪费,提升响应效率与结果质量。
通过这四个方向的提升,我们不仅能够优化现有 RAG 技术的应用效果,更能推动大模型从单纯的知识检索工具向具备认知和决策能力的智能伙伴演变。这一转变将极大地拓展大模型在垂直领域中的应用潜力,并为未来的智能系统提供更加精确、灵活的推理支持。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-05-30
2025-06-05
2025-06-06
2025-05-19
2025-06-05
2025-05-20
2025-05-27
2025-06-05
2025-05-19
2025-06-05
2025-08-11
2025-08-05
2025-07-28
2025-07-09
2025-07-04
2025-07-01
2025-07-01
2025-07-01