我要投稿

基于递归抽象树检索技术构建反洗钱知识库的探索与实践

发布日期：2025-11-17 19:35:17 浏览次数： 2031

作者：中国金融电脑+

微信搜一搜，关注“中国金融电脑+”

近年来，随着以大模型技术为代表的生成式人工智能(AI)热潮席卷全球，如何使用AI技术为反洗钱工作赋能成为金融机构关注的热点课题。在目前的实际应用中，金融机构大多通过Embedding技术提取信息构建知识库，并利用知识库的向量检索技术为大模型提供有针对性的训练语料，以提升生成文本的准确性。但是，Embedding技术在理解长文本语义关联深层特征方面可能出现关键信息丢失、概念模糊等问题，影响最终结果。为解决上述难题，本文提出一种基于递归抽象树的特征提取方式，即通过多粒度语义抽象和隐形关联，实现多层次特征提取及动态模式识别，从而增强知识库多语义构建及检索能力，并深入探讨了该方案在反洗钱领域的应用优势及改进方向。

一、反洗钱领域的大模型

及知识库应用背景

在反洗钱领域，金融机构常常利用本机构的存量数据构建专业知识库，如历史可疑交易报告、反洗钱监管法规、内部风控规则及案例库等，并采用“大模型+知识库”的检索增强生成(RAG)架构让大模型在生成回答之前先“翻阅资料”，以进一步提升精准回答和决策支持效果。然而，传统的RAG架构(如图1所示)在处理金融领域的复杂文档时存在明显不足，尤其是在长文本语义理解、多层次关联分析等方面表现欠佳。

图1 传统的RAG架构

1.分块策略的困境——相关性与细粒度之间的矛盾难以调和

RAG方法中的知识向量库构建主要依赖文本分块和向量编码两个关键环节，但在文本分块过程中，传统分块策略难以同时保持文本内容的关联性和独立检索性，导致检索效果不佳：一是当采用较大的分块尺寸(如每块1000～2000字)时，虽然能够保持较为完整的上下文信息和逻辑连贯性，但用户查询往往只与大块文本中的部分内容相关，故而易导致检索精度下降。二是当采用较小的分块尺寸时(如每块50～100字)，虽然能提高检索的精确性和针对性，但也可能导致语义碎片化严重，上下文关联被割裂。例如，一条关于反洗钱客户身份识别的规定可能会被拆分成多个小块，导致原本连贯的规定被分散，无法完整呈现其含义。

2.向量表示的限制——信息损失

在向量编码的关键环节中，即便使用最先进的Embedding模型，向量表示仍存在明显局限：一是维度压缩导致信息损失，难以完整捕捉专业文本的多维特征。反洗钱文本包含丰富的信息，如交易类型、客户背景、法规要求等多个维度，但向量表示在维度压缩过程中会丢失部分关键信息。二是缺乏对隐含关系的表达能力，特别是在处理反洗钱领域特有的模糊性概念方面。以“异常交易模式”这一模糊性概念为例，单纯靠同一个语义向量化模型输出的向量表示难以准确表达其内涵和与其他概念的从属、包含等潜在联系。

3.检索逻辑的单一性——基于表面特征的匹配

常规向量检索主要依靠余弦相似度等进行度量，本质上是一种基于表面特征的匹配，但这种方法难以应对反洗钱领域常见的复杂问题类型：一是多重条件组合查询，如“涉及高风险国家的跨境交易的监控要求”等。传统检索方法在处理多个条件组合的查询时，往往无法准确匹配满足所有条件的内容，容易遗漏信息。二是需要逻辑推理的问题，如“根据新规定，现有政策是否需要调整”。对于需要进行逻辑推理的问题，传统检索只能返回与字面相似的内容，无法提供基于逻辑分析的答案。

二、基于递归抽象树方法的

解决方案

针对上述难点，本文提出基于递归抽象树(Raptor)的知识库构建和检索方法，其核心思想是通过多粒度语义特征提取、智能聚类、递归摘要生成，构建层次化的知识表示结构，并实现高效检索。具体而言，Raptor方法通过多阶段处理流程，可将原始文档转化为多层次的语义树形结构，包括语义聚类、基于大模型的摘要生成、层次化检索等三个核心环节。

1.语义聚类

在和传统方法一样完成初步以“字词(token)”为粒度或基于结构标点符号等规则进行分块，并使用语义向量模型计算每个细粒度文本块的特征向量后，Raptor将进行基于高斯混合模型(GMM)的语义聚类。高斯混合概率密度分布的数学表示如下：

其中，x表示语义向量，f(x)表示x服从的概率密度，K是混合成分的数量，w_n、μ_n、σ_n分别为第n个成分的权重、均值、协方差矩阵。GMM将整个语义空间视为多个高斯分布的混合，每个高斯分布代表一个潜在的语义聚类。

在参数获取方面，针对最优聚类数量K，Raptor主要使用贝叶斯信息准则(BIC)在模型拟合程度和复杂度之间寻找平衡点，避免过度拟合，之后通过尝试不同的K值并计算对应的BIC分数，选择BIC最低的K值作为最终聚类数量，并通过期望最大化算法(EM算法)迭代优化当前K组高斯分布参数。具体而言，EM算法主要包含两个主要步骤：E步骤计算每个语义向量属于各个聚类的概率；M步骤根据这些概率更新各个高斯分布的参数(权重、均值和协方差)。当模型收敛(即参数变化非常小)或达到预设迭代次数时，算法停止，得到当前K组对应的最终GMM参数。

在聚类执行方面，Raptor首先将所有细粒度文本块的向量作为输入数据，然后初始化多个候选K值，根据每个K值训练GMM模型;之后，计算各模型的BIC值选择最优K，并根据训练好的最优GMM模型将每个语义向量分配到概率最高的聚类中。在此模式下，模型不仅能自动发现文档中隐含的主题结构，即使是在高维语义空间中也能有效捕捉语义分布特征。此外，细粒度聚类在实践中还有其他优化手段，如细粒度文本块分块时可以采用多种长度切分、滑动切分等，同一个token可能会被多次使用，映射成多个向量;此外，在聚类计算向量距离时，也可以采用不同的向量距离计算方法进行聚类，以丰富基础节点内容。

2.基于大模型的摘要生成

在完成第一轮细粒度的语义聚类后，为了构建多层次的树状知识向量库，还需要不断进行更高维度的聚类，并针对每轮的聚类中心进行“摘要生成”。换言之，即基于该聚类中心所对应的原始块文本信息等内容，由大模型进行归纳总结和摘要生成，最终形成该聚类中心的“摘要文本”。例如，多条具体交易监控规则的原始块信息可能被归纳为“高风险客户交易监测规范”等相对更高维度、抽象语义更强的概念。在此模式下，向量库将由原本扁平的一个层级变为具有两个层级概念且层级之间有归属关系的形式。此后，通过将生成摘要后的各个聚类中心当作新的文本块，并对摘要计算向量以及聚类中心的均值向量进行再次聚类和摘要生成，即可自底向上构建出多层级的知识向量库。基于递归抽象树的反洗钱知识向量库构建及检索模式如图2所示。

图2 基于递归抽象树的反洗钱知识向量库构建及检索模式示意

此外，为确保各层级摘要的准确性和一致性，Raptor在实施过程中还可以通过人工介入来提升可解释性及效果：一是采用摘要生成的提示词工程，即为大模型设计专门的摘要指令模板，包含反洗钱领域的专业术语表、摘要要求和抽象层次指导，并据此引导大模型生成符合反洗钱专业要求的高质量摘要。二是开展人机协作校验，即将关键层级的摘要结果由领域专家审核，并将审核反馈用于优化摘要模板和指令。领域专家凭借其专业知识和经验，对大模型生成的摘要进行把关，确保摘要的准确性、合理性以及可解释性。三是实施一致性检查，即采用自动化手段检测不同层级摘要之间的语义一致性，确保高层摘要不会与低层内容产生冲突，进而保证整个层次化摘要体系的逻辑连贯性。

3.层次化检索

基于多层级的知识向量库，Raptor可以执行更为灵活、准确的检索操作，并根据不同情况提供精确到具体细节或宏观到整体框架的答案。

一是多粒度检索，即通过对查询语句进行多维度规则的语义向量化，判断检索的复杂度和抽象程度，进而在不同层级进行检索。例如，对于简单、具体的查询，直接检索底层细粒度块；对于复杂、抽象的查询，优先检索高层摘要节点。这种自适应检索策略能够提供更符合用户需求的答案粒度。

二是树形递归检索，即检索不再局限于单一层级，而是可以沿着树形结构进行递归。例如，从高层摘要节点开始，根据相关性逐层向下探索，直到找到最匹配的内容；或者从底层细粒度块发现相关内容后，向上查找更高层次的概括，提供更全面的语境。

三是语义相关性增强，即基于树形结构中的父子关系，检索时不仅考虑向量相似度，同时还需考虑节点间的结构关联，从而有效识别表达方式不同但语义相关的内容，大幅提高检索召回率。

四是混合排序机制，即结合向量相似度、节点层级信息、树形结构关系等多种因素进行综合排序，使检索结果既考虑语义匹配度，又兼顾内容的结构重要性和全面性。

三、应用探索与实践

1.落地实践

在基于Raptor构建反洗钱数据库的过程中，笔者团队使用反洗钱法及反洗钱规章制度作为文本输入进行了验证实践。其间，由于法律法规具有强结构化的特点，故笔者团队采用基于段落结构、标点符号两种维度的分块标准，构建了初始的细粒度文本块。同时，采用BGE-M3开源嵌入模型对文本进行初始嵌入，结合Postgres数据库存储文档的层级信息、标签信息、原文位置、归属关系以及嵌入后的向量数据，借助GMM进行语义聚类，并使用DeepSeek开源大模型对每个聚类中心进行摘要生成，并据此构建了递归抽象树。检索时，笔者团队采用Postgres的数据库查询及其自带的向量检索功能实现了混合检索，并通过BM25算法补充稀疏向量，实现了关键词搜索能力。验证结果显示，Raptor方法能够对规章制度中第一条、第二条等讲述不同主题的规章进行归纳总结，如形成了上级“客户信息保密相关义务摘要：×××”和更上级“金融机构合规框架摘要：×××”等更高层次摘要，不仅为内部文档资料提供了更加清晰的索引关系，也显著提升了RAG问答的准确性和可解释性。

2.优势特点

相比传统的分块向量化方法，Raptor方法通过创建一个结构化的索引树，表现出较为明显的应用优势：一是解决分块困境，即通过“语义聚类+摘要生成”的策略，Raptor既保留了细粒度的精确匹配能力，又通过层次结构尽可能保持了语义的完整性和关联性，从而可有效解决传统方法中相关性与精确性难以平衡的问题。在反洗钱法规检索实践中，该方法既能准确检索到具体的条款细节，又能从整体上理解法规的逻辑和层次。二是支持多维度语义理解，即Raptor能够从多个维度理解和表达文本语义，并通过多维特征提取，全面把握反洗钱知识。三是构建层次化知识组织，即基于递归抽象树结构和大模型生成的高质量摘要，Raptor能够根据问题复杂度提供恰当粒度的回答。例如，在应对简单问题时，可以提供具体的微观单元内容；在处理复杂问题时，则能提供高层次的摘要和整体框架，从相对更宏观的维度提供相关信息。

3.改进方向

在反洗钱领域，高质量的知识库需要大量准确、完整的数据作为支持，但目前如数据缺失、数据错误、数据格式不统一等问题依旧存在，且不同机构之间的数据标准也不一致，从而给数据的整合和共享带来困难，未来需建立统一的数据标准和规范，以确保知识库中的数据准确可靠。此外，反洗钱领域还涉及合规和监管问题，因此对大模型结果的准确性和可解释性要求较高，后续可采用问题循环提问、逐步引导检索过程和列出检索到的参考项等方式，不断提高其准确性和可解释性；同时，通过持续优化技术架构，进一步降低技术复杂度和实施成本，提高Raptor方法的可操作性和普及性。

综上所述，针对传统知识向量库设计的不足之处，笔者团队通过细粒度语义特征化、层次化语义聚类与大模型摘要生成以及关联网络构建等步骤，构建了一个多层次、多维度的知识表示结构，并通过验证实践证明，Raptor方法在提升反洗钱监测准确性、提高法规查询效率等方面具有显著优势。展望未来，伴随数据质量、大模型准确性和可解释性以及技术复杂度与实施成本等问题的逐步解决，基于Raptor方法的反洗钱知识库将在金融领域具有更为广阔的应用前景，在持续推动反洗钱法规动态更新与适应的同时，为金融行业的安全稳定发展提供有力支持。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业