面向大规模代码仓库的结构化知识抽取与分层检索

发布日期：2025-08-08 14:29:15 浏览次数： 2357

作者：亚信科技新技术探索

微信搜一搜，关注“亚信科技新技术探索”

编者荐语

CodeRAG以AST为核心，重塑了智能代码理解与检索的范式，显著突破传统基于文本的局限。同时，CodeRAG还支持多语言分析、精准上下文构建，并通过增量解析和团队级缓存，助力大规模项目高效协同；独创的结构化特征提取和智能上下文选择，实现了高质量的检索与代码生成。未来，CodeRAG将深入语义理解，紧密集成主流开发平台，并推动智能知识共享生态，为软件开发团队带来前所未有的智能化和生产力提升。

面向大规模代码仓库

的结构化知识抽取与分层检索

亚信科技（中国）有限公司

摘要：本文旨在探讨CodeRAG如何对代码仓库中的代码、文档及项目元数进行深入挖掘及分析，从而解决当前存在的基于文本匹配而忽略代码结构特性和无法理解代码语义和依赖关系的问题。CodeRAG为项目代码仓库提供了项目实体关系图、方法调用关系图，在代码知识图谱的支持下能够将每次匹配检索的数据信息按照归属的图层级，在代码知识图谱中按图索骥，获取更多的上下文信息，用于支持AI编程工具及模型更好的完成各项代码相关任务。

一

引言

部分项目存在文件数量巨大以及单个文件内容超长的场景，在利用AI编程工具进行索引构建时，容易因超出模型的上下文窗口限制，AI工具无法获取完整的上下文信息，导致索引构建失败，甚至影响其正常运行。项目中大量的依赖关系信息碎片化严重，方法跨文件调用关系、类继承关系、设计模式相关类等代码依赖关系复杂。而AI编程工具基于文本相似度匹配的方式会忽略项目中代码结构特征，在理解项目代码及获取上下文信息时往往缺失了这些信息的查找途径及工具方法。常用的项目信息检索匹配方法是单层次的，不符合开发者分层递进式的查找及思考路径。

为了解决这些问题，编程大模型结合代码知识图谱的技术应运而生。CodeRAG知识图谱通过将代码库中各个元素及其相互关系建模，能够全面理解整个项目的结构和逻辑。这种方法不仅限于当前编辑的文件或函数，而是能够基于整个项目的上下文进行代码理解。因此它能够提供更精准的建议，避免了传统工具中由于上下文获取不足而导致的偏差和错误。

二

代码RAG技术概述

（一）代码RAG技术概述

代码RAG（Code RAG）是一个代码洞察及分析工具，工具对代码仓库分为解析理解和高阶利用两个阶段：解析理解阶段，首先经过语法解析工具对充斥在代码仓库中的所有文件中的信息进行解析提取，然后对提取到的代码仓库实体及关系信息进行更深入层次的处理分析，如语义摘要及调用链树；高阶利用阶段，提供了整个仓库的代码知识图谱，对于代码匹配查找及代码上下文关联信息获取有重要意义。

（二）代码RAG的发展历程

代码RAG从最初的简单代码文本及代码摘要文本的索引及检索，发展到对用户查询附加预检索处理和对检索结果附加检索后处理，再到如今利用多种组件以增强检索和处理能力，极大提升了检索的效率和准确率。

图：代码RAG技术发展前三个阶段

· 朴素RAG（Naive RAG）：传统代码RAG沿用文本语料的“检索-阅读-生成”框架，对代码进行分块、嵌入、相似性检索、将检索到的片段作为上下文注入生成模型。Naive RAG在许多方面存在显著问题，结构与语义信息丢失：朴素RAG多将源代码视为普通文本，分块粒度随意，无法区分结构单元，导致检索取回的代码块语义不完整、不相关，遗漏关键上下文信息；增强障碍：整合困难、冗余、单次检索不足，即单次检索出多来源的分块，且缺少分块整合的逻辑性依据；过度依赖：生成模型可能过度依赖增强的信息，缺乏对增强内容的深度思考，无法进行代码复杂依赖解析或关键结构的填补。

· Advanced RAG：为了提高检索质量，引入检索前和检索后策略。检索前处理包括优化索引结构和检索请求解析：代码AST的解析确保每个索引块具备结构的完整性；对检索请求进行结构化解析（如入口方法、参数类型、依赖关系等），提升检索的定位精度。检索后处理包括重新排序块及上下文压缩：基于AST信息进行分块重排序，优先返回与查询目的相关的结构单元；对检索出的AST结构和代码区块实施自动摘要与上下文压缩，提升回答代码上下文理解的深度与质量。

· Modular RAG：在此阶段Code RAG进一步引入可配置、可嵌套的结构化模块，并支持针对多场景的流程灵活编排。组合基于AST的结构解析、语义分析、调用链追踪、依赖还原等多个专业化模块，用于不同检索场景（如bug修复定位、调用路径追溯、接口兼容性检查等），并根据任务类型动态串联或并联相应处理路径。从原来顺序化检索和生成的模式，通过引入多个特殊模块及调整模块间的流转过程，采用新的范式达到根据不同任务不同流程的效果，提供了多样性和灵活性。

（三）代码RAG应用场景

代码RAG技术可应用于以下研发场景：

· 代码补齐及代码修改：通过构建代码仓库的知识图谱，能够基于整个项目的上下文进行相关代码检索。从而引导编程大模型给出更精确的代码修改建议，避免由于上下文缺失而导致的代码变更偏差和错误。

· 代码问答：在代码工程理解及代码查找领域，基于用户的问题，通过用户意图识别后，结合编排好的场景提示词和代码上下文信息，帮助AI工具更好的回答用户关于代码工程的问题。

· 设计文档生成：为仓库代码生成详设文档、概设文档，为概要设计文档生成提供系统的整体架构信息、模块及模块间关系信息，模块内关键业务接口的摘要信息。为详设文档生成提供关键业务类及业务方法详细信息，方法间调用链信息。

· 代码变更影响分析：通过分析变更代码的控制流和数据流，结合CodeRAG中的代码知识图谱数据，获取此次变更影响的代码接口范围及数据库表范围。

三

代码RAG关键技术

（一）AST解析，构建代码知识图谱

对代码仓库使用编程语言对应的语法分析工具进行细粒度的AST解析，是构建整个代码库知识图谱的第一步，也是最关键的一环。如果代码语法解析的不正确，反而会对后续RAG过程产生负面影响：

· 实体解析：提取所有的函数、类及方法等代码实体。

· 实体关系解析：提取实体间关系数据，如类继承关系、方法调用关系、模块间依赖关系。

· CRUD数据解析：从sql文件的create table语句提取数据库表及字段信息，然后映射到代码中的数据模型类。

· 文档解析：对代码仓库中配置文档、构建文档等进行解析。

为了得到上述准确完整的解析数据，从以下几点着手：

· 解析触发机制：初始化项目仓库时对仓库文件做全量解析。后期管理端及客户端git hooks也支持全量及增量的解析触发。

· 解析过程实现幂等性：引入缓存机制，每次解析前加载存量数据到缓存，根据解析出来实体数据判断是新增还是修改，然后修改相关的实体队列，以便后续flush到数据库中。幂等性的解析设计也为多套解析管道提供了数据一致性的基础保障。

· 数据库表结构解析：首先使用正则表达式识别sql文件中的表名称、表注释信息，然后格式化建表语句，包括表头、表字段及表选项，最后基于大模型处理赋予表结构中文语义摘要信息以及外键关联信息。

· 文档统一预处理及结构化切分与存储：对多种类型文档进行清洗和格式转换，统一预处理为Markdown格式。然后依据标题进行文档切分，抽象切分出多个分区层级，作为后面的混合索引机制的数据来源。

（二）混合索引机制

在RAG系统中，混合索引相对于单一文本索引具有显著优势，尤其适合于代码仓库这类结构化清晰的数据源。在代码库解析阶段，将模块名、类名、方法名的中文摘要以及文档内容提取的关键词存储到ElasticSearch搜索引擎中用于全文匹配，将模块功能描述、类摘要信息、方法摘要信息以及文档的分区切分文本向量化到向量库中用于向量匹配。

这种根据代码原生的结构特征以及文档的目录结构关系的分层级的混合索引机制，保留了索引数据中的信息完整性。在以下几方面具有显著优势：

· 提升了检索的准确性与覆盖度。对于检索输入问题层级明确的情况下，直接同层级的检索匹配，可以直接忽略掉无关干扰数据；

· 检索范围更小、速度更快。混合索引将搜索空间按层次进行额划分，无需对全量的索引数据进行匹配。

· 上下文信息更完整，且索引数据中可以携带更完整的元数据信息。解决传统RAG分块中数据相关性低、上下文及元数据信息缺失问题，上下文及元数据信息的附加可以使索引数据的质量更高。

（三）智能上下文选择

基于完整的AST分析结果，智能上下文选择算法能够精准识别和补全这些缺失的上下文。这种基于AST的智能上下文选择，从根本上解决了代码理解中的信息不完整问题，确保大模型能够基于充分、准确的上下文进行推理，从而实现真正意义上的代码智能化应用。

· 检索意图识别：对自然语言问题进行检索意图识别、关键字提取和层级标签的处理。识别的意图用于后续检索路径的选择，层级标签用于检索层级范围的初始选定，提取的关键字信息用于全文检索以及向量检索。对检索召回数据根据不同的查询意图智能调整上下文范围：对于代码解释需要扩展到相关依赖，对于bug分析需要包含调用路径，对于重构建议需要涵盖影响范围。

· 递进式检索路由算法：基于多层次的混合索引数据，按照代码检索路径及权重，实现分层递进式检索路由算法。检索工具包括大模型、多智能体框架：大模型用于关键字提取、意图识别、检索结果数据的压缩以及效果判定；多智能体框架用于检索路径的编排及执行。索引结构包括倒排索引及向量索引，倒排索引用于提取到的用户输入关键字到索引空间的映射匹配，向量索引用于在对应索引空间内的近似匹配。

四

挑战与展望

（一）当前面临的技术挑战

CodeRAG面临多语言代码解析、信息抽取、知识库高效更新、私有部署等综合性技术难题。核心挑战在于如何精准理解复杂、庞大的代码工程内容，并将其转化为可用于高质量智能问答的结构化知识，同时确保系统兼具安全、高效、实时和可扩展等能力。

· 代码解析的准确性与兼容性：工程内代码往往包含多种编程语言、框架、脚本混杂，对于静态分析和抽象语法树（AST）解析的广泛支持存在技术难度；工程依赖的第三方库，部分函数/接口可能无法直接解析；非主流语言、代码规范不一致导致解析歧义；

· 规模与时效性问题：面对大规模、频繁变更的工程，如何快速增量更新知识库，保持与代码主干高度一致；

· 安全与隐私：在不泄露本地代码和业务的前提下，实现端侧高效的跨模态检索和生成推理；

· 跨源知识整合：连通代码、接口文档、测试、需求等多类工程资产，实现全链路知识关联和便捷可视化问答；

（二）未来的发展方向与研究热点

未来，CodeRAG将从支持更多语言、更丰富类型的工程资产入手，提升自动化知识抽取与理解能力，结合大模型与高效检索、实现实时增量更新，强化私有化部署和安全性，并与开发工具深度集成。研究热点也会聚焦于端侧智能、复杂工程的知识关联、深层语义理解和高质量自动问答支持。

· 本地部署与优化：如何让智能问答和代码理解能力直接跑在企业、个人本地环境，实现安全、合规和低延迟；

· 自动化知识抽取与跨源资产的语义关联：能从注释、接口、调用链、需求文档等多渠道自动抽取高质量结构化知识，智能识别关键实体并自动建立关系，实现全景式工程知识图谱的构建；

· 增量同步与变更跟踪：研究如何精准、低成本地随代码变更实时更新知识库，保证知识时效和一致性；

· 智能语义检索与高质量代码问答：通过理解自然语言提问和代码的“语义”关联，智能地找到与用户问题相关的代码片段、接口、注释、设计说明等信息，并准确、全面、上下文贴切地给出问题解答，包括定位代码、解释用法、生成示例、剖析原理等

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业