微信扫码
添加专属顾问
我要投稿
猫超Matra项目如何让AI真正理解数据?揭秘AI知识库建设的关键路径与实践经验。核心内容: 1. 猫超数据资产面临的治理挑战与AI需求驱动 2. Matra项目中AI知识库的设计方案与关键技术 3. 知识库在数据研发提效与智能取数中的应用价值
一、背景
近年来,人工智能技术正以快速的发展重塑各行各业。大模型(LLM)的突破性进展,使得自然语言理解、生成与推理能力显著提升,AI不再局限于图像识别或推荐系统,而是逐步向复杂决策和自主执行演进。在这一背景下,“Data Agent”成为企业智能化升级的一个探索方向。
猫超数据资产历经十年建设,已形成规模庞大的数据体系:
累计沉淀 数万张表、近万个调度节点,其中核心保障任务约占30%+。
涵盖供应链、交易、日志、商品、直播等数据域。
然而,长期发展过程中也积累了诸多结构性问题:
规范问题:大量表字段与指标缺乏统一命名标准和清晰语义描述,存在“同名异义”和“异名同义”现象;
冷资产问题:因业务变迁、组织融合等原因,遗留了无人维护、低使用频率的“僵尸表”与过时口径;
逻辑口口相传:各域虽已逐步厘清内部数据模型,但关键业务知识(如指标口径、维度解释、依赖关系)仍散落在大数据平台脚本、报表系统、内部协作文档等非结构化载体中,缺乏统一归集与管理机制。
与此同时,数据研发团队需同时承担日常站点维护、高频数据答疑、临时取数支持及新需求开发等多重任务,导致精力分散,难以专注于核心模型建设和资产优化。
面向猫超小二、助理等一线业务角色,日常工作中存在大量数据依赖型任务,例如手动汇总多系统数据(ERP、报表平台、线下表格)定期更新日报、周报、专项分析。当前这些工作普遍依赖人工操作,存在三大痛点:
人力成本高:重复性取数与整理耗费大量时间;
效率低下:跨系统取数流程繁琐,响应周期长;
在此背景下,我们启动 Matra 项目 —— 一款面向猫超场景的 AI 数据助手,旨在通过自然语言交互实现“低门槛、高灵活性”的智能取数与分析服务,让AI能像专业的数据工程师、数据分析师一样,听懂业务问题、自动规划取数路径、生成并执行SQL并输出洞察结论,实现从“人找数”到“AI取数、分析、用数”的转变。
然而,一个高效、可靠的Data Agent离不开强大且结构化的知识支撑体系。没有高质量的知识库,AI难以准确理解语义、正确生成逻辑、稳定交付结果。
因此,构建一套面向 AI 的、可理解、可检索、可推理的 AI-知识库体系,已成为推动数据研发提效、赋能智能取数的核心基础设施。本文将以 Matra-AI 项目实践为基础,系统总结我们在知识库方案设计、内容构建、维护挑战、图谱召回及平台化落地等方面的探索与经验,旨在打造一个支持 Data Agent 高效运行的“数据认知中枢”。
二、知识库设计
2.1 方案思考
基于以上数据资产现状,在建设Matra知识库时主要考虑以下三点:
不重构数据模型:数据资产太多,需求压力大,数研精力有限,无法面向AI重构数据模型,优先在知识库层面让LLM理解现有表设计。
知识库可拓展性:猫超历史上未建设指标管理中心,而前期知识库结构、内容可能会面临不断调整、适配,需要一个灵活的知识库前期进行探索,通过钉钉表格、文档进行前期知识库维护。
知识库质量:数据资产质量参差不齐,不能全量维护,若对所有资产“一刀切”地纳入AI可用范围,将导致模型输入噪声大、推理结果不可信,筛选核心数据资产进行维护,从小而精致的知识库慢慢开始扩展。
这样可以通过较小的代价来维护面向AI的数据资产,对于初期LLM产品来说,这样可以牺牲一些全面性,但能提升准确性。
一个好的知识库应该包括哪些信息?从数据研发工作角度来看,一个数据需求必须要明确以下内容才可以进行开发。
指标定义:包括指标的名称/公式/是否可加;
数据粒度:数据的聚合粒度;
数据范围:数据底表的范围,包括日期限制/业态限制/取数限制等;
这些信息正好构成了书写SQL中必要信息,自然而然我们也分别构建指标(Metric Logic)/实体(Entity)/属性(Attribute)/表(Table)/字段(Columns)等知识库。
2.2 设计细节
三、知识库实践&效果
3.1 知识构建
知识库构建经历了2个阶段,第一阶段是通过钉钉文档的方式进行快速维护&更新,主要是核心数据资产,并供给知识图谱和下游Agent使用,用于跑通POC案例,并在实践的过程中不断完善知识库的设计方案。随着下游应用场景的扩展,更多的数据资产需要通过知识库维护,同时知识库结构相对稳定,知识库逐渐走到了第二阶段——产品化建设。
基于以上方案,结合元数据,对表、字段、指标等进行了评估和筛选,借助大模型能力对提取表、字段关键词并进行泛化,对DDL进行优化和标准化,构建知识库。以下为重点构建案例。
指标/实体/属性清单
标准名称 |
支付金额 |
供应商编码 |
现状 |
英文字段:div_pay_amt、pay_ord_amt、scitm_pay_ord_amt、gmv等 中文备注:成交金额、支付金额、GMV、成交规模 |
英文字段:supplier_code 中文备注:商家编码、供应商编码、二级供应商等 |
泛化后 |
成交金额,GMV,gmv,支付GMV,成交GMV,支付金额,交易金额,子订单支付金额 |
供应商编码,商家编码,二级供应商编码,supplier_code |
实践效果 |
问GMV能正确找到对应字段 |
查找商家、供应商都能定位到商家维表
|
表和DDL
维护示例 |
交易明细表 |
场域汇总表 |
表备注 |
描述清楚业务范围、数据内容、数据粒度、回刷策略、取数限制等信息 |
重点描述表的使用方法,交易指标需按照先按照order_id分组其他字段max,计算ipv需先按照user_id+item_id分组,其他字段取max等特殊用法说明。 |
关键词 |
拆组套交易明细|闪购拆组套交易明细|主站拆组套交易明细 |
场域活动订单|百亿补贴|超级补贴|淘宝秒杀|淘客|主搜|直播|官方补贴|通道活动成交|场域ipv|用户商品ipv |
DDL |
字段与标准指标和标准属性进行绑定,在原备注后新增指标:xxx,属性:xxx等信息 |
字段与标准指标和标准属性进行绑定,在原备注后新增指标:xxx,属性:xxx等信息 |
实践效果 |
问GMV能正确理解表的使用方法 |
问百补GMV能理解通过场域表获取 |
在经历过S1的产品迭代知识库的结构已经相对稳定,同时维护过程中发现表DDL+人工修正的维护SOP中暴露出许多问题。以下从有效性、保鲜性、维护成本三个方面分析。
1.有效性:知识库结构中需要同时维护 实体、属性、指标、表、DDL信息 五类知识,这些知识必须是可关联的信息才可以被大模型理解,否则问数任务在大模型执行中可能因某个知识无法与其他知识关联,扩大大模型幻觉的概率。
2.保鲜性:当表中维护的知识发生改变,需要依赖研发自发的修正其他知识中关联该变更的部分,如果不能及时修改,则知识库知识会失效。例如表实际DDL修改、表下线等问题。
3.维护成本:从知识库概览图中可以看发现,知识库中强依赖知识间的联动,因此每一次修改都需要联动修改很多绑定部分,并且知识库需避免冗余知识,冗余知识会显著增加模型推理相同问题的不确定性和时间,这不是问数所需要的,因此在人工维护的情况下,无疑是巨大维护成本。信息填充中大部分是简单且重复的工作,可被规则或者AI替代,却浪费大量的人时,仅仅维护一个域的4个中间层表,就需要研发2人时的精力,主要分为四种成本:
变更成本高:某一知识产生变更后,所有相关项需要手工扫描并更改。
扩展泛化词:为保证大模型理解用户问数中的维度和指标,并成功关联数据表的字段,需要人工填写多套可能的相似中英词组合。
唯一性校验:产生新知识后,需要人工扫描所有知识,以保证该知识与泛化词不会和历史所有的知识有重叠。
重复写入:新增了指标或者属性后,仍需要去DDL中将该标准知识重复维护在对应字段的备注中。
为了知识库可以长期维护,知识库的管理工具从静态文档必须转为半自动化的平台能力,但考虑到团队主要投入业务需求、技术栈不匹配、QPS低,自研平台性价比低,因此通过与AI自然语言交互搭建了一套资产维护平台,研发中主要承担产品构思,而非工程落地,极大解放人时,同时具备极高的拓展性。平台功能如下图:
平台秉承着在保障知识准确的情况下,实现知识间尽量独立但强关联,且极大减少了研发人工操作,仅需要确认,实现了知识库的半自动化,有效解决了手工维护知识库中遇到的三种问题。
通过建知识库维护页面,同时支持启用数据库从而保存维护内容并可回流ODPS进行数据管理,页面功能点如下:
功能 |
描述 |
实现页面 |
表 |
1.新增ODPS数据表,数据表格式:{项目名}.{表名},系统会自动解析 表是否在ODPS中是否存在,以及根据表名解析 项目空间、数据层级、业务范围、数据域、注释,并自动填充其他输入框,研发进行验证,并选择补充 详情URL以及 确认该表是否定期回刷。 2.研发必须输入项:仅ODPS表名 |
|
字段 |
1.作为知识光维护表是不够的,还需要维护表中的字段,进入到字段管理中 2.配置字段中,正常流程中研发必须且仅需维护 是否粒度,告知这张表的主键。 3.研发不需要完全维护这张表的所有字段,这张表最终也不会完全透出,透出范围仅由关联到 指标/维度的选项 清单范围决定。 4.系统会自动 根据 字段名/字段备注(优先字段名)结合维护的知识库元数据,自动识别 具体的指标/维度,原则上,研发不需要自己进行操作,只需要确认。 |
|
|
业务范围 |
1.业务范围、基础描述、词根必填,业务范围是中文单词(比如天猫超市),基础描述应该是这个业务范围的实际经营范围,词根是中译英的单词缩写,也应当与 建表规范一致。 |
|
|
数据域 |
1.数据域是用于做 元数据信息负责任的归属。 2.小组长就是数据域的归属,小组长下可以维护成员。后续所有数据域 关联的 知识和元数据变更都会将审批流程发到 小组长。 |
|
|
实体 |
1.实体名称、泛化名称 负责数据域 是必填项。 2.实体名称和泛化词均会和系统里的历史记录进行重复校验。 |
|
|
属性 |
1.属性名、实体必填 2.属性名称和泛化词均会和系统里的历史记录进行重复校验。 3.属性枚举值 就是 属性应该保证的值(同属性名不允许出现两套枚举值标准)。这里的枚举值 会用于之后做 指标公式的校验。 |
|
|
指标 |
1.指标名称、指标类型、计算公式、负责数据域必填 2.指标名称和泛化词均会和系统里的历史记录进行重复校验。 3.指标类型划分为简单指标和复合指标: a.简单指标适用于自身指标求和或单属性去重计算;简单指标是通过匹配属性/指标自动生成公式 b.复合指标适用于其他所有指标;而复合指标只输入公式,系统自动校验公式是否符合语法,并识别属性/指标,如果发现不合法子字符串,则该公式会被打上无效标签,不会给到大模型 |
维护对比效果如下:
|
新老对比
|
钉钉文档
|
知识库平台
|
有效性 |
在指标新增支付金额字段后,必须保证DDL中的pay_ord_amt的注释也叫支付金额,大模型才可以正确理解 |
平台中经过标准校验,只有唯一绑定知识的字段才会在透出给 大模型 |
保鲜性 |
因为钉钉文本是静态,所以表变更不会被及时监控到 |
消费数据平台的元数据,每一张表的DDL都定时重新解析,及时对DDL进行调整 |
|
维护成本 |
大模型需要的高质量知识,需要人工确保这四块知识包括关联的部分必须完全正确,存在大量判重校验/重复维护的问题 |
平台通过上图的产品设计,首先尽量减少重复输入,用关联替代输入。其次利用数据库查询和大模型文本生成的能力,泛化词生成和判重已经不需要人工写入。 |
3.2 图谱构建
数据资产通常涉及大量的数据表及字段,传统的RAG方法存在一定局限性,例如:难以准确刻画多表之间的关联关系、易产生“幻觉表”(即不存在的表名或字段)、以及召回和推理过程的可解释性较弱。为提升管理和智能分析的能力,我们采用 GraphRAG 技术,通过构建结构化的知识图谱,全面表达和推理数据表与字段之间的关联关系,从而显著提高召回结果的准确性。
3.3 图谱召回
在接收到用户查询后,首先对 query 进行分词和实体映射处理。借助模糊词库和公式库,识别并标准化 query 中的模糊表达与相关业务公式。例如,对于“今年猫超主站美妆百亿补贴渠道的笔单价是多少?”这一问题,“美妆”可映射为标准实体名“大组名称”,“笔单价”可通过公式识别为“笔单价 = 支付金额 / 支付父订单量”。模糊词和公式替换完成后,再将分词结果映射到知识图谱中的标准实体上,得到目标实体集合。
获得实体集合后,下一步是从知识图谱中检索能够覆盖所有目标实体的最优路径。具体而言,首先依据业务意图确定检索的社区,然后针对涉及的每个实体名,确定搜索的锚点实体(通常为指标类实体)。锚点实体可能在多张表中存在,(如“支付金额”指标存在于订单、场域、商品等表中),因此需要结合用户的问题,基于节点所归属的数据表及相关属性进行筛选,选取 Top K 表中的核心节点作为锚点。以这些锚点为起点,搜索能够覆盖所有目标实体的最小子树(最短路径),并最终输出 Top K 的路径结果,每条路径包含若干连接在一起的表节点和实体节点。
3.4 Agent框架
Matra底层的算法能力尚未对基座模型进行Supervised Fine-Tuning,仅通过基座模型的编排和串联实现,这对于算法框架设计、知识库查询的速度和准确性、Prompt设计有更高的要求。在实现选品、问数、分析等多场景的NL2SQL的过程中,我们主要面临三个关键问题:
用户意图识别与数据表召回困难:如何准确理解用户的真实需求,并快速找到正确可用的数据底表。
自然语言映射SQL难题:如何把用户输入的自然语言,准确转换成数据库能执行的查询语句。
复杂任务执行风险:当需要处理多个数据表或复杂计算时,如何确保整个过程不出错。
针对上述问题,我们设计了三个核心模块来解决:
1. 意图识别+知识图谱模块:通过意图识别+知识图谱对用户问题进行精准识别,并召回对应数据表。
2. 搭建ReAct框架:ReAct框架通过提示词工程引导大模型进行分步推理(如识别字段映射、计算规则),并利用上下文验证机制对生成SQL的语法与语义进行双重校验。
3. 搭建Plan&Execute框架:利用Plan&Execute框架将任务拆解为原子子查询,使用任务调度器管理中间状态与依赖关系,优化任务拆解的准度与计算链路的执行效率。
整体框架实现了从自然语言输入到数据输出的全链路过程,通过分层模块化设计(意图解析→执行规划→任务执行→结果输出)确保取数Agent的可扩展性和稳定性。
1. 用户需求输入与意图解析,对用户输入进行意图识别解析,例如“今年618期间百亿补贴渠道的gmv是多少?”,提取其中日期、渠道以及计算指标并与用户二次确认。
2. 取数核心流程
核心Agent整合意图识别结果和知识库信息,启动Plan&Execute Planer框架。
Planning节点对任务生成生成分步执行计划(如先筛选时间范围,再关联区域表)。
Execute节点调用ReAct框架的子Agent对子任务进行执行。取数Agent中包括data_collector与sql_executor两个子Agent,分别负责数据收集与SQL生成。
当检测执行异常时(如SQL语法错误/数据缺失),触发Replan节点进行重新规划。
当所有子任务执行结束,启用Summarize节点,验证完整性后进入输出阶段。
3. 输出形式
Markdown表格:适合前端展示。
Excel文件:包含完整数据集的可编辑文件。
3.5 应用实践
面向猫超的技术同学包括数开、数科、前后端技术同学等,8月上线并进行推广,累计问答数数千+,知识库范围内准确率85%+。
用户输入 |
模型返回 |
亮点说明 |
货品交易并给出SQL代码 |
正确返回相应的货品交易表,并提供货品维度的成交SQL |
🌟定位单表正确 🌟货品交易表取数限制正确、统计维度和指标正确->SQL正确 |
行业线维度的周转怎么获取 |
返回周转汇总表以及行业线配置表,并提供行业线维度的周转SQL |
🌟定位多表正确 🌟库存表取数限制正确、关联逻辑正确、统计指标正确->SQL正确 |
面向猫超的业务同学,8月上线并进行推广,累计问答数数千+,知识库范围内准确率75%+。
用户输入 |
模型返回: |
亮点说明 |
FYTD/QTD/最近双周/月销量计划准确率多少?对比销量预测准确率达成多少? |
🌟指标和现有看板数值一致 🌟多个时间周期的值均有返回 |
|
我需要获取猫超闪购8月全月采购小二维度的父订单数和子订单数,导出excel格式。 |
🌟猫超闪购新业务,维护一两条标签即可在问数取数 🌟模型理解闪购识别逻辑 🌟多表关联,正确找到小二mapping表 |
真实需求 |
传统开发流程 |
Matra流程 |
需要在多个看板增加核心品类维度,猫超重点考核核心品类的成交。 |
1.商品标签表增加核心品类字段 2.各个ADS增加核心品类维度/核心品类指标 3.各个数据集、报表调整工时:多则4个人日,少则2个人日) |
1.知识库维护、图谱更新 2、效果:支持场域、大盘等场景的核心品类*各种指标的问数、取数 |
四、未来规划
当前,Matra-AI知识库已在指标理解、语义映射、基础召回等方面取得阶段性成果,初步支撑了自然语言取数场景的落地。但面对更复杂、多变、高精度的业务需求,我们仍处于“能用”的初级阶段,距离“好用、可信、自进化”的理想状态还有较大差距。未来,我们将围绕 准确性提升、知识持续保鲜、能力边界拓展 三大方向持续推进,打造一个更具智能性与生命力的知识基础设施。
4.1 提升召回准确率:从“找得到”到“答得准”
当前AI在解析用户问题时,仍存在因语义歧义、别名覆盖不全、上下文缺失导致的误匹配现象,原文如下:
用户输入 |
模型返回 |
错误分类 |
错误原因 |
|
2025年7月天猫超市的用户购买行为:新客、老客、88vip,分别的购买客单价和购买笔数是多少?同比2024年7月的数据是怎样的?
|
SQL问题 |
纯新客不会在用户标签表(t-2),关联不到的为纯新客,特殊逻辑没有处理 |
|
天猫超市最近1个月,ipv uv表现最好的几个场域是什么 |
SQL问题 |
场域表,一个订单会在多个场域里,需要去重计算 |
为此,下一步将重点提升知识库的语义表达能力和推理精度,我们在以下几个方向探索:
拓宽边界:建立案例库,收录高频、典型SQL模版以及解决方案;在BAD CASE复盘中,我们发现了一个现象,对于部分设计复杂的表,Marta生成 SQL可用性会大大降低,这些案例通常会稳定复现,对于这类用法稍显特殊或者复杂的表,我们的解法是给出案例库,BY表给出一些典型的CASE SQL。当用户问到该类问题时,将案例SQL作为知识输入prompt,辅助使用该表。
资产质量:知识库维护质量,从表、字段、指标、维度的维护质量、召回质量、回答质量进行建立打分机制,推动高质量的数据资产维护,避免“数据中毒”。
4.2 实现知识保鲜:让知识库“活”起来
如今我们正在依托平台能力,搭建了简单的数据资产维护系统,但知识库的价值不仅在于“建得好”,更在于“跟得上”。业务迭代、表结构调整、口径变更频繁发生,若知识无法同步更新,AI输出的结果将迅速“过期”。目前我们对知识保鲜方面在以下几个方向探索:
事前:强化研发维护意识,将知识登记纳入关键交付节点(如需求上线、模型发布),提升团队主动维护意愿;
事中:当业务方提交新取数需求时,系统自动比对现有指标库,判断是否已有可复用口径;若发现“未建设”等问题,强制跳转至资产管理平台进行确认或注册;在研发流程中嵌入知识沉淀动作;
事后:建立多通道的知识更新触发机制,通过监听元数据变更事件(如ODPS表DDL修改、节点下线),触发告警并提示责任人更新知识库;
解析:借助线上代码以及大模型解析,实现知识自动补全。
主动式智能导购 AI 助手构建
为助力商家全天候自动化满足顾客的购物需求,可通过百炼构建一个 Multi-Agent 架构的大模型应用实现智能导购助手。该系统能够主动询问顾客所需商品的具体参数,一旦收集齐备,便会自动从商品数据库中检索匹配的商品,并精准推荐给顾客。
点击阅读原文查看详情。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-10
最新力作:一招提升RAG检索精度20%
2025-12-10
Apple 入局 RAG:深度解析 CLaRa 框架,如何实现 128x 文档语义压缩?
2025-12-09
客服、代码、法律场景适配:Milvus Ngram Index如何百倍优化LIKE查询| Milvus Week
2025-12-09
一键把碎片变成有料笔记:NoteGen,一款跨平台的 Markdown 笔记应用
2025-12-07
Embedding模型选型思路:相似度高不再代表检索准确(文末附实战指南)
2025-12-06
Palantir Ontology 助力AIP Agent落地工具介绍:Object Query
2025-12-05
把AI记忆做好,是一个价值6千亿美元的市场
2025-12-05
我错了,RAG还没完!AI记忆的结合会成为下一个技术风口
2025-10-04
2025-10-11
2025-09-30
2025-10-12
2025-12-04
2025-11-04
2025-10-31
2025-11-13
2025-10-12
2025-12-03
2025-12-10
2025-11-23
2025-11-20
2025-11-19
2025-11-04
2025-10-04
2025-09-30
2025-09-10