免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

大模型时代的知识工程:OpenKG年度回顾(2025-2026)

发布日期:2026-02-20 10:02:59 浏览次数: 1587
作者:知识图谱科技

微信搜一搜,关注“知识图谱科技”

推荐语

大模型时代的知识工程如何突破瓶颈?OpenKG年度回顾揭示四大关键进展。

核心内容:
1. OneGraph:从规模缩放转向结构缩放,破解大模型的结构性瓶颈
2. SPG + KAG:知识增强的推理新范式,提升逻辑推理能力
3. SkillNet与OneEval:Agent时代的知识工程新范式与动态评测体系

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

概述

在过去一年大模型(LLM)高速发展的背景下,Palantir 的动态本体(Dynamic Ontology)与 Anthropic 的 Context Graph 等实践,进一步证明了知识图谱在推理决策与知识对齐中的核心价值。

OpenKG 紧扣这一趋势,依托 SIGData、SIGSPG、SIGTool、SIGModel、SIGAgent、SIGEval 等兴趣小组开展协同协作,并在高质量知识数据、知识增强生成与推理、以及 Agent 时代的知识工程新范式、基于知识增强的动态大模型评测等方面做了诸多有意义的尝试。社区在发布系统评测基准的同时,通过开源工具的 MCP 封装与多工具编排,实现了知识图谱全生命周期的自动化管理;此外,社区正积极布局知识图谱基座模型,旨在探索如何进一步提升系统在未见数据泛化与链接预测等任务中的潜力。

 值此新年伊始,我们将从上述探索中挑选出四个代表性工作进行系统回顾与解读,并给出相应的未来趋势预测,分别是:数据层的 OneGraph、推理层的 SPG + KAG、Agent 层的 SkillNet,以及评测层的 OneEval。希望这些分享能为大家带来启发。

OneGraph:从规模缩放走向结构缩放

一、 驱动动机:破解大模型的“结构性瓶颈”

当前大模型(LLM)社区正面临从“概率统计”向“逻辑推理”跨越的关键期,SIGData的核心动机在于:

  • 弥补原生缺陷:针对 LLM 固有的幻觉、知识滞后及长程逻辑不一致问题,通过开源并维护大规模结构化知识图谱提供事实锚点。
  • 优化计算效率:传统 Transformer 的全连接注意力机制复杂度为 O(N^2)。通过引入“显性结构稀疏性”,将计算路径限制在图谱定义的逻辑轨道上,实现从“大海捞针”到“地图导航”的效率飞跃。
  • 探索新型 Scaling Law:数据量 Scaling 已触及天花板。社区急需验证基于“节点/边数”及“拓扑复杂度”的 Graph Data Scaling Law,以结构化先验突破 AGI 的性能上限。

二、 建设现状:千万级双语知识基础设施

过去一年,SIGData在OneGraph (http://onegraph.openkg.cn/,见图1) 的建设与服务上取得了里程碑式进展:

  • 海量规模与质量:OneGraph V2 已积累超过 3679 万个三元组,涵盖人文学科(2500万)、工程技术(450万)等核心领域。数据准确率达 86%,节点稠密度为 2.78。
  • 全链路服务矩阵:设计了 OneGraph-E/R/G/T 体系,涵盖了知识抽取、精准检索、基于 EoG(Enrich-on-Graph)的生成增强的服务,已开放OneGraph-R/G的服务工具。
  • 实测成效显著:在 CEval 评测中,OneGraph V2 将 DeepSeek 等主流模型的准确率从 80.7% 提升至 86.1%。此外,通过图谱指令微调的 Llama3 8B 在规划能力上已超越 GPT-3.5 (175B) 。
图1 OneGraph服务方法(涵盖抽取-检索-生成-思考四类图谱增强服务)
图1 OneGraph服务方法(涵盖抽取-检索-生成-思考四类图谱增强服务)

三、 核心洞察:结构即力量(Structure is Power)

通过 OneGraph 的大规模实践,我们提炼出两条对社区具有借鉴意义的洞察:

  • 合成数据的结构溢价:合成数据不再是“低质”代名词。通过 LLM 将模型内部的隐性直觉转化为显性逻辑(占比达 59.7%),能够突破人类标注的“天花板”,实现知识的自我审计与对齐(见图2)。
  • 以结构稀疏性对冲参数不确定性:引入严谨的本体结构(如 OntoTune 方法)比单纯的语料堆砌更有效。良好的知识组织能够纠正模型的认知错乱,实现更高维度的“对齐”(见图3)。
图2 基于知识图谱的规划指令合成(3步流程图:Data Construction → Planning LLM Tuning and Inference → Plan Parsing and Execution)
图2 基于知识图谱的规划指令合成(3步流程图:Data Construction → Planning LLM Tuning and Inference → Plan Parsing and Execution)
图3 基于本体的大模型领域知识力提升语料合成(OntoTune对比图)
图3 基于本体的大模型领域知识力提升语料合成(OntoTune对比图)

四、 趋势预测:迈向自进化的知识增强新纪元

展望 2026 年,知识增强大模型技术将呈现以下趋势:

  • 任务驱动的精准建设:数据构建将从“全量扩充”转向“任务驱动”。重点关注如何针对特定应用场景构建更具逻辑深度的微型专业图谱。
  • 数据合成的自驱动进化:形成“模型生成数据 → 结构化清洗 → 增强模型表现 → 生成更高质数据”的正向循环,实现知识库与模型能力的同步规模缩放。
  • 从 Scaling Law 进化为 Structural Law:社区将不再单纯追求参数量,而是追求“结构熵”与“逻辑深度”的 Scaling。具备更强结构先验的模型将在更小的参数规模下实现更优的推理性能。

SPG + KAG:知识增强推理的演变与未来

一、驱动动机:从“检索增强”到“推理增强”

大模型在开放域问答中展现了强大的语言能力,但在知识密集型的专业场景中仍面临三重困境:

  • 事实可靠性不足:大模型的参数化记忆难以保证事实的精确性与时效性,在法律、金融、医疗等对准确率要求极高的领域频繁出现幻觉。
  • 复杂推理链条断裂:传统 RAG 以段落召回为核心,缺乏对多跳逻辑推理、数值计算与时空约束的结构化支撑,导致推理在"最后一公里"频繁崩溃。
  • 推理能力外挂化瓶颈:当推理能力完全依赖外部框架编排时,系统的快速响应、可控性与泛化能力均受到严重制约,亟需将结构化推理内化为模型的原生能力。

SIGSPG 的核心使命正是围绕上述痛点,构建从语义底座、推理框架到推理模型的三层递进式知识增强体系。

二、核心架构与建设现状

围绕“语义底座 → 推理框架 → 推理模型”的三层递进思路,SIGSPG 构建了 OpenSPG、KAG-Solver、KAG-Thinker 三大核心组件:

OpenSPG:语义底座与动态本体

OpenSPG (https://openspg.github.io/v2/) 承担着类似于 Palantir Dynamic Ontology(动态本体)的角色,其核心价值在于构建一个严谨的“实体空间”。它通过 Schema 定义严谨的实体、关系与属性约束,为大模型提供确定性的事实底座。通过“KAG Index Diffusion”机制,将本体知识、实体、关系、时间空间知识与原文段落映射到统一语义空间,有效解决了传统向量检索在指代、时空、数值及逻辑四个维度上的偏差(见图4)。

图4 KAG Index Diffusion 四类错位问题对比表(指代/时空/数值/逻辑错位)
图4 KAG Index Diffusion 四类错位问题对比表(指代/时空/数值/逻辑错位)

KAG-Solver:驱动 Agentic RAG 的执行枢纽

在结构化底座之上,KAG (https://github.com/OpenSPG/KAG) 通过 Agentic RAG 范式将应用升级为“自主规划与混合执行”。KAG-Solver 采用 Planner(规划)、Executor(执行)与 Generator(生成)的闭环架构。Planner 负责逻辑拆解,Executor 则动态调用逻辑演绎器、代码计算器或基于 OpenSPG 的检索器,实现从“盲目匹配”到“语义路径搜索”的转变(见图5)。

图5 KAG框架概述与KAG五大增强
图5 KAG框架概述与KAG五大增强

KAG-Thinker:推理能力的内化与模型优化

SIGSPG 的核心创新在于引入 KAG-Thinker,将推理能力从框架层内化到模型层。它融合了自然语言推理与符号表达式(Logical Form)推理(见图6)。通过引入变量、运算器与运算规则,赋予模型简明的逻辑约束,实现可稳定求解与逐步验证的能力。通过交互式迭代合成高质量 SFT 语料,让模型学习思考范式,将结构化推理转化为原生内核能力(见图7)。

图6 Logical Form的合理性与必要性
图6 Logical Form的合理性与必要性
图7 KAG-Thinker推理范式与推理过程样本合成
图7 KAG-Thinker推理范式与推理过程样本合成
  • 在工程层面,最新的KAG 0.8版本进一步夯实了系统能力:支持自由定制 Builder 流水线,实现高效且低成本的知识加工;全面接入 MCP 协议,无缝连接外部数据源与工具链;持续优化求解策略,在跨文档、长链条推理任务中保持行业领先表现(见图8)。
图8 KAG 0.8流程图(迭代式求解或DAG引导求解)
图8 KAG 0.8流程图(迭代式求解或DAG引导求解)

三、核心洞察:框架推理与内化推理的互补共生

通过 SPG + KAG 体系的持续迭代,我们提炼出三条对社区具有借鉴意义的洞察:

  • 框架化推理与内化推理互补共生:KAG-Solver 提供了可解释、可调试的框架化推理路径,而 KAG-Thinker 则将这种推理能力蒸馏进模型参数中。二者并非替代关系,而是形成 “外部脚手架训练 → 内化为原生能力 → 反哺框架优化” 的螺旋上升闭环。
  • 符号推理的回归与重塑:在大模型时代,符号推理并未过时,而是以 LogicalForm 等新形态重新嵌入神经网络推理过程。通过变量绑定与运算规则约束,符号机制为大模型的“自由联想”提供了必要的逻辑护栏,显著提升了复杂问题求解的稳定性与可验证性。
  • 动态本体是知识增强的核心枢纽:OpenSPG 的实践表明,静态知识库难以适应快速变化的业务场景。具备自演化能力的动态本体,能够在问题求解过程中持续发现并补全知识缺口,是连接数据层与推理层的关键桥梁。

四、未来趋势与展望

展望2026年,人工智能系统的知识增强推理将呈现以下趋势:

  • 稳定可解释推理:从“黑盒预测”转向“白盒逻辑”,通过 KAG-Thinker 强化推理过程的透明度。
  • 领域本体自演化:系统在解决问题的过程中,能自主发现现有本体的缺失,并发起对OpenSPG 知识体系的更新与扩充,实现知识底座的持续生长。
  • 状态化的长程协作:系统将具备更强的状态保持能力,能够在复杂的跨域任务中维持上下文的一致性与逻辑的连贯性,从而支撑垂直行业场景的精准决策。
  • 持续学习与反馈闭环:系统通过处理问题的反馈,持续优化模型自身的逻辑表达与知识理解,形成可复用的“专业 Know-how”知识节点。

SkillNet:重构智能体时代的知识工程

一、 背景与动机:破解智能体规划的“逻辑断层”

在智能体(Agent)技术从实验走向大规模落地的过程中,传统的知识表示与获取方式面临严峻挑战:

  • 知识的行动化转向:传统的知识图谱(KG)侧重于存储陈述性知识(Know-what),主要由事实三元组构成。然而,智能体在执行复杂任务时,核心需求是包含思维链(CoT)、结构化逻辑和行业经验的过程性知识(Know-how)。
  • 规模化与标准化生产:针对目前大模型应用中提示词(Prompt)编写效率低、不可控且难以迁移的问题,亟需通过自动化手段将分散的行业知识规模化沉淀为可执行、可分发的“技能单元”。
  • 提升决策可靠性:通过将经验切片化,为大模型在特定领域(如工业流程、科学研究)的规划提供严密的逻辑支撑和环境反馈闭环,从而减少幻觉并提高执行成功率。

二、 建设现状:海量资源与多维度评估

目前的SkillNet(访问地址:http://skillnet.openkg.cn/,见图9)已演进为具备自我生长能力的开放基础设施。

1. 资源规模

目前 SkillNet 已实现知识的工业化转化,其资源总量持续增长:

  • 总资源量:已突破 200,000+ 项原始技能储备。
  • 精选资源量 (Curated):通过标准化评估过滤,现有 139,685+ 项高可靠精选技能可供直接调用。
图9 SkillNet官网与五大评估维度
图9 SkillNet官网与五大评估维度

为了支撑智能体在不同维度的逻辑与行动,SkillNet 细分了以下核心资源(见图10):

图10 SkillNet三层本体结构
图10 SkillNet三层本体结构

技能分类体系(Skill Taxonomy)

该层通过 category 与 tag 两类关系,将技能组织为多层级的层次结构。它将宏观领域(如 Development、AIGC、Science 等)细化为具体标签(如 frontend、llm、physics),构建出清晰的高层语义骨架,便于导航与检索。

技能关系图(Skill Relation Graph)

该层将抽象标签进一步实例化为具体的技能实体(如 Matplotlib、Playwright)。通过多种关系边定义技能之间的交互逻辑,包括 similar_to、compose_with、belong_to 与 depend_on,从而形成支持智能体推理与规划的核心结构。

技能包库(Skill Package Library)

底层描述技能的物理组织与分发方式。单个技能通过 packaged_in 关系被封装为技能包(如 data-science-visualization),以支持模块化发布、复用与部署。

整体而言,SkillNet通过Skill Ontology将分散的技能组织为一个结构化、可组合的网络,使智能体能够以可扩展、可维护的方式完成复杂任务的推理、规划与执行。Skill Ontology是一个动态演化的知识体系,用于持续建模技能之间的关系。新的标签可以从分类体系中不断扩展,大模型则基于这些标签推断潜在关系,逐步实例化并完善技能关系图。

2. 多维评估框架

为确保技能在真实智能体环境中的可用性与可靠性,SkillNet 构建了一套系统化的五维评估框架,从安全、完备、执行、适配与效率五个关键维度对技能质量进行全面衡量:

安全性(Safety)

检测技能在调用外部工具、处理输入输出或执行代码时的潜在风险(如越权访问、信息泄露或不安全操作等),由大模型(基于GPT-5o-mini)依据安全准则进行结构化判定。

完备性(Completeness)

审查技能定义是否自洽、信息充分,是否覆盖必要的输入、输出、前置条件与异常处理等,同样基于 GPT-5o-mini,对技能规范进行语义一致性与覆盖度分析。

执行性(Executability)

通过自动化执行框架对技能代码进行实际运行测试:根据标准输入用例触发技能,检测运行成功率、输出正确性与异常情况,从而获得客观的执行指标。

适配性(Maintainability)

评估技能在不同任务与组合场景中的可对接程度,包括接口规范一致性、依赖声明清晰度以及与相关技能的语义匹配度。通过大模型对技能描述、标签与关系进行对齐分析,判断其在多场景下的适配与可组合性。

效率(Cost-Awareness)

衡量技能在典型使用情境中的资源与时间成本,例如推理步数、调用链长度或预期执行开销。评估由 GPT-5o-mini 结合技能流程描述进行复杂度与成本估计,给出相对效率等级,用于规划与调度优化。

人类一致性实验表明,上述大模型自动评估与专家标注在各维度上均具有高度一致性,验证了多维评估框架作为可扩展自动化评测基础设施的可靠性。

三、 深度洞察:SkillNet vs. Claude Context Graph

SkillNet 代表了知识增强领域的差异化进化路径(见图11):

  • 定位差异:Claude 的 Context Graph(上下文图谱)侧重于构建结构化的“长期背景记忆”以辅助 RAG 召回;而 SkillNet 则侧重于构建“行动方法论”。
  • 协同本质:Context Graph 告诉智能体“是什么”,提供业务背景;SkillNet 告诉智能体“怎么做”,提供经过验证的思维路径与执行 SOP。
图11 SkillNet构建概览以及与Claude Context Graph对比
图11 SkillNet构建概览以及与Claude Context Graph对比

四、 趋势预测:迈向“技能工程”时代

  • 自主演进(Autonomous Evolution):智能体将从单纯的“技能使用者”进化为“创造者”。通过环境反馈,Agent 能自主修正并沉淀新技能回传,实现知识库的自我迭代。
  • 跨域技能镜像:未来行业专有知识将转化为可打包、可分发的“技能镜像”,实现 Agent 能力在不同领域(如 AI4Science)间的快速横向迁移与能力克隆。
  • 新一代行业知识工程:知识工程的重心将从“建设数据库”全面转向“建设技能库”,实现行业 SOP 的数字化与智能化,最终达成复杂任务的自主决策执行。

OneEval:大模型知识推理能力的深度诊断

一、核心动机:从“静态排名”到“动态诊断”

随着推理型大模型快速进化,传统评测体系面临三重失效:

静态基准的信效度危机:传统基准被反复使用,导致严重的数据污染。模型高分往往源于"记忆"而非真实推理能力,难以区分泛化与过拟合。

知识增强场景的评测盲区:现有评测(MMLU/BIG-bench/ARC/GSM8K)多维但偏碎片化,对“大模型 + 外部知识库”这一核心应用场景的覆盖严重不足。

动态性与可控性的双重缺失:知识密集型任务依赖最新事实与多步推理,静态评测集极易失真;而现有动态基准自动生成的题目又往往不够可解释、难点不可控,亟需同时做到“更具挑战”且“难点可归因”。

SIGEval 的核心使命正是围绕上述痛点,构建一个覆盖多知识库类型、多领域、可持续进化的评测基准体系。

二、建设现状:全面评测体系与榜单迭代

OneEval (http://oneeval.openkg.cn/) 自 2025 年 4 月发布 V1.0 以来,经历 4 次迭代至当前 V1.3 版本,已形成覆盖文本、表格、知识图谱、代码、逻辑 5 种知识库类型与通用、税务、经济、法律、学术 5 个领域的系统化评测框架(见图12)。分析最新版本榜单,可以发现:

第一梯队集体未达及格线:榜单显示,即使是全球顶尖模型,绝对得分也远未达到及格线:排名第一的 Claude 4.5-sonnet-thinking 仅 37.65 分,即便是较新的 Gemini 3-pro(37.02 分)与 与 DeepSeek-V3.2(32.60分)同样处于低位。这揭示了当前模型在处理知识密集型推理的表现仍有很大进步空间。

模型“偏科”现象显著:不同模型在知识形式上的表现差异明显:DeepSeek-V3.2-thinking 擅长代码与 KG 推理,但表格推理表现较弱;Gemini 3-pro 在逻辑推理与税务领域保持领先;GPT-5.2-Thinking 综合排名跌出前五,在多项核心指标中显著弱于头部模型。

图12 OneEval评测总图
图12 OneEval评测总图

在此基础上,考虑引入评测数据的动态演化趋势,SIGEval 进一步推出了 Dynamic OneEval——一个自动化生成的可持续更新的动态评测体系(见图13)。区别于传统的静态出题模式,Dynamic OneEval 采用“错误分析 → 难点再现 → 多模型投票保真”的三阶段闭环构建策略:

阶段一:结构化错误分析。对模型在 OneEval 中的错误样本进行结构化复盘,定位失分环节、错误类型与触发条件,将“模型为什么错”转化为可操作的生成约束。

阶段二:双视角实例合成。从两类核心能力压力源出发定向扩充数据——“知识施压”用于检验模型对专业知识与时效性知识的掌握与记忆,“推理施压”通过干扰项、歧义设定与多步依赖放大推理链条中的脆弱点。

阶段三:多标准门控筛选。引入多 LLM 投票与一致性校验,剔除噪声与不确定题,最终保留答案可核验、歧义可控、区分度高的高质量评测数据。

图13 Dynamic OneEval三阶段闭环(错误分析 → 双视角实例合成 → 多标准门控筛选)
图13 Dynamic OneEval三阶段闭环(错误分析 → 双视角实例合成 → 多标准门控筛选)

Dynamic OneEval 当前版本覆盖文本、KG、表格三种知识库类型,合成测试实例涵盖 30 种主要难点类型与 100+ 种细粒度难点类型,各类难点分布均衡,避免评测偏科。首轮评测结果显示,得分最高的 Gemini 3-pro 也仅为 46.4%,整体难度远未饱和。

三、核心洞察:知识形式差异与动态评测的范式价值

通过 OneEval 静态榜单与 Dynamic OneEval 动态评测的双轨实践,我们提炼出三条对社区具有借鉴意义的洞察:

  • 知识形式差异构成正交挑战维度:不同知识库类型对模型的考验维度截然不同。KG 推理的核心瓶颈在于多跳路径选择与隐含约束校验,误差在链式传播中不断累积;文本推理更考验跨句信息整合、指代消解与抗干扰能力,推理链稍有不稳便会急剧放大偏差;表格推理则更加偏向结构化操作的精确性——单元格对齐、算子选择与边界条件处理的系统性偏差是主要失分来源。三类知识形式暴露了模型能力的不同侧面,单一维度的高分无法掩盖其他维度的脆弱性,这也解释了“偏科”现象的普遍性。
  • 动态评测代表评测方法论的范式跃迁:传统“出一批题、测一轮、出排名”的静态模式,在模型快速迭代的时代已丧失区分效力。Dynamic OneEval 的三阶段闭环实现了从“被动测量”到“主动施压”的转变——以错误驱动生成、以难点因素控制难度、以多模型投票保真。这意味着评测本身从一次性的“考试”演化为持续进化的“对抗系统”,能够随模型能力提升而自适应升级挑战难度,始终保持对真实能力边界的有效探测。
  • 少量失败样例可撬动大规模高质量评测:Dynamic OneEval 的实践表明,从相对较小的失败样例集合出发,即可合成出大量具有挑战性的测试实例。随着失败样例池的持续增长,数据集规模在原则上可无界扩展,这为构建低成本、可持续的评测基础设施提供了可行路径。

四、趋势预测:迈向诊断式评测新范式

展望 2026 年,知识增强推理评测将呈现以下趋势:

  • 诊断式评测:评测将从“给排名”转向“出诊断报告”,提供可归因的失败分析与针对性改进建议,直接反哺模型与系统的迭代优化。
  • 数据密度升级:OneEval 将引入更多高质量、高密度的行业推理数据集,以及由知识图谱合成的可控推理难度数据集,进一步拓展评测的领域覆盖面与深度。
  • 动态持续进化:Dynamic OneEval 将持续动态合成新的推理评测数据并更新榜单,通过“实时抗污染”机制,为衡量大模型知识推理真实能力建立长效基准。

总结展望

我们将持续深耕,重点围绕记忆增强、知识增强的具身智能体、以及本体驱动的数据治理管线,分别与记忆张量的 OpenMem 社区、华为的 OpenJiuwen社区以及面壁智能的 OpenBMB 社区展开深度联动。知识图谱的价值在大模型的狂奔中依然稳固,但其内涵与外延已在悄然间发生深刻变革。唯有与时俱进,不断重塑知识工程的形态,方能共同抵达 AGI 的彼岸。

最后,值此新春佳节,向大家拜个年,祝马年大吉!感谢大家一直以来的陪伴,也请继续关注 OpenKG 的工作。新的一年,愿我们能共同为国内知识驱动的 AI-Native 生态转型提供坚实的支撑!

撰文:王昊奋

编辑:邓鸿杰

审定:陈华钧、漆桂林


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询