微信扫码
添加专属顾问
我要投稿
大模型时代的知识工程如何突破瓶颈?OpenKG年度回顾揭示四大关键进展。核心内容: 1. OneGraph:从规模缩放转向结构缩放,破解大模型的结构性瓶颈 2. SPG + KAG:知识增强的推理新范式,提升逻辑推理能力 3. SkillNet与OneEval:Agent时代的知识工程新范式与动态评测体系
在过去一年大模型(LLM)高速发展的背景下,Palantir 的动态本体(Dynamic Ontology)与 Anthropic 的 Context Graph 等实践,进一步证明了知识图谱在推理决策与知识对齐中的核心价值。
OpenKG 紧扣这一趋势,依托 SIGData、SIGSPG、SIGTool、SIGModel、SIGAgent、SIGEval 等兴趣小组开展协同协作,并在高质量知识数据、知识增强生成与推理、以及 Agent 时代的知识工程新范式、基于知识增强的动态大模型评测等方面做了诸多有意义的尝试。社区在发布系统评测基准的同时,通过开源工具的 MCP 封装与多工具编排,实现了知识图谱全生命周期的自动化管理;此外,社区正积极布局知识图谱基座模型,旨在探索如何进一步提升系统在未见数据泛化与链接预测等任务中的潜力。
值此新年伊始,我们将从上述探索中挑选出四个代表性工作进行系统回顾与解读,并给出相应的未来趋势预测,分别是:数据层的 OneGraph、推理层的 SPG + KAG、Agent 层的 SkillNet,以及评测层的 OneEval。希望这些分享能为大家带来启发。
当前大模型(LLM)社区正面临从“概率统计”向“逻辑推理”跨越的关键期,SIGData的核心动机在于:
过去一年,SIGData在OneGraph (http://onegraph.openkg.cn/,见图1) 的建设与服务上取得了里程碑式进展:
通过 OneGraph 的大规模实践,我们提炼出两条对社区具有借鉴意义的洞察:
展望 2026 年,知识增强大模型技术将呈现以下趋势:
大模型在开放域问答中展现了强大的语言能力,但在知识密集型的专业场景中仍面临三重困境:
SIGSPG 的核心使命正是围绕上述痛点,构建从语义底座、推理框架到推理模型的三层递进式知识增强体系。
围绕“语义底座 → 推理框架 → 推理模型”的三层递进思路,SIGSPG 构建了 OpenSPG、KAG-Solver、KAG-Thinker 三大核心组件:
OpenSPG (https://openspg.github.io/v2/) 承担着类似于 Palantir Dynamic Ontology(动态本体)的角色,其核心价值在于构建一个严谨的“实体空间”。它通过 Schema 定义严谨的实体、关系与属性约束,为大模型提供确定性的事实底座。通过“KAG Index Diffusion”机制,将本体知识、实体、关系、时间空间知识与原文段落映射到统一语义空间,有效解决了传统向量检索在指代、时空、数值及逻辑四个维度上的偏差(见图4)。
在结构化底座之上,KAG (https://github.com/OpenSPG/KAG) 通过 Agentic RAG 范式将应用升级为“自主规划与混合执行”。KAG-Solver 采用 Planner(规划)、Executor(执行)与 Generator(生成)的闭环架构。Planner 负责逻辑拆解,Executor 则动态调用逻辑演绎器、代码计算器或基于 OpenSPG 的检索器,实现从“盲目匹配”到“语义路径搜索”的转变(见图5)。
SIGSPG 的核心创新在于引入 KAG-Thinker,将推理能力从框架层内化到模型层。它融合了自然语言推理与符号表达式(Logical Form)推理(见图6)。通过引入变量、运算器与运算规则,赋予模型简明的逻辑约束,实现可稳定求解与逐步验证的能力。通过交互式迭代合成高质量 SFT 语料,让模型学习思考范式,将结构化推理转化为原生内核能力(见图7)。
通过 SPG + KAG 体系的持续迭代,我们提炼出三条对社区具有借鉴意义的洞察:
展望2026年,人工智能系统的知识增强推理将呈现以下趋势:
在智能体(Agent)技术从实验走向大规模落地的过程中,传统的知识表示与获取方式面临严峻挑战:
目前的SkillNet(访问地址:http://skillnet.openkg.cn/,见图9)已演进为具备自我生长能力的开放基础设施。
目前 SkillNet 已实现知识的工业化转化,其资源总量持续增长:
为了支撑智能体在不同维度的逻辑与行动,SkillNet 细分了以下核心资源(见图10):
技能分类体系(Skill Taxonomy)
该层通过 category 与 tag 两类关系,将技能组织为多层级的层次结构。它将宏观领域(如 Development、AIGC、Science 等)细化为具体标签(如 frontend、llm、physics),构建出清晰的高层语义骨架,便于导航与检索。
技能关系图(Skill Relation Graph)
该层将抽象标签进一步实例化为具体的技能实体(如 Matplotlib、Playwright)。通过多种关系边定义技能之间的交互逻辑,包括 similar_to、compose_with、belong_to 与 depend_on,从而形成支持智能体推理与规划的核心结构。
技能包库(Skill Package Library)
底层描述技能的物理组织与分发方式。单个技能通过 packaged_in 关系被封装为技能包(如 data-science-visualization),以支持模块化发布、复用与部署。
整体而言,SkillNet通过Skill Ontology将分散的技能组织为一个结构化、可组合的网络,使智能体能够以可扩展、可维护的方式完成复杂任务的推理、规划与执行。Skill Ontology是一个动态演化的知识体系,用于持续建模技能之间的关系。新的标签可以从分类体系中不断扩展,大模型则基于这些标签推断潜在关系,逐步实例化并完善技能关系图。
为确保技能在真实智能体环境中的可用性与可靠性,SkillNet 构建了一套系统化的五维评估框架,从安全、完备、执行、适配与效率五个关键维度对技能质量进行全面衡量:
安全性(Safety)
检测技能在调用外部工具、处理输入输出或执行代码时的潜在风险(如越权访问、信息泄露或不安全操作等),由大模型(基于GPT-5o-mini)依据安全准则进行结构化判定。
完备性(Completeness)
审查技能定义是否自洽、信息充分,是否覆盖必要的输入、输出、前置条件与异常处理等,同样基于 GPT-5o-mini,对技能规范进行语义一致性与覆盖度分析。
执行性(Executability)
通过自动化执行框架对技能代码进行实际运行测试:根据标准输入用例触发技能,检测运行成功率、输出正确性与异常情况,从而获得客观的执行指标。
适配性(Maintainability)
评估技能在不同任务与组合场景中的可对接程度,包括接口规范一致性、依赖声明清晰度以及与相关技能的语义匹配度。通过大模型对技能描述、标签与关系进行对齐分析,判断其在多场景下的适配与可组合性。
效率(Cost-Awareness)
衡量技能在典型使用情境中的资源与时间成本,例如推理步数、调用链长度或预期执行开销。评估由 GPT-5o-mini 结合技能流程描述进行复杂度与成本估计,给出相对效率等级,用于规划与调度优化。
人类一致性实验表明,上述大模型自动评估与专家标注在各维度上均具有高度一致性,验证了多维评估框架作为可扩展自动化评测基础设施的可靠性。
SkillNet 代表了知识增强领域的差异化进化路径(见图11):
随着推理型大模型快速进化,传统评测体系面临三重失效:
静态基准的信效度危机:传统基准被反复使用,导致严重的数据污染。模型高分往往源于"记忆"而非真实推理能力,难以区分泛化与过拟合。
知识增强场景的评测盲区:现有评测(MMLU/BIG-bench/ARC/GSM8K)多维但偏碎片化,对“大模型 + 外部知识库”这一核心应用场景的覆盖严重不足。
动态性与可控性的双重缺失:知识密集型任务依赖最新事实与多步推理,静态评测集极易失真;而现有动态基准自动生成的题目又往往不够可解释、难点不可控,亟需同时做到“更具挑战”且“难点可归因”。
SIGEval 的核心使命正是围绕上述痛点,构建一个覆盖多知识库类型、多领域、可持续进化的评测基准体系。
OneEval (http://oneeval.openkg.cn/) 自 2025 年 4 月发布 V1.0 以来,经历 4 次迭代至当前 V1.3 版本,已形成覆盖文本、表格、知识图谱、代码、逻辑 5 种知识库类型与通用、税务、经济、法律、学术 5 个领域的系统化评测框架(见图12)。分析最新版本榜单,可以发现:
第一梯队集体未达及格线:榜单显示,即使是全球顶尖模型,绝对得分也远未达到及格线:排名第一的 Claude 4.5-sonnet-thinking 仅 37.65 分,即便是较新的 Gemini 3-pro(37.02 分)与 与 DeepSeek-V3.2(32.60分)同样处于低位。这揭示了当前模型在处理知识密集型推理的表现仍有很大进步空间。
模型“偏科”现象显著:不同模型在知识形式上的表现差异明显:DeepSeek-V3.2-thinking 擅长代码与 KG 推理,但表格推理表现较弱;Gemini 3-pro 在逻辑推理与税务领域保持领先;GPT-5.2-Thinking 综合排名跌出前五,在多项核心指标中显著弱于头部模型。
在此基础上,考虑引入评测数据的动态演化趋势,SIGEval 进一步推出了 Dynamic OneEval——一个自动化生成的可持续更新的动态评测体系(见图13)。区别于传统的静态出题模式,Dynamic OneEval 采用“错误分析 → 难点再现 → 多模型投票保真”的三阶段闭环构建策略:
阶段一:结构化错误分析。对模型在 OneEval 中的错误样本进行结构化复盘,定位失分环节、错误类型与触发条件,将“模型为什么错”转化为可操作的生成约束。
阶段二:双视角实例合成。从两类核心能力压力源出发定向扩充数据——“知识施压”用于检验模型对专业知识与时效性知识的掌握与记忆,“推理施压”通过干扰项、歧义设定与多步依赖放大推理链条中的脆弱点。
阶段三:多标准门控筛选。引入多 LLM 投票与一致性校验,剔除噪声与不确定题,最终保留答案可核验、歧义可控、区分度高的高质量评测数据。
Dynamic OneEval 当前版本覆盖文本、KG、表格三种知识库类型,合成测试实例涵盖 30 种主要难点类型与 100+ 种细粒度难点类型,各类难点分布均衡,避免评测偏科。首轮评测结果显示,得分最高的 Gemini 3-pro 也仅为 46.4%,整体难度远未饱和。
通过 OneEval 静态榜单与 Dynamic OneEval 动态评测的双轨实践,我们提炼出三条对社区具有借鉴意义的洞察:
展望 2026 年,知识增强推理评测将呈现以下趋势:
我们将持续深耕,重点围绕记忆增强、知识增强的具身智能体、以及本体驱动的数据治理管线,分别与记忆张量的 OpenMem 社区、华为的 OpenJiuwen社区以及面壁智能的 OpenBMB 社区展开深度联动。知识图谱的价值在大模型的狂奔中依然稳固,但其内涵与外延已在悄然间发生深刻变革。唯有与时俱进,不断重塑知识工程的形态,方能共同抵达 AGI 的彼岸。
最后,值此新春佳节,向大家拜个年,祝马年大吉!感谢大家一直以来的陪伴,也请继续关注 OpenKG 的工作。新的一年,愿我们能共同为国内知识驱动的 AI-Native 生态转型提供坚实的支撑!
撰文:王昊奋
编辑:邓鸿杰
审定:陈华钧、漆桂林
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-21
别再往 AI 的上下文里“倒垃圾”了:Agent 的尽头,是 Skill Graphs
2026-02-20
Ontology-本体论
2026-02-13
上下文图谱(Context Graph),才是打开企业Agentic 模式的“开关”
2026-02-11
知识图谱与大模型的结合:Stardog的本体论和符号化知识蒸馏技术解析
2026-02-06
Markdown文件本身就是智能体的图数据库!
2026-02-06
知识图谱,别只顾着画图
2026-02-06
知识图谱与大模型融合案例:16个行业案例揭示AI应用新范式,工信部标准院重磅发布
2026-02-03
基于 LLM 抽取与 Neo4j,从会议纪要构建自更新知识图谱
2025-12-31
2025-12-01
2025-11-24
2025-12-05
2025-12-08
2025-12-04
2025-12-15
2025-12-02
2026-01-11
2025-11-28