2026年6月11日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

有人用 AI 把《史记》57万字变成了一个可以搜索、跳转、推理的知识图谱

发布日期:2026-06-10 07:02:35 浏览次数: 1518
作者:Neil知本论

微信搜一搜,关注“Neil知本论”

推荐语

AI 将《史记》转化为可交互的知识图谱,让两千年前的文字像代码一样可读,实现前所未有的结构化探索。

核心内容:
1. 22 类实体的彩色语法高亮,让古文结构一目了然
2. 130 条交互式时间线,清晰展示历史事件脉络
3. AI Agent 自主维护庞大知识库,实现自动化更新与质量保障

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
GitHub 1300星。22类实体彩色语法高亮、130条交互式时间线、AI Agent自主维护20000+页Wiki,两千年来的第一次,古文像代码一样可读。

有人用 AI,把《史记》57万字全部拆解标注,做成了一个可以交互、搜索、推理的知识图谱。

不是简单的全文检索。不是 OCR 转文字。

是让两千年前的文字像代码一样,能语法高亮、能跳转、能消歧、能自动检测矛盾。

GitHub 1300 星。作者叫鲍捷。我看到这个项目的时候,真的愣了好几秒。

数据规模先给你看清楚

这不是一个「玩玩」的项目。

14,065实体词条

126,441标注次数

3,198历史事件

7,637事件关系

20,830+Wiki 页面

55亿tokens AI消耗

《史记》一共 130 篇,57.7 万字。从黄帝写到汉武帝,三千年的历史压缩在一本书里。历代学者花了两千年注释它,但从来没有人在这个规模上做过结构化。

这个项目做到了。

而且,不是人工标注的。是 AI Agent 在跑。

四个亮点

1. 22 类实体彩色语法高亮

你打开它的在线阅读器,看到的第一眼就会觉得不对劲。

《史记》的原文不是黑白的。人名、地名、官职、事件、时间、邦国、氏族、器物、典籍、礼仪、刑法、思想,22 类实体,每一类都有颜色标注

18 类名词,4 类动词。人名是蓝色的,地名是绿色的,官职是橙色的,军事动词是红色的。你读着读着,整个文本的结构就浮出来了,哪些地方人物密集,哪些地方事件密集,哪些地方是纯叙事。

而且每种颜色可以单独开关。你想只看地名,关掉其他 21 类就行。你想只看军事行动,只开那一类动词的颜色。

这哪是在读古文。这简直是在读一份带语法高亮的源代码。

我从来没想过,「读《史记》」这件事可以被重新定义到这个程度。

2. 史记地铁图

130 条交互式时间线,支持缩放、拖拽、搜索。

从春秋到汉初,所有事件按照时间轴铺开,每一段都可以点进去看详情。不是那种静态的「历史大事年表」图片,而是你可以拖拽缩放、可以搜索、可以按事件类型筛选的交互式时间线。

整个春秋战国到汉初的历史脉络,一张图看清楚。

这件事的意义在于,以前你要搞清楚「秦始皇统一六国之前,各国之间发生了什么」,你得翻几十篇本纪和世家,自己画时间线。现在,拖一下鼠标就行。

3. Butler AI Agent 自主维护

这个是最让我震撼的。

项目里有一个叫 Butler 的 AI Agent,它不是在后台闲着。它已经连续跑了 12,000+ 轮,自主维护着 20,000+ 页的 Wiki。

每轮执行一个原子操作,新建 stub 页面、扩写精品页、核验引文、修复断链、给地名配上谭其骧《中国历史地图集》的裁切图,600 多页地图已经配好了。每 23 轮批量提交一次。

而且它有自己的质量保障机制。三层反思循环:每 20 条操作做一次流程反思,每完成 6 页做一次图式反思,每 10 轮做一次类型审计。

你想想这是什么概念。

一个 AI Agent,自己在维护一套两万页的历史百科。不需要人盯着,它会自己发现错误、自己修正、自己升级质量标准。

这不是一个「AI 辅助的项目」。这是一个「AI 为主、人为辅」的项目

4. 矛盾检测

《史记》是司马迁一个人写的,但材料来源非常杂。同一个事件在不同的篇章里可能有不同的记载,有些细节前后对不上。

历代学者做了一件事叫「考异」,逐条比对不同篇章的记载差异。这需要极高的学力和极大的耐心,通常只有专门研究《史记》的学者才会做。

这个系统,能自动做。

跨篇章的矛盾检测,系统自动跑出来。比如同一场战役在不同传记里的兵力数字不一致,同一个人的卒年在不同篇章里有出入,系统都能标出来。

学术研究用这个,真的太香了。

背后的方法论,比项目本身更值钱

如果只是一个《史记》知识图谱,那已经足够让人服气了。

但鲍捷做的不止这些。他还把整个构建过程写成了一套可以迁移的方法论,两本 PDF,合计 863 页。14 个元技能,89 个管线技能,全部用结构化自然语言写成,AI 可以直接读取执行。

这套方法论的核心思想,叫「Agentic Ontology」

翻译成大白话就是:本体不是专家预先设计的蓝图,而是从文本数据里「自下而上」涌现出来的。

1、传统做法:专家坐在那里,先想好「人名应该分几类」「事件关系应该有几种」,然后按这个框架去标注。从空白开始设计,数十类、数百实例,迭代一轮要数周。

2、Agentic Ontology:AI 直接从原始文本里提取实体和关系,不预设框架。让分类体系从数据里自己长出来,人只负责修剪和校准。数千类、数万实例,迭代一轮只要数小时。

速度提升了 100 倍。

这个方法论的意义,远远超出《史记》这一本书。同一套架构,可以直接迁移到《汉书》《资治通鉴》《左传》,任何大规模古籍,都可以用同样的方式变成可交互的知识图谱。

鲍捷自己在项目里说了:为什么用 SKILL 而不是写代码?因为学者能直接阅读和验证,调整提示词就行不用重写代码,同一套架构可以直接迁移。

AI 还从《史记》里读出了什么

知识图谱构建的过程中,系统自己发现了一些跨篇章的规律,不是人告诉它的,是它从数据里自己「看见」的。

1、征服-治理倒转。打天下的手段,恰恰是治天下的障碍。秦以法家取天下,以法家治天下,二世而亡。汉以武力取天下,以黄老治天下,四百年。

2、边缘优势。成功的王朝,一致从边缘地区起源。周从西陲、秦从西戎、汉从巴蜀、唐从太原。

3、宽恕悖论。对下属的宽恕创造忠诚,对敌国的宽恕制造灾难。

这些不是「AI 生成的内容」。是 AI 在分析了 3,198 个事件和 7,637 条事件关系之后,自己发现的统计规律。

想想看。一个人类学者要读完《史记》并总结出这些规律,可能需要几年。一个 AI Agent,几小时。

这让我想起 Serenity 那句。

AI 没有让投资变简单,AI 只是把「研究量」的上限抬高了。这个道理,放在历史研究上也是一样的。

这件事为什么重要

坦率的讲,我看到这个项目的时候,脑子里想的不只是《史记》。

我想的是,如果《史记》可以被这样处理,那《二十四史》呢?如果中文古籍可以被这样处理,那英文的、法文的、阿拉伯文的古典文献呢?

人类几千年的文字遗产,大部分还躺在纸面上,只有极少数学者能真正「读进去」。大部分人只能读翻译版、解读版、摘要版。每一层转述都在丢失信息。

但如果 AI 能把所有古籍都变成这样的知识图谱呢?

不是替代学者。是让一个普通人也能用学者的方式去探索,搜索、跳转、比对、发现矛盾、发现规律。

这不是一个《史记》的项目。这是一个「人类知识遗产的结构化」的范本。

如果你对历史感兴趣,或者在做 AI 知识工程,这个项目值得花一个下午好好看看。在线体验:shiji.memify.wiki
GitHub:github.com/baojie/shiji-kb


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询