我要投稿

RAG之后，知识库开始自己长大

发布日期：2026-06-23 14:23:22 浏览次数： 1572

作者：AI思维训练营

微信搜一搜，关注“AI思维训练营”

你有没有这种感觉：资料越存越多，脑子反而越来越乱。

网页剪藏、PDF、会议纪要、聊天记录，都躺在文件夹里。真正要用时，还是从搜索开始，从摘要开始，从一堆片段里重新拼答案。

这不是懒。是传统知识库有个老毛病：它只负责存，不负责长大。

LLM Wiki 想改掉这件事。这个 GitHub 项目已经拿到 10897 Stars，它把 Karpathy 提出的 LLM Wiki 思路，做成了一个跨平台桌面应用。

知识库不是仓库，是一座会修路的城市

RAG 每次都在重新打井

过去两年，RAG 是很多 AI 知识库的标准答案。

你把文档丢进去，系统切块、向量化、检索，再让模型生成回答。听起来很先进，但它像一个临时工：每次来上班，都要重新翻箱倒柜。

问一个简单问题还好。问一个需要综合五篇文章、三次会议、两份报告的问题，它就开始吃力。

RAG 的问题不是不会找资料，而是找完以后什么都不留下。

下一次，你又得重新付一遍 token，重新等一遍检索，重新赌一遍模型能不能把关系拼对。

LLM Wiki 先编译，再查询

LLM Wiki 换了个思路。

它不把原始资料当成“每次查询时再翻的仓库”，而是让大模型在资料进入系统时，就把它编译成一套结构化的 Markdown Wiki。

一份新资料进来，模型会读它，提炼它，更新已有页面，建立交叉引用，标记矛盾，把新信息织进旧知识网络里。

这就像从“每次现查地图”，变成“每天有人帮你更新城市路网”。

它真正厉害的地方，是把维护变成默认动作

三层架构很朴素

LLM Wiki 的底层架构并不花哨，甚至有点土。

第一层是 Raw Sources，原始资料不可变。PDF、网页、图片、笔记，都先放这里。

第二层是 Wiki，由 LLM 生成和维护。这里有摘要页、实体页、概念页、索引页、日志页。

第三层是 Schema，告诉模型怎么维护这套知识库。命名规范、链接方式、来源引用、冲突标记，都写在规则里。

越朴素，越容易跑起来。Markdown、Obsidian、Git，这些老工具反而成了新基础设施。

Ingest 不是摘要，是重构

很多工具说“导入文档”，其实只是生成一段摘要。

LLM Wiki 的 Ingest 更像一次小型重构。

它会先做分析：这份资料里有哪些实体、概念、论点，和已有 Wiki 有什么关系，有没有冲突，有没有值得延伸的问题。

再做生成：更新 source 页面，补 concept 页面，改 index，写 log，把需要人判断的地方放进 Review。

项目 README 里把它叫 Two-Step Chain-of-Thought Ingest。说白了，就是先想清楚，再动手改文件。

这对知识库很关键。因为真正值钱的不是“又多了一篇摘要”，而是旧知识因为新资料被重新排列了一次。

个人知识管理，终于有了产品形态

桌面应用降低了门槛

Karpathy 原始想法更像一份“idea file”，适合懂 Agent 的人复制进 Claude Code 或 Codex 里自己搭。

LLM Wiki 往前走了一步：它做成了 Tauri v2 + Rust + React 的跨平台桌面应用，支持 Windows、macOS、Linux。

界面是三栏：左边看知识树和文件树，中间对话，右边预览。

这种设计很重要。因为普通人不是不想要知识复利，而是不想先学一堆命令行。

它不是抛弃 Obsidian，而是给 Obsidian 装发动机

LLM Wiki 的 Wiki 目录本身兼容 Obsidian。

这意味着，你不是被锁进一个新 App。知识还是 Markdown 文件，链接还是 `[[wikilink]]`，可以用 Obsidian 打开，可以用 Git 管理，也可以用脚本处理。

文件优先于应用，这一点很先进。

很多 AI 知识库的问题，是把你的资料和记忆锁在自己的云里。LLM Wiki 的方向相反：应用只是工作台，知识资产仍然属于你。

这件事看似小，其实决定了它能不能长期用。

从文件夹到知识图谱，中间差一个持续维护者

四个信号判断知识关系

当 Wiki 变大，光靠标题和链接就不够了。

LLM Wiki 加了一个 4-Signal Knowledge Graph：直接链接、来源重叠、Adamic-Adar、类型亲和度。

这些词听起来有点技术，但意思不复杂：它不只看两篇文章有没有互相链接，还看它们是不是引用了相同来源，是不是共享邻居，是不是属于同一类知识。

然后，它用 Louvain Community Detection 自动发现知识簇。

人类看见的是一张图。模型看见的是一堆可以继续追问、继续补全、继续研究的关系。

Deep Research 把缺口变成任务

更有意思的是 Graph Insights 和 Deep Research。

系统不仅能告诉你“这些知识有关联”，还会提示“这里可能缺一块”。

比如，一个概念被多处提到，但没有独立页面；两条结论互相矛盾，但缺少新的来源；某个主题有很多事实，却没有综合判断。

这时 Deep Research 可以把缺口变成搜索任务，通过 Tavily、SerpApi 或 SearXNG 找资料，再自动摄入 Wiki。

好的知识库不只是回答问题，还会生成下一个问题。

这类项目真正指向的，是 Agent 的长期记忆

Chatbot 的记忆太薄了

很多产品都在讲“AI 记住你”。

但多数记忆是黑箱。它记了什么，你不知道；它什么时候忘，你也不知道；它把哪两件事混在一起，你更不知道。

LLM Wiki 给了另一种答案：把记忆显性化。

所有知识都落在文件里，有来源，有链接，有更新时间，有冲突标记。模型可以读，人也可以审。

显性记忆比神秘记忆更可靠。

对 Agent 来说尤其如此。一个能长期工作的 Agent，不能只靠聊天历史活着。聊天历史像水，流过去就没了；Wiki 像地基，会一层层往上长。

企业知识库也会被重新定义

这件事如果放进企业里，想象空间很大。

公司每天产生会议纪要、需求文档、客户反馈、代码评审、竞品报告。大多数都进了飞书、Notion、Confluence，然后慢慢过期。

真正的问题不是没有知识库，而是没人维护。

LLM Wiki 这类项目给了一个新分工：人负责输入和判断，AI 负责整理、链接、更新、体检。

知识管理从“写文档”变成“养系统”。这变化不小。

值得警惕的，也正在这里

自动维护不等于自动正确

越是会自己长大的系统，越要小心长歪。

LLM 可能误读资料，可能把弱关联当强关联，也可能把一次综合判断写成确定事实。

所以 LLM Wiki 里的人审机制很重要。它有 Async Review System，会把需要人工判断的内容单独标出来。

这不是多余步骤。恰恰相反，AI 负责勤快，人负责把关，这是知识库长期可信的底线。

适合中小规模，别幻想一口吞掉全公司

LLM Wiki 很适合个人研究、团队小知识库、特定项目资料库。

但如果你想把几百万份企业文档一口气丢进去，它未必是最优解。

它更像“高价值知识的编译器”，不是“大规模文档垃圾场”。

这点要分清。工具不是越大越好，场景对了才有价值。

开源项目信息

关键数据

项目：nashsu/llm_wiki
GitHub：https://github.com/nashsu/llm_wiki
Stars：10897
定位：跨平台桌面版 LLM Wiki / AI 第二大脑
技术栈：Tauri v2 + Rust + React
核心能力：Ingest、Query、Lint、Knowledge Graph、Deep Research、MCP Server、Agent Skill

一句话总结

LLM Wiki 把知识库从“存资料的柜子”，变成了“会自己整理书架的研究助理”。

如果说 RAG 解决的是“资料在哪里”，LLM Wiki 解决的就是“资料之间到底发生了什么关系”。

这一步，才是 AI 知识库真正开始有复利的地方。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-24

企业级 Agent 最缺的不是聪明，是"不敢编"——企查查智能体数据平台的三层反幻觉工程

2026-06-24

别再怪向量检索不行！90% RAG 检索拉胯，都是关键词提取在拖后腿

2026-06-24

别再把 RAG 当搜索框了：Bayer 这套 Agentic RAG，把上下文、反思、恢复和评测全焊进生产系统

2026-06-24

上生产GraphRAG的重活，SAG请外援解决了

2026-06-23

AI 知识库开始分叉：LLM Wiki 和 GBrain 真正的差别

2026-06-23

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-22

传统RAG已经落伍了？清华大神开源的这个 rag-skill，让知识库检索直接升维

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

大家都在问

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw