微信扫码
添加专属顾问
我要投稿
谷歌发布开放知识格式OKF,为LLM知识库提供统一标准,解决AI智能体上下文碎片化问题。 核心内容: 1. OKF规范的核心结构与设计理念 2. OKF如何解决企业知识碎片化问题 3. 与现有LLM wiki模式的对比与互操作性
随着基础模型持续进步,缺少相关上下文,往往会限制它们的能力,尤其是在这些模型被用来构建智能体系统时。虽然这些模型可以帮助你写代码、总结文档或分析数据集,但它们仍然需要正确的信息,才能给出准确且可执行的结果。
因此,今天我们推出开放知识格式(Open Knowledge Format,OKF)。它是一套开放规范,将 LLM wiki(LLM 知识库)[2] 模式正式化为一种可移植、可互操作的格式。这是一套与厂商无关、同时面向智能体和人的友好标准,用于表示现代 AI 系统所需要的元数据、上下文和经过整理的知识。
在当前发布的版本中,OKF v0.1 将知识表示为一个由 Markdown 文件组成、并带有 YAML frontmatter(头部元数据)的目录结构,同时约定了一小组通用规范,使不同生产者写出的 wiki(知识库)无需转换就能被不同的智能体消费。
就是这样。没有复杂的压缩方案,没有新的运行时,也不要求必须使用某个软件开发工具包(SDK)。一个 OKF 文档包,本质上就是:
如果你用过 Obsidian、Notion、Hugo,或者过去一年里出现过的各种 LLM wiki(LLM 知识库)模式,你会对这种形态感到熟悉。OKF 做的,是把让这些模式具备互操作性所需的那一小组约定正式定义下来。
下面我们来看看,OKF 能为你的组织解决什么问题,它是如何工作的,如何开始使用,以及接下来会发生什么。
在大多数组织里,基础模型所使用的信息主要都是内部知识:一张表的 schema(模式)、你们业务里某个指标的含义、一次事故的 runbook(运行手册)、两个系统之间的 join 路径(关联路径)、某个旧 API 的废弃通知,等等。
今天,这些知识单元分散在许多高度碎片化的系统里:
当一个 AI 智能体需要回答“我们该如何从事件流中计算周活跃用户?”时,它必须从这些分散且彼此不兼容的信息来源中拼出答案。每家厂商都有自己的目录(catalog)、自己的软件开发工具包(SDK)、自己的知识图谱 schema(模式),而这些知识几乎都无法轻松地在不同产品或不同组织之间迁移。
结果就是:每一个智能体构建者都在从零解决同样的上下文组装问题;每一家目录厂商都在重复发明同样的数据模型;而知识本身则被锁在最初创建它的那个系统里。
开发团队正在改变构建 AI 智能体的方式。与其让模型一遍又一遍地在同样的文档里搜索同样的事实,不如给智能体一套共享的 Markdown 知识库,并让它随着时间推移变得越来越有用。这样,你的智能体就可以承担读取和更新自身文件这类繁琐工作,而你的团队则负责整理内容,并像管理代码一样管理它。
知名 AI 研究者和教育者 Andrej Karpathy 在他的 LLM Wiki gist[2] 里,对这一想法做出了最清晰的表达。他写道:“LLM 不会感到无聊,不会忘记更新交叉引用,而且一次就能改动 15 个文件。” 正是那些让人类最终放弃维护个人 wiki(知识库)的事务性工作,恰好是 LLM 最擅长的事。
类似的“知识即 Wiki(知识库)”模式,正以不同名字反复出现:与编码智能体连接的 Obsidian vault(资料库)[3],AGENTS.md / CLAUDE.md 这一类约定文件,包含 index.md 和 log.md 的一整套仓库文件,智能体会在真正开始工作前先去读取它们,以及数据团队内部的“metadata as code(元数据即代码)”仓库。
这种模式很有吸引力,也很强大,但每一个实例都是定制化的。Karpathy 的 wiki(知识库)、你团队的 wiki(知识库),以及某家厂商导出的目录(catalog),表面上看可能都很像(Markdown、frontmatter(头部元数据)、交叉链接),但它们并不是被有意设计成可以协作的。对于“每个文档都应该带哪些字段”或者“哪些文件名代表什么含义”,大家并没有统一答案。结果就是,编码在这些 wiki(知识库)里的知识仍然被困在最初的团队里,每当有人要构建一个新的智能体时,就会产生重复劳动。
这个问题的答案不是再来一个知识服务。你需要的是一种格式,一种表示知识的方式,它应该满足:
从设计上说,OKF 就是这样的格式。
一个 OKF 文档包(bundle)是一个由 Markdown 文件组成的目录,用来表示各种概念项:凡是你想记录的内容都可以,包括表、数据集、指标、playbook(操作手册)、runbook(运行手册)和 API。每个概念项对应一个文件。文件路径就是这个概念项的身份标识:
sales/├── index.md├── datasets/│ ├── index.md│ └── orders_db.md├── tables/│ ├── index.md│ ├── orders.md│ └── customers.md└── metrics/│ ├── index.md └── weekly_active_users.md
每个概念项文档都有一小段 YAML front matter(头部元数据)用来放结构化字段,其余内容都放在 Markdown 正文里:
---type: BigQuery Tabletitle: Ordersdescription: One row per completed customer order.resource: https://console.cloud.google.com/bigquery?p=acme&d=sales&t=orderstags: [sales, revenue]timestamp: 2026-05-28T14:30:00Z---# Schema| Column | Type | Description ||---------------|-----------|------------------------------------------|| `order_id` | STRING | Globally unique order identifier. || `customer_id` | STRING | FK to [customers](/tables/customers.md). |# JoinsJoined with [customers](/tables/customers.md) on `customer_id`.
这些概念项之间通过普通的 Markdown 链接互相连接,使整个目录形成一张关系图,而这张图比文件系统本身隐含的父子关系更丰富。这个文档包还可以选择性包含 index.md 索引文件(用于智能体在层级结构中导航时逐层展开)和 log.md 日志文件(用于记录按时间顺序排列的变更历史)。
完整的 v0.1 规范(包括一致性标准、交叉链接规则以及少量保留文件名)可以放在单独一页里。
为了让这种格式更具体,我们在生产端和消费端两侧都发布了参考实现:
这些内容是刻意按概念验证来设计的。这个智能体展示的是生产 OKF 的一种方式;格式本身并不要求必须使用某个特定的智能体框架或 LLM。这个查看器展示的是消费 OKF 的一种方式;格式本身也并不要求必须使用 HTML 或图视图。我们期待,也希望,生产者和消费者的生态会远远超出我们这次发布的内容。
OKF v0.1 是一个起点,而不是一套已经完成的标准。随着更多生产者和消费者出现,以及我们逐步弄清楚智能体在实践中究竟需要怎样的知识表示,这套格式还会继续演进。
我们从第一天起就选择公开发布,因为一种知识格式只有在开放中才配得上“知识格式”这个名字。无论你是在构建 knowledge catalog(知识目录)、enrichment pipeline(增强流水线)、面向 AI 智能体定制的 wiki(知识库),还是任何属于 AI 知识领域的东西,都是如此。
接下来,我们鼓励你:
仓库、规范和示例文档包(bundle)都已经发布在 GitHub[7] 上。我们也已经更新了 Google Cloud 的 Knowledge Catalog(知识目录)[8],使它能够摄取开放知识格式(Open Knowledge Format,OKF),并把它提供给我们的智能体使用。相关代码和示例见演示目录(demo)[9]。
这项贡献本身就是格式。我们发布的那些工具,是为了让它真正落地,并降低大家试用它的成本。无论你今天的知识以何种形态存在,OKF 的目标都是成为它明天可以交换成的那种通用语言。
本文由 Google Cloud 数据云(Data Cloud)团队发布。开放知识格式(Open Knowledge Format,OKF)是一套开放规范;我们明确欢迎大家在 Google 产品之外贡献、实现替代方案并推动采用。
除了署名作者之外,这项工作还凝聚了 Google 许多其他同事的关键想法,在此感谢他们的贡献。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-23
RAG之后,知识库开始自己长大
2026-06-23
AI 知识库开始分叉:LLM Wiki 和 GBrain 真正的差别
2026-06-23
RAG 的尽头,是 SQL?
2026-06-22
传统RAG已经落伍了?清华大神开源的这个 rag-skill,让知识库检索直接升维
2026-06-22
从个人知识库到企业级 RAG:我们最终选了 WeKnora
2026-06-22
RAG 不是先向量检索再回答:Metadata Filter 才是企业知识库的第一道门
2026-06-21
使用 LangSmith 进行 RAG 评估:构建生产级 RAG 系统的 AI 开发者指南
2026-06-20
RAG 投毒的六个影响因素与防御框架
2026-04-06
2026-04-27
2026-04-02
2026-03-31
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
2026-05-11