微信扫码
添加专属顾问
我要投稿
Cognee框架突破传统RAG局限,用知识图谱+向量搜索打造真正"理解"数据的AI记忆层,5行代码实现90%+准确率。 核心内容: 1. 传统RAG的痛点与Cognee的创新解决方案 2. ECL流水线与DataPoints构建结构化知识图谱 3. 多模态存储架构实现语义搜索与关系推理的完美结合
用 RAG 构建 AI 应用时,总感觉差了点什么。明明相关的信息都在向量数据库里,但 AI 就是找不到正确的关联。问它"SpaceX 的创始人还创办了哪些公司",它能找到关于 SpaceX 的文档,却理解不了"创始人"和"其他公司"之间的关系链条。这就是传统 RAG 的软肋——它只懂相似性,不懂关系。Cognee 就是来解决这个问题的。
简单说,Cognee 是个开源的端到端知识图谱构建框架。但它不仅仅是知识图谱——它将向量搜索的语义理解能力和知识图谱的关系推理能力完美融合,创造了一个真正能"理解"数据的 AI 记忆层。更重要的是,整个过程只需要 5 行代码。
最近看到他们和 Redis、Kuzu 等数据库的集成案例,效果确实让人眼前一亮:不仅保留了向量搜索 70%+ 的准确率基线,还通过图结构将准确率提升到了 90%+ 。这不是简单的性能优化,而是质的飞跃。
Cognee 的设计理念受人类认知科学启发,模仿我们大脑构建"心智地图"的方式:
ECL(Extract, Cognify, Load)是 Cognee 的核心处理流程:
DataPoints 是 Cognee 知识图谱的基本构建块。每个 DataPoint 不仅定义了实体(节点),还定义了它们之间的关系(边):
from cognee import DataPoint
class Person(DataPoint):
__tablename__ = "person"
name: str
age: int
works_at: Optional["Company"] = None
class Company(DataPoint):
__tablename__ = "company"
name: str
employees: List[Person] = []
Cognee 采用"多模态存储"策略:
Cognee 的知识图谱构建遵循以下核心流程:
原始文本 → LLM 分析 → 实体识别 → 关系抽取 → DataPoint 实例化
系统使用 LLM 对输入内容进行深度分析,自动识别:
这是 Cognee 的核心创新,包含三个关键步骤:
去重与合并:
关系推理:
向量化与索引:
Cognee 的 GraphRAG 结合了两种检索范式:
# 向量检索:找到语义相关的内容
vector_results = vector_store.search(query_embedding, top_k=10)
# 图检索:探索实体关系
graph_results = graph_store.traverse(
start_nodes=vector_results,
max_depth=3,
relationship_types=["FOUNDED", "WORKS_AT"]
)
# 融合结果:结合语义和结构化信息
final_results = merge_and_rank(vector_results, graph_results)
Cognee 的设计深受认知心理学的"语义网络理论"影响:
# 使用 pip 安装
pip install cognee
# 或使用 poetry
poetry add cognee
# 如需 PostgreSQL 支持
pip install cognee[postgres]
创建 .env 文件:
# LLM 配置(支持 OpenAI、DeepSeek、Ollama 等)
LLM_API_KEY=sk-your-api-key
LLM_PROVIDER=openai # 或 deepseek、ollama
LLM_MODEL=gpt-4o-mini
# 嵌入模型配置
EMBEDDING_PROVIDER=ollama
EMBEDDING_MODEL=mxbai-embed-large
# 向量存储配置
VECTOR_STORE_PROVIDER=qdrant
QDRANT_URL=http://localhost:6333
QDRANT_COLLECTION_NAME=cognee_vectors
# 图存储配置
GRAPH_STORE_PROVIDER=neo4j
NEO4J_URI=bolt://localhost:7687
NEO4J_USER=neo4j
NEO4J_PASSWORD=password
Qdrant(向量存储):
docker run -p 6333:6333 qdrant/qdrant
Neo4j(图存储):
docker run -p 7474:7474 -p 7687:7687 \
-e NEO4J_AUTH=neo4j/password \
neo4j:latest
或者使用轻量级的 FalkorDB:
docker run -p 6379:6379 falkordb/falkordb
import cognee
import asyncio
asyncdef main():
# 添加数据
await cognee.add("Elon Musk 创立了 SpaceX。SpaceX 是一家航天公司,致力于火星殖民。")
# 构建知识图谱
await cognee.cognify()
# 查询
results = await cognee.search("Elon Musk 的公司在做什么?")
for result in results:
print(result)
asyncio.run(main())
from cognee import DataPoint, add_data_points
from typing import List, Optional
import asyncio
# 定义数据模型
class Person(DataPoint):
__tablename__ = "person"
name: str
role: str
founded: Optional[List["Company"]] = []
works_at: Optional["Company"] = None
class Company(DataPoint):
__tablename__ = "company"
name: str
industry: str
founded_year: int
founder: Optional[Person] = None
employees: List[Person] = []
class Product(DataPoint):
__tablename__ = "product"
name: str
company: Company
description: str
launch_year: int
asyncdef build_tech_knowledge_graph():
# 创建实体
elon = Person(
name="Elon Musk",
role="Entrepreneur"
)
spacex = Company(
name="SpaceX",
industry="Aerospace",
founded_year=2002,
founder=elon
)
tesla = Company(
name="Tesla",
industry="Electric Vehicles",
founded_year=2003,
founder=elon
)
# 建立关系
elon.founded = [spacex, tesla]
elon.works_at = spacex
# 创建产品
falcon9 = Product(
name="Falcon 9",
company=spacex,
description="可重复使用的轨道级火箭",
launch_year=2010
)
model3 = Product(
name="Model 3",
company=tesla,
description="大众化电动轿车",
launch_year=2017
)
# 添加到知识图谱
datapoints = [elon, spacex, tesla, falcon9, model3]
await add_data_points(datapoints)
# 构建图谱
await cognee.cognify()
# 复杂查询
results = await cognee.search(
"Elon Musk 创立的航天公司有什么产品?",
search_type="graph_traversal"
)
return results
# 运行
asyncio.run(build_tech_knowledge_graph())
Cognee 可以作为 LangChain 的记忆层,增强 Agent 的推理能力:
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationChain
from langchain_openai import ChatOpenAI
import cognee
import asyncio
class CogneeMemory(ConversationBufferMemory):
"""基于 Cognee 的增强记忆"""
def __init__(self, user_id: str):
super().__init__()
self.user_id = user_id
asyncdef save_context(self, inputs: dict, outputs: dict):
"""保存对话到 Cognee"""
# 保存到传统记忆
super().save_context(inputs, outputs)
# 提取并存储到知识图谱
conversation = f"User: {inputs['input']}\nAI: {outputs['response']}"
await cognee.add(conversation, user_id=self.user_id)
await cognee.cognify()
asyncdef load_memory_variables(self, inputs: dict):
"""从 Cognee 加载相关记忆"""
# 获取传统记忆
memory = super().load_memory_variables(inputs)
# 从知识图谱检索
query = inputs.get("input", "")
graph_memories = await cognee.search(
query,
user_id=self.user_id,
search_type="hybrid"# 同时使用向量和图检索
)
# 合并记忆
if graph_memories:
context = "\n".join([m.get("content", "") for m in graph_memories])
memory["graph_context"] = context
return memory
# 使用示例
asyncdef chat_with_memory():
llm = ChatOpenAI(model="gpt-4")
memory = CogneeMemory(user_id="alice")
chain = ConversationChain(
llm=llm,
memory=memory,
verbose=True
)
# 第一轮对话
response1 = chain.predict(input="我正在学习知识图谱技术")
await memory.save_context(
{"input": "我正在学习知识图谱技术"},
{"response": response1}
)
# 第二轮对话(会自动检索相关记忆)
response2 = chain.predict(input="有什么好的学习资源推荐吗?")
print(response2)
asyncio.run(chat_with_memory())
Cognee 也可以作为 Dify 的知识库后端:
# cognee_dify_adapter.py
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import cognee
import asyncio
app = FastAPI()
class QueryRequest(BaseModel):
query: str
dataset_id: str
top_k: int = 5
class AddDocumentRequest(BaseModel):
content: str
dataset_id: str
metadata: dict = {}
@app.post("/add_document")
asyncdef add_document(request: AddDocumentRequest):
"""添加文档到 Cognee"""
try:
await cognee.add(
request.content,
dataset_id=request.dataset_id,
metadata=request.metadata
)
await cognee.cognify()
return {"status": "success"}
except Exception as e:
raise HTTPException(status_code=500, detail=str(e))
@app.post("/query")
asyncdef query_knowledge(request: QueryRequest):
"""查询知识图谱"""
try:
results = await cognee.search(
request.query,
dataset_id=request.dataset_id,
limit=request.top_k,
search_type="hybrid"
)
return {"results": results}
except Exception as e:
raise HTTPException(status_code=500, detail=str(e))
# 在 Dify 中配置自定义工具指向这个 API
使用 Cognee 一段时间后,总结几个关键点:
选对图数据库:如果数据量大,推荐 Neo4j;需要嵌入式部署,用 KuzuDB;追求性能,试试 FalkorDB。
DataPoint 设计要慎重:一开始就要想清楚实体和关系,后期修改成本很高。建议先在纸上画出领域模型。
增量更新 vs 全量重建:小规模更新用增量,大规模变更直接重建。增量更新可能导致图谱碎片化。
LLM 成本控制:Cognify 过程会大量调用 LLM,建议:
混合检索策略:不要过度依赖图检索,向量检索在某些场景下更高效。根据查询类型动态选择策略。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-13
如何使用 Knowledge Graph 和 LLM 构建构建问答系统
2025-11-05
企业级AI独角兽Glean揭秘知识图谱增强大模型:企业AI的关键基石,重新定义智能系统的上下文理解
2025-10-30
一篇文章讲清楚:Ontology为什么是企业落地Agent的关键
2025-10-21
DeepSeek V3.2 AI辅助-构建可视化多维知识立方体展示知识体系
2025-10-19
文档级知识图谱: RAKG(95.91%) VS GraphRAG(89.71%)
2025-10-13
用 AI 重塑阅读体验,将任何书籍转化为可交互的知识图谱
2025-09-29
Spring AI Alibaba Graph升级至1.0.0.4,流式输出演进说明
2025-09-20
AI赋能—大模型搭建知识库
2025-09-02
2025-08-28
2025-08-26
2025-08-24
2025-08-30
2025-08-28
2025-09-17
2025-08-25
2025-09-03
2025-08-18