微信扫码
添加专属顾问
我要投稿
深入解析Dify知识库的7个关键节点,带你彻底拆解RAG黑盒的实现原理。核心内容:1. 知识库创建与文档上传的完整流程2. 文档解析规则设置与处理机制3. 后端API调用与索引任务的触发过程
在上一篇刨开源码看门道:dify 数据集的那些事(一),我们了解了dify的数据集架构,在这篇文章中,我们了解下dify内部知识库的整个流转实现。通过该篇,我们能详细的了解到dify数据是如何解析的。
整个流程如下:
console/api/datasets
接口console/api/files/upload
进行了上传。console/api/workspaces/current/default-model?model_type=text-embedding
不同的model_type 加载了默认embedding模型和rerank 模型console/api/datasets/process-rule
加载到了默认处理规则/console/api/datasets/5acd7076-8fb4-46ba-833d-89b0196ef918/documents
接口,DatasetDocumentListApi
的post方法中。具体代码位置如下:controllers/console/datasets/datasets_document.py 中的DatasetDocumentListApi.post
services/dataset_service.py 中的DocumentService.save_document_with_dataset_id
代码流程如下:
BILLING_API_URL
中配置的系统中获取的,在这里只限制在企业版中实现这里有近两百行代码来处理不同类型数据源,确保文件和连接的可用。
在这里如果是
upload_file
,如果开启了重复文件校验,会拿到当前知识库中第一个文件,进行特殊处理。
当所有的规则处理完成以后,会把任务通过document_indexing_task.delay(dataset.id, document_ids)
推到队列中。
document_indexing_task.py
进行异步解析。整体流程梳理如下:IndexingRunner.run
中IndexProcessorFactory
,获取对应的索引处理器: ParagraphIndexProcessor(通用)
、QAIndexProcessor(问答)
、ParentChildIndexProcessor(父子分段)
_extract
,解决了不同文档的差异性_transform
_load_segments
_load
重点看下5、6、7 这三个阶段。
_transform
转换阶段的核心对应的是ParagraphIndexProcessor(通用)
、QAIndexProcessor(问答)
、ParentChildIndexProcessor(父子分段)
这三个处理器的transform
方法。
重点分析下普通分段和父子分段。
Q&A分段
走的是这里整体逻辑如下:
splitter = self._get_splitter(
processing_rule_mode=process_rule.get("mode"),
max_tokens=rules.segmentation.max_tokens,
chunk_overlap=rules.segmentation.chunk_overlap,
separator=rules.segmentation.separator,
embedding_model_instance=kwargs.get("embedding_model_instance"),
)
_get_splitter
内支持两种分块器类型:创建好分块器以后,接下来就是文档处理了
for document in documents:
# 清洗
document_text = CleanProcessor.clean(document.page_content, kwargs.get("process_rule", {}))
document.page_content = document_text
# 分块
document_nodes = splitter.split_documents([document])
# 分块后处理
for document_node in document_nodes:
if document_node.page_content.strip():
# 生成ID和哈希
doc_id = str(uuid.uuid4())
hash = helper.generate_text_hash(document_node.page_content)
# 去符号处理
page_content = remove_leading_symbols(document_node.page_content).strip()
iflen(page_content) > 0:
document_node.page_content = page_content
all_documents.append(document_node)
# TextSplitter.split_documents内部实现的典型处理:
defsplit_documents(self, documents: Iterable[Document]) -> list[Document]:
"""Split documents."""
texts, metadatas = [], []
for doc in documents:
texts.append(doc.page_content)
metadatas.append(doc.metadata or {})
returnself.create_documents(texts, metadatas=metadatas)
defcreate_documents(self, texts: list[str], metadatas: Optional[list[dict]] = None) -> list[Document]:
"""Create documents from a list of texts."""
_metadatas = metadatas or [{}] * len(texts)
documents = []
for i, text inenumerate(texts):
index = -1
for chunk inself.split_text(text):
metadata = copy.deepcopy(_metadatas[i])
ifself._add_start_index:
index = text.find(chunk, index + 1)
metadata["start_index"] = index
new_doc = Document(page_content=chunk, metadata=metadata)
documents.append(new_doc)
return documents
# FixedRecursiveCharacterTextSplitter.split_text
defsplit_text(self, text: str) -> list[str]:
"""Split incoming text and return chunks."""
ifself._fixed_separator:
chunks = text.split(self._fixed_separator)
else:
chunks = [text]
final_chunks = []
chunks_lengths = self._length_function(chunks)
for chunk, chunk_length inzip(chunks, chunks_lengths):
if chunk_length > self._chunk_size:
final_chunks.extend(self.recursive_split_text(chunk))
else:
final_chunks.append(chunk)
return final_chunks
这里的逻辑稍微有点绕,通过继承+模板抽象方法。通过子类实现对应的文本切分。主要在_get_splitter
的时候创建的分块器
整体流程如下:
相比于通用分段,多了一层,整体逻辑上差不多,只不过父子分段先用父分段规则,分出来的父分段,又用了子分段规则。
_load_segments
继续回到index_runner.py
中的_load_segments
方法中,这块的逻辑比较简单。 将处理后的文档分段通过dataset_docstore.py的 add_documents
保存到数据库,并且更新文档和分段的状态为indexing
。
数据库的操作细节如下:存储到pg里的
# DocumentStore.add_documents内部逻辑:
defadd_documents(self, docs, save_child=False):
segments = []
for doc in docs:
# 创建父分段
segment = DocumentSegment(
dataset_id=self.dataset.id,
document_id=self.document_id,
content=doc.page_content,
index_node_id=doc.metadata["doc_id"],
index_node_hash=doc.metadata["doc_hash"]
)
segments.append(segment)
if save_child andhasattr(doc, 'children'):
for child in doc.children:
# 创建子文档记录
child_chunk = ChildChunk(
segment_id=segment.id,
content=child.page_content,
index_node_id=child.metadata["doc_id"]
)
db.session.add(child_chunk)
db.session.bulk_save_objects(segments)
如果文档多了,这块是一个性能瓶颈。
_load
分段完成,并保存完成以后,就开始做向量化了。在这里
整体逻辑如下:
高质量的时候,必须使用向量模型。高质量处理的关键逻辑
with ThreadPoolExecutor(max_workers=10) as executor:
futures = []
# 文档分块逻辑(避免哈希冲突)
for chunk in document_groups:
futures.append(executor.submit(
self._process_chunk,
flask_app,
index_processor,
chunk,
dataset,
dataset_document,
embedding_model_instance
))
tokens = sum(future.result() for future in futures)
# _process_chunk 的核心逻辑如下:
# 先检测任务是否暂停
self._check_document_paused_status(dataset_document.id)
# Token计算
tokens = embedding_model_instance.get_text_embedding_num_tokens(texts)
# 索引构建
index_processor.load(dataset, chunk_documents, with_keywords=False)
# 状态更新
db.session.query(DocumentSegment).filter(
DocumentSegment.index_node_id.in_(document_ids)
).update({
"status": "completed",
"completed_at": datetime.now()
})
将分段chunk,通过线程池,批量的向量化。在索引构建的时候,又跑到了index_processor这里,也就是对应的ParagraphIndexProcessor(通用)
、QAIndexProcessor(问答)
、ParentChildIndexProcessor(父子分段)
看到这里,我就有个疑问,在父子分段中,高质量索引的时候,关键词处理直接为false,在paragraph_index_processor.py中,只是进行了向量化存储,没有提取关键词。在parent_child_index_processor.py只是对子分段进行了向量化并存储,这个可以理解
向量完以后,更新为完成。
AI开发新选择:扣子平台功能详解与智能体拆解
AI开发新选择:扣子平台工作流基础节点介绍
AI Agent 新选择:Coze Studio 开源上手实录,能替代 Dify 吗?
Dify 之外的新尝试:Coze Studio 知识库实战指南:部署、解析、接入全流程
Coze Studio 又升了!本地 Ollama 向量 + 插件外挂知识库,RAG 体验翻倍提升
DeepSeek+dify 本地知识库:真的太香了
Deepseek+Dify本地知识库相关问题汇总
dify的sandbox机制,安全隔离限制
DeepSeek+dify 本地知识库:高级应用Agent+工作流
DeepSeek+dify知识库,查询数据库的两种方式(api+直连)
DeepSeek+dify 工作流应用,自然语言查询数据库信息并展示
聊聊dify权限验证的三种方案及实现
dify1.0.0版本升级及新功能预览
Dify 1.1.0史诗级更新!新增"灵魂功能"元数据,实测竟藏致命Bug?手把手教你避坑
【避坑血泪史】80次调试!我用Dify爬虫搭建个人知识库全记录
手撕Dify1.x插件报错!从配置到网络到Pip镜像,一条龙排雷实录
dify1.2.0升级,全新循环节点优化,长文写作案例
dify1.x无网环境安装插件
dify应用:另类的关键词检索
Dify 1.5.0 上线:这次调试功能,真的省了我一半时间
Dify × MCP 实战(一):用插件一分钟搞定MCP Server(含时间踩坑实践)
Dify × MCP 实战(二):发布工作流为 AI 工具服务,全流程配置 + Cherry 调用实战
Dify × MCP 实战(三):结果别再堆字了!用 AntV 插件打造图表可视化工具
Dify 1.6.0 重磅上线:原生MCP 双向集成、结构化输出升级
Dify结构化输出全攻略:从中医案例说起,到真实落地分析
懒人必备!用 Dify 自动监控 GitHub 项目更新,并推送到钉钉/飞书
dify项目结构说明与win11本地部署
Dify 深度拆解(二):后端架构设计与启动流程全景图
10分钟搞定企业级登录!Dify无缝集成LDAP实战指南
一文吃透Dify账户系统:多租户 + 多登录方式 + 权限模型全揭底
Dify插件实战
刨开源码看门道:Dify 数据集的那些事(一)
DeepSeek+ragflow构建企业知识库:突然觉的dify不香了(1)
DeepSeek+ragflow构建企业知识库之工作流,突然觉的dify又香了
DeepSeek+ragflow构建企业知识库:高级应用篇,越折腾越觉得ragflow好玩
RAGFlow爬虫组件使用及ragflow vs dify 组件设计对比
从8550秒到608秒!RAGFlow最新版本让知识图谱生成效率狂飙,终于不用通宵等结果了
以为发现的ragflow的宝藏接口,其实是一个天坑、Chrome/Selenium版本地狱
NLTK三重降噪内幕!RAGFlow检索强悍竟是靠这三板斧
从代码逆向RAGFlow架构:藏在18张表里的AI知识库设计哲学
解剖RAGFlow!全网最硬核源码架构解析
深度拆解RAGFlow分片引擎!3大阶段+视觉增强,全网最硬核架构解析
深度拆解RAGFlow分片引擎之切片实现
RAGFlow核心引擎DeepDoc之PDF解析大起底:黑客级PDF解析术与致命漏洞
RAGFlow 0.18.0 实战解读:从 MCP 支持到插件配置的全流程揭秘
ragflow 0.19.0 图文混排功能支持
上线3周:告警减少70%!AI巡检分级报告实战(一)
MCP不像想象的那么简单,MCP+数据库,rag之外的另一种解决方案
上线3周:告警减少85%!纯AI驱动巡检通知实战(二)无硬编码方案曝光
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-19
5 分钟搭建你的 AI 应用-Dify 全流程指南
2025-08-18
Dify功能解析四:Dify父子模式分段解决普通分段的什么问题?
2025-08-17
Dify 实战篇| 配置参数实战优化
2025-08-17
MacBook 本地化部署 Dify 指南。
2025-08-15
4000字长文:使用dify搭建SOP检索问答Agent
2025-08-14
效率与安全双飞跃!Dify v1.7.2 上线:全新升级工作流关系面板、节点搜索、API 版本指定与多项安全优化,支持一键部署
2025-08-13
Dify v1.7.2版本更新:工作流可视化和节点搜索,让你更加快捷地玩转工作流!
2025-08-13
Dify结合Minio文件解析生成思维导图
2025-06-04
2025-06-25
2025-06-03
2025-05-29
2025-06-02
2025-06-29
2025-06-24
2025-05-22
2025-06-05
2025-06-10
2025-08-18
2025-08-02
2025-07-30
2025-06-26
2025-06-17
2025-05-29
2025-05-28
2025-05-22