微信扫码
添加专属顾问
我要投稿
Dify Knowledge Pipeline 为企业级 RAG 数据处理提供可视化、可编排的解决方案,突破 AI 落地的上下文工程瓶颈。核心内容: 1. 企业级 RAG 面临的三大核心挑战 2. Knowledge Pipeline 的可视化编排与多模态处理能力 3. 主流数据源插件化集成与开发者扩展方案
今天,我们正式推出全新的 Knowledge Pipeline —— 可编排、可扩展、可观测的 RAG 数据处理管道。
如何把分散、异构、持续更新的内部数据,稳定转化为 LLM 能可靠消费的上下文。这不是简单的数据导入,而是一项需要系统化设计与调优的工程。
面对企业级数据,传统 RAG 常因以下问题导致答案质量参差不齐:
1. 数据源割裂:企业数据分散在 ERP、Wiki、邮件、网盘等数十个系统中,每个系统都有独特的认证方式和数据格式,逐一适配成本高昂。
2. 异构数据解析难:文档或表格在解析后变成无序文本,图表、公式等多模态内容直接丢失,机械分块切断文档逻辑,导致 LLM 基于不完整的信息片段生成答案。
3. 处理过程黑盒:数据处理的每个环节都不可见,无法定位是解析错误、分块异常还是向量化失败,报错后复现困难,只能盲目调试。
因此,Knowledge Pipeline 为 Context Engineering 提供了关键的数据处理基础设施:通过可视化、可编排的处理管道,让企业真正掌控从原始数据到高质量上下文的转化全过程。
可视化、可编排的 Knowledge Pipeline
Knowledge Pipeline 继承了 dify Workflow 的画布式编排体验,将 RAG 的 ETL 过程可视化。每个处理环节都是独立节点,从数据源接入、文档解析到分块策略,每步都能选择合适的插件,能够处理文本、图片、表格、扫描件等多模态资料。依托 Dify Marketplace 的插件生态,团队可以像搭积木一样编排文档处理产线,针对不同行业与数据形态定制流程。
在需要时,你还可以把 Workflow 节点里的逻辑节点、Code 节点、LLM 节点等嵌入到处理链路中,用大模型做内容增强,用代码做规则清洗,真正实现数据处理的灵活定制。
企业主流数据源集成
为了突破原有的数据源限制,我们推出了全新的 Data Source 插件类型。通过插件化架构,每个知识库可以支持多个非结构化数据源接入。过去需要为每种数据源编写定制代码并维护认证逻辑,现在通过 Marketplace 插件即可一键接入。开发者还可以基于标准接口开发自己的数据源插件,接入特定的内部系统或专有平台。
已覆盖的主流数据源:
本地文件:支持 30+ 种格式,包括 PDF、Word、Excel、PPT、Markdown 等
云存储:Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox 等
在线文档:Notion、Confluence、SharePoint、GitLab、GitHub 等
网页爬取:Firecrawl、Jina、Bright Data、Tavily 等服务
可插拔的数据处理管道
为了让数据处理的过程更具确定性,方便用户自由扩展和编排,我们把数据加工过程拆解为可插拔的标准节点,每一步都能按场景更换插件:
Extract(数据提取)
支持上文介绍的多数据源并行接入,能够统一处理文本、图片、音视频等多模态内容。后续节点会根据不同数据源的输出类型,如文件对象或页面内容,自动适配处理策略。
Transform(数据加工)
这是 Pipeline 的核心,大致可为四个组合环节:
Parse(解析)
根据文件类型选择最优解析器,提取文本与结构化元数据。针对扫描件 OCR、表格还原、PPT 文本框顺序等特殊情况,可并联多个解析器确保信息不丢失。
Enrich(增强)
通过 LLM 和其他逻辑节点实现实体抽取、摘要生成、标签分类、敏感信息脱敏等,提升内容质量。
Chunk(分块)
目前我们提供三种策略:General(通用)、Parent-Child(兼顾精度与上下文)、Q&A(结构化问答),满足不同文档类型需求。
Embed(向量化)
灵活选择嵌入模型,可按成本、语种、维度需求切换不同供应商。
Load(索引存储)
将处理后的向量与元数据写入知识库,建立高效索引。支持高质量向量索引和经济型倒排索引,可配置元数据标签用于精准过滤与权限控制。
在数据处理完成后,检索系统支持向量检索、全文检索或混合检索策略。通过元数据过滤、相关性重排序,输出包含原文引用的精准结果。最终由 LLM 进行组织和输出,支持图文混排,提高检索的准确率和用户体验。
可观测的数据调试过程
传统的数据处理流程如同黑盒,无法观察中间过程,问题排查困难。现在通过 Knowledge Pipeline,你可以用测试运行(Test Run)对整条 Pipeline 逐节点执行,查看每一步的输入输出是否符合预期;并通过变量监视器(Variable Inspect)对链路中的中间变量与上下文进行实时观察,快速定位解析错误、分块异常或元数据缺失等问题。
当调试通畅后,一键将 Pipeline 发布为可用状态,进入标准化数据处理。
阅读帮助文档,了解更多操作详情:
通过知识流水线创建知识库
https://docs.dify.ai/zh-hans/guides/knowledge-base/knowledge-pipeline/readme
场景丰富的内置模版
我们提供 7 类预置模板,满足不同处理需求:
常规文档处理:General Mode (ECO),将文档分割为通用段落块,采用经济型索引,适合大批量文档的快速处理;
长文档处理:Parent-Child (HQ),采用父子层级化分块策略,既能精准定位具体内容,又能保留完整上下文,适合技术文档、研究报告等长篇资料;
表格数据提取:Simple Q&A,从表格中提取指定列生成结构化问答对,用户可以使用自然语言查询表格数据;
复杂 PDF 解析:Complex PDF with Images & Tables,专门提取 PDF 中的图片和表格,方便后续检索多模态内容;
多模态内容增强:Contextual Enrichment Using LLM,利用 LLM 理解图片和表格内容并生成文字描述,提高检索效率;
文档格式转换:Convert to Markdown,将 Office 原生格式转换为 Markdown,提升处理效率和兼容性;
智能问答对生成:LLM Generated Q&A,自动从文档提取关键信息生成问答对,将长文档转化为精准的知识点。
RAG 插件生态:
开放、灵活,面向企业的定制化能力
Dify 已构建起一个开放繁荣的插件生态系统,汇聚了官方、合作伙伴与社区的共同贡献。Knowledge Pipeline 基于插件化架构,让企业能够根据自身需求灵活选择数据处理工具:
Connector:接入 Google Drive、Notion、Confluence 等数十种数据源
Ingestion:选择 LlamaParse、Unstructured、各类 OCR 等专业解析工具
Storage:对接 Qdrant、Weaviate、Milvus、Oracle 等主流向量数据库,支持企业版和开源版自定义配置
为什么选择 Knowledge Pipeline ?
Knowledge Pipeline 是实践 Context Engineering 的重要一环,它负责把企业非结构化数据转换为高质量上下文,为下游的检索、推理和应用奠定坚实基础。
通过这一基础设施,企业能够获得三方面的核心价值:
连接业务需求和数据工程
Knowledge Pipeline 让业务团队也能参与 AI 系统的优化。通过可视化编排和实时调试,业务专家可以直接看到数据如何被处理,上手排查检索过程,无需和技术团队反复沟通需求,从而让技术团队专注于推动业务增长的核心项目中。
降低开发与维护成本
传统 RAG 项目多为一次性交付、按场景重复搭建。Dify Knowledge Pipeline 把数据处理做成可沉淀、可复用的能力:合同审查、客服知识库、技术文档等都能做成模板,在团队之间直接复制、按需调整,减少重复搭建和后期维护。
集成全球顶尖 RAG 厂商方案
企业不必再纠结于完全自研还是依赖单一厂商。各环节(如 OCR、文档解析、结构化提取、向量库、重排序)都可按需选型并随时替换,整体架构保持稳定。这种灵活性让企业始终能采用业界最优解。
What's Next
在最新版本中,我们对 Workflow 的底层引擎做了队列化图执行重构。新引擎解决了原有架构在处理复杂并行场景时的限制,支持更灵活的节点连接和执行控制。具体来说,它允许 Pipeline 从任意节点开始执行、支持中间节点的暂停与恢复,为后续的断点调试、Human-in-the-loop 、Trigger 等功能奠定了基础。
立即体验,开启企业级 Knowledge Pipeline 编排之旅。
END
🥳
如果你喜欢 Dify,欢迎:
体验 Dify 云端版本:https://dify.ai/
在 GitHub 上给我们点亮:支持我们的开源项目
https://github.com/langgenius/dify
贡献代码,和我们一起打造更强大的 Dify:你的每一行代码都能让 Dify 更加完美。
通过社交媒体和线下活动:分享 Dify 与你的使用心得,让更多人受益于这个强大的工具。
我们正在招聘,简历请投至 joinus@dify.ai。
职位详情见:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-23
Claude Code的使用思考
2025-09-23
主观聊几句腾讯的 AI 局面
2025-09-23
中国石化人工智能大赛:中高渗水驱油藏注采参数调整 算法Baseline方案
2025-09-23
来自麦肯锡AI 智能体一线实战的 六大经验
2025-09-23
用Claude Code Hook实现任务完成后发送飞书提醒(可复用到微信、钉钉、桌面提醒)
2025-09-23
谷歌发布AP2协议,联手PayPal放大招:AI要自己下单了
2025-09-23
体验CodeX后,我想和Claude Code说再见了!
2025-09-23
利用 Claude Code 重构大型项目
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-08-20
2025-09-14
2025-09-23
2025-09-22
2025-09-20
2025-09-19
2025-09-19
2025-09-18
2025-09-18
2025-09-17