免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Dify Knowledge Pipeline 正式发布!

发布日期:2025-09-23 13:12:57 浏览次数: 1531
作者:Dify

微信搜一搜,关注“Dify”

推荐语

Dify Knowledge Pipeline 为企业级 RAG 数据处理提供可视化、可编排的解决方案,突破 AI 落地的上下文工程瓶颈。

核心内容:
1. 企业级 RAG 面临的三大核心挑战
2. Knowledge Pipeline 的可视化编排与多模态处理能力
3. 主流数据源插件化集成与开发者扩展方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

今天,我们正式推出全新的 Knowledge Pipeline —— 可编排、可扩展、可观测的 RAG 数据处理管道。


在企业里,AI 落地的瓶颈往往不在模型,而在上下文工程(Context Engineering)。大量业务数据被封存在 PDF、PPT、Excel、图像、HTML 等非结构化文件中。


如何把分散、异构、持续更新的内部数据,稳定转化为 LLM 能可靠消费的上下文。这不是简单的数据导入,而是一项需要系统化设计与调优的工程。


面对企业级数据,传统 RAG 常因以下问题导致答案质量参差不齐:

1. 数据源割裂:企业数据分散在 ERP、Wiki、邮件、网盘等数十个系统中,每个系统都有独特的认证方式和数据格式,逐一适配成本高昂。

2. 异构数据解析难:文档或表格在解析后变成无序文本,图表、公式等多模态内容直接丢失,机械分块切断文档逻辑,导致 LLM 基于不完整的信息片段生成答案。

3. 处理过程黑盒:数据处理的每个环节都不可见,无法定位是解析错误、分块异常还是向量化失败,报错后复现困难,只能盲目调试。


因此,Knowledge Pipeline 为 Context Engineering 提供了关键的数据处理基础设施:通过可视化、可编排的处理管道,让企业真正掌控从原始数据到高质量上下文的转化全过程。


可视化、可编排的 Knowledge Pipeline

Knowledge Pipeline 继承了 dify Workflow 的画布式编排体验,将 RAG 的 ETL 过程可视化。每个处理环节都是独立节点,从数据源接入、文档解析到分块策略,每步都能选择合适的插件,能够处理文本、图片、表格、扫描件等多模态资料。依托 Dify Marketplace 的插件生态,团队可以像搭积木一样编排文档处理产线,针对不同行业与数据形态定制流程。

在需要时,你还可以把 Workflow 节点里的逻辑节点、Code 节点、LLM 节点等嵌入到处理链路中,用大模型做内容增强,用代码做规则清洗,真正实现数据处理的灵活定制。


  1. 企业主流数据源集成

为了突破原有的数据源限制,我们推出了全新的 Data Source 插件类型。通过插件化架构,每个知识库可以支持多个非结构化数据源接入。过去需要为每种数据源编写定制代码并维护认证逻辑,现在通过 Marketplace 插件即可一键接入。开发者还可以基于标准接口开发自己的数据源插件,接入特定的内部系统或专有平台。

已覆盖的主流数据源:

  • 本地文件:支持 30+ 种格式,包括 PDF、Word、Excel、PPT、Markdown 等

  • 云存储:Google Drive、AWS S3、Azure Blob、Box、OneDrive、Dropbox 等

  • 在线文档Notion、Confluence、SharePoint、GitLab、GitHub 等

  • 网页爬取:Firecrawl、Jina、Bright Data、Tavily 等服务


  1. 插拔的数据处理管道

为了让数据处理的过程更具确定性,方便用户自由扩展和编排,我们把数据加工过程拆解为可插拔的标准节点,每一步都能按场景更换插件:


  • Extract(数据提取)

支持上文介绍的多数据源并行接入,能够统一处理文本、图片、音视频等多模态内容。后续节点会根据不同数据源的输出类型,如文件对象或页面内容,自动适配处理策略。

  • Transform(数据加工)

这是 Pipeline 的核心,大致可为四个组合环节:

  1.    Parse(解析)

    据文件类型选择最优解析器,提取文本与结构化元数据。针对扫描件 OCR、表格还原、PPT 文本框顺序等特殊情况,可并联多个解析器确保信息不丢失。

  2.  Enrich(增强)

    通过 LLM 和其他逻辑节点实现实体抽取、摘要生成、标签分类、敏感信息脱敏等,提升内容质量。

  3. Chunk(分块)

    目前我们提供三种策略:General(通用)、Parent-Child(兼顾精度与上下文)、Q&A(结构化问答),满足不同文档类型需求。

  4. Embed(向量化)

    灵活选择嵌入模型,可按成本、语种、维度需求切换不同供应商。

  • Load(索引存储)

将处理后的向量与元数据写入知识库,建立高效索引。支持高质量向量索引和经济型倒排索引,可配置元数据标签用于精准过滤与权限控制


在数据处理完成后,检索系统支持向量检索、全文检索或混合检索策略。通过元数据过滤、相关性重排序,输出包含原文引用的精准结果。最终由 LLM 进行组织和输出,支持图文混排,提高检索的准确率和用户体验。


  1. 可观测的数据调试过程

传统的数据处理流程如同黑盒,无法观察中间过程,问题排查困难。现在通过 Knowledge Pipeline,你可以用测试运行(Test Run)对整条 Pipeline 逐节点执行,查看每一步的输入输出是否符合预期;并通过变量监视器(Variable Inspect)对链路中的中间变量与上下文进行实时观察,快速定位解析错误、分块异常或元数据缺失等问题。

当调试通畅后,一键将 Pipeline 发布为可用状态,进入标准化数据处理。

阅读帮助文档,了解更多操作详情:

通过知识流水线创建知识库

https://docs.dify.ai/zh-hans/guides/knowledge-base/knowledge-pipeline/readme


  1. 场景丰富的内置模版

我们提供 7 类预置模板,满足不同处理需求:

  • 常规文档处理:General Mode (ECO),将文档分割为通用段落块,采用经济型索引,适合大批量文档的快速处理;

  • 长文档处理:Parent-Child (HQ),采用父子层级化分块策略,既能精准定位具体内容,又能保留完整上下文,适合技术文档、研究报告等长篇资料;

  • 表格数据提取:Simple Q&A,从表格中提取指定列生成结构化问答对,用户可以使用自然语言查询表格数据;

  • 复杂 PDF 解析:Complex PDF with Images & Tables,专门提取 PDF 中的图片和表格,方便后续检索多模态内容;

  • 多模态内容增强:Contextual Enrichment Using LLM,利用 LLM 理解图片和表格内容并生成文字描述,提高检索效率;

  • 文档格式转换:Convert to Markdown,将 Office 原生格式转换为 Markdown,提升处理效率和兼容性;

  • 智能问答对生成:LLM Generated Q&A,自动从文档提取关键信息生成问答对,将长文档转化为精准的知识点。


RAG 插件生态:

开放、灵活,面向企业的定制化能力

Dify 已构建起一个开放繁荣的插件生态系统,汇聚了官方、合作伙伴与社区的共同贡献。Knowledge Pipeline 基于插件化架构,让企业能够根据自身需求灵活选择数据处理工具:

  • Connector:接入 Google Drive、Notion、Confluence 等数十种数据源

  • Ingestion:选择 LlamaParse、Unstructured、各类 OCR 等专业解析工具

  • Storage:对接 Qdrant、Weaviate、Milvus、Oracle 等主流向量数据库,支持企业版和开源版自定义配置


为什么选择 Knowledge Pipeline ?

Knowledge Pipeline 是实践 Context Engineering 的重要一环,它负责把企业非结构化数据转换为高质量上下文,为下游的检索、推理和应用奠定坚实基础。

通过这一基础设施,企业能够获得三方面的核心价值:

  1. 连接业务需求和数据工程

Knowledge Pipeline 让业务团队也能参与 AI 系统的优化。通过可视化编排和实时调试,业务专家可以直接看到数据如何被处理,上手排查检索过程,无需和技术团队反复沟通需求,从而让技术团队专注于推动业务增长的核心项目中。

  1. 降低开发与维护成本

传统 RAG 项目多为一次性交付、按场景重复搭建。Dify Knowledge Pipeline 把数据处理做成可沉淀、可复用的能力:合同审查、客服知识库、技术文档等都能做成模板,在团队之间直接复制、按需调整,减少重复搭建和后期维护。

  1. 集成全球顶尖 RAG 厂商方案

企业不必再纠结于完全自研还是依赖单一厂商。各环节(如 OCR、文档解析、结构化提取、向量库、重排序)都可按需选型并随时替换,整体架构保持稳定。这种灵活性让企业始终能采用业界最优解。


What's Next

在最新版本中,我们对 Workflow 的底层引擎做了队列化图执行重构。新引擎解决了原有架构在处理复杂并行场景时的限制,支持更灵活的节点连接和执行控制。具体来说,它允许 Pipeline 从任意节点开始执行、支持中间节点的暂停与恢复,为后续的断点调试、Human-in-the-loop 、Trigger 等功能奠定了基础。


立即体验,开启企业级 Knowledge Pipeline 编排之旅。

END

🥳

如果你喜欢 Dify,欢迎:

  • 体验 Dify 云端版本:https://dify.ai/

  • 在 GitHub 上给我们点亮:支持我们的开源项目

https://github.com/langgenius/dify

  • 贡献代码,和我们一起打造更强大的 Dify:你的每一行代码都能让 Dify 更加完美。

  • 通过社交媒体和线下活动:分享 Dify 与你的使用心得,让更多人受益于这个强大的工具。

  • 我们正在招聘,简历请投至 joinus@dify.ai

  • 职位详情见:

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询