微信扫码
添加专属顾问
我要投稿
Dify 2.0带来知识管道功能,RAG开发效率翻倍提升,文档处理从此更智能高效。 核心内容: 1. Dify 2.0预览版升级指南与注意事项 2. 知识管道功能详解与使用场景 3. 七种内置流水线模式及其适用场景
上个月就给大家同步了dify的下一个工作,rag2.0,当时我和他们的产品聊过rag2.0,核心的rag不会变动太多(dify本身rag能力够用,问题最多的在于文档格式)。主要是数据解析这块,以流水线的方式处理文档。
也叫知识管道。
上周dify发布了1.8.1以后,随后又发布了预览版dify 2.0.0 作为dify的大版本升级,更新的内容会比较多,如果是生产环境,建议先不要升级,等到正式发布以后再动,如果只是体验,可以直接升级。
注意,注意,注意,升级前一定要先备份一下。
.git/config
里的地址改为dify的。# 只拉取指定的tag
git fetch origin tag 2.0.0-beta.2
# 创建一个2.0.0-beta的分支
git checkout -b 2.0.0-beta 2.0.0-beta.2
docker compose down
docker compose up -d
#执行2.0升级命令,分组名称,默认是docker-api-1 我命名为dify了
docker exec -it dify-api-1 uv run flask transform-datasource-credentials
在升级之前我们要么在后台直接上传文本处理知识库,要么在通过工作流或者代码直接调用api处理。在本次升级以后,官方直接把知识库的处理流程给开放了出来,并且提供了一些模板案例。
通过知识流水线创建知识库
。知识管道创建有两种模式,一种是创建一个空白的管道自己配置,一种是利用官方内置流水线(Built-in Pipeline)。
先看下内置的流水线种类,以及作用。内置的知识流水线有以下七种:
1 | ||||
2 | ||||
3 | ||||
4 | ||||
5 | ||||
6 | ||||
7 |
需要注意的是,断网情况下这些内置流水线加载不出来。从日志上可以看到,先从官方加载,官方网络不通,直接从本地加载,我是一路升级过来的,数据库里应该没有对应的信息。
第一步
配置数据源,多种形态第二步
文档处理:这个示例里配置了两个处理器,一个是dify内置的文档解析器(Dify Extractor),一个是原来工作流节点的文档提取器。第三步
:文本分块,这里使用的是dify 封装的通用分块器第四步
:知识库配置,这里主要是配置索引方法
和检索策略
,这个和第三步紧密关联
,第四步
,分段结构没有必要,这个由第三步
的分块器决定的,有这块配置反而增加了配置的复杂度。还不如直接根据第三步
直接填写。从dify的示例来说,大都是父子分段的格式,从另外一个层面可以反映出来,复杂文档,父子分段的效果最好。
我再讲解两个复杂的案例。
这个是从模板4
创建而来的。
第一步
配置数据源,是上传的文本第二步
文档处理:这里使用的是MINERU,除了MINERU还可以用其他的文档处理插件处理。第三步
:文本分块,使用的是父子分块器第四步
:知识库配置,这里主要是配置索引方法
和检索策略
,这个和第三步紧密关联
,大家关闭梯子,去mineru的官网申请token就可以
https://mineru.net/apiManage/token
这个折腾了1个多小时,才显示出图片,需要注意,升级那里的配置图片显示。
第一步
配置数据源,是上传的文本第二步
文档处理:这里使用的是MINERU+LLM,我使用的qwen-vl.第三步
:文本分块,使用的是父子分块器第四步
:知识库配置,同上文档处理器是一个特殊的插件,官方示例里有下面几种:
在插件市场我们可以看到其他的插件,比如合合
目前dify官方支持三种分块器,其实就是知识库里的配置进行了抽取。
每个分块器都有不同的特点和使用场景。
分块器的设置,是在处理文档的时候进行设置,每个文档都可以自定义。
索引方式和检索设置参考原知识库设置即可。
关闭梯子
按照下面的内容配置以后,销毁并重启服务
.env配置
# 配置文件外网路径,自己本机ip或者域名
FILES_URL=http://10.1.0.65:5001
# 内网地址,不能配置,否则无法显示图片
INTERNAL_FILES_URL=
docker-compose.yaml配置
# 我增加了name,不加,默认为docker
name: 'dify'
services:
# API service
api:
image: langgenius/dify-api:2.0.0-beta.2
ports:
- '${DIFY_PORTS:-5001}:5001' # 开放api的的端口,用于文件访问
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-07
Dify发布页面用户鉴权方案讨论
2025-09-06
全网首发!Dify 2.0.0 图文混排上线,每个新功能都是爆款!附实战教程(建议收藏)
2025-09-06
Dify 参数提取器用法剖析
2025-09-06
Dify 夏日更新速递|功能概览
2025-09-06
夏日终章,Dify 放出“解暑大招”——v1.7→v1.8 升级包,专治各种“流程便秘”!
2025-09-06
Dify v2.0.0-beta.1悄悄的来啦!看看有哪些大更新?
2025-09-05
Dify 1.8.1发布了,看看带来了哪些变化?
2025-09-04
Dify发布了V1.8.1版本,专注于提升稳定性、性能和开发者体验,解决部分关键问题,让我们一起来看看吧!
2025-06-25
2025-06-30
2025-06-29
2025-06-24
2025-07-02
2025-06-26
2025-06-25
2025-07-11
2025-08-19
2025-09-03
2025-09-06
2025-09-05
2025-08-29
2025-08-18
2025-08-02
2025-07-30
2025-06-26
2025-06-17