微信扫码
添加专属顾问
我要投稿
掌握RAGFlow知识库管理与网站嵌入的全面指南。核心内容:1. 知识库创建与PDF解析器配置技巧2. 数据集上传、解析及知识库应用示例3. 聊天对话绑定知识库与网站嵌入方法
上一篇《一文搞懂!RAGFlow 入门教程与安装部署全流程》讲了RAGFlow的基本信息、部署、模型设置和聊天,本次我们讲解RAGFlow的知识库和嵌入网站方法。
一、知识库
路径:菜单 知识库--》创建知识库
点击“确定”,完成初步的创建,进入详情页面。
1、配置
PDF解析器:有2种解析器,DeepDoc使用视觉模型进行 PDF 布局分析,以更好地识别文档结构,找到标题、文本块、图像和表格的位置。 如果选择 Naive 选项,则只能获取 PDF 的纯文本。请注意该功能只适用于 PDF 文档,对其他文档不生效。
嵌入模型:选择已设置好的嵌入模型。
切片方法:有非常多的方法供选择,可根据实际场景选择合适的方法。比如我们可使用General,Q&A,Paper(专门处理pdf)等方法。
建议文本块大小:建议的生成文本块的 token 数阈值。如果切分得到的小文本段 token 数达不到这一阈值就会不断与之后的文本段合并,直至再合并下一个文本段会超过这一阈值为止,此时产生一个最终文本块。如果系统在切分文本段时始终没有遇到文本分段标识符,即便文本段 token 数已经超过这一阈值,系统也不会生成新文本块。
文本分段标识符:支持多字符作为分隔符,多字符用 `` 分隔符包裹。若配置成:\n`##`; 系统将首先使用换行符、两个#号以及分号先对文本进行分割,随后再对分得的小文本块按照「建议文本块大小」设定的大小进行拼装。在设置文本分段标识符前请确保理解上述文本分段切片机制。比如,我们在整理文本时,每条知识之间都使用换行符分隔。
点击“保存”后跳转到数据集界面。
2、数据集
添加数据集,上传本地文件,可选择多个文件。
操作过程:
上传完后,还需要手动点击解析。
解析是一个比较耗时的操作,数据量越大时间越长,所以需要一个文件解析完后,再点击另一个文件解析。
解析好后,会保存到其向量数据库。
3、示例
我们分别创建了3个知识库,论文-PDF、GPT报错-QA和中医诊断 。
(1)《论文-PDF》的文件是《Attention Is All You Need》论文,pdf格式;知识库的配置如下:
(2)GPT报错-QA 是Excel文档,里面就是QA问答,如下格式。
知识库配置如下:切片方法选择 Q&A
(3) 中医诊断是txt文本格式的数据,以换行符分隔,数据如下:
知识库的配置如下:
二、聊天对话
1、绑定知识库
新建对话助理的方法请看上一篇文章,只要将知识库与创建好的知识库关联上即可。
2、聊天对话
进行对话会有如下回答,可以看到答案都是在知识库里存在的数据;并且会显示是从哪个文档里获取到的。
三、嵌入网站
RAGFlow还提供了网页iframe嵌入和 API调用这2种形式,方便外部系统接入RAGFlow 。
1、设置API Key
路径:头像--》API-->API Key
创建新密钥,会自动创建Token。
2、嵌入网站
路径:菜单- 聊天--》点击某一个聊天助理--》嵌入网站
可以看到“全屏嵌入”和“部分嵌入”,前者是iframe形式,后者的API形式的调用,API接口文档:https://ragflow.io/docs/dev/http_api_reference#create-session-with-chat-assistant 。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-27
RAGFlow 集成 Milvus向量库操作指南
2025-04-27
Docker 迁移RAGFlow镜像后出现问题解析与如何修复
2025-04-26
ragflow v0.18.0:VLM模型支持、知识库共享、Langfuse集成,企业级AI新选择
2025-04-26
Ragflow(v0.18.0)更新内容概览与同步计划
2025-04-11
Windows WSL 安装 RAGFlow 详细教程
2025-04-09
解剖RAGFlow!全网最硬核源码架构解析
2025-03-31
喂饭教程-Dify如何集成RAGFlow知识库
2025-03-19
一文读懂 RAGFlow 知识库接入 Dify 的全流程
2025-03-11
2025-02-07
2024-11-25
2024-09-30
2025-03-19
2024-12-24
2025-04-09
2025-03-16
2025-03-31
2025-04-11