2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

腾讯开源WeKnora详解(二):知识库与对话核心能力

发布日期:2026-06-29 20:26:06 浏览次数: 1505
作者:叨叨数码

微信搜一搜,关注“叨叨数码”

推荐语

想快速搭建企业知识库却不知如何选择?WeKnora提供三种知识库“机型”,总有一款适合你的业务场景。

核心内容:
1. WeKnora支持的10多种常见文档格式及其处理差异
2. FAQ、文档、Wiki三种知识库的定位与适用场景
3. 根据实际需求选择知识库“机型”的决策指南

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

WeKnora 详解系列 · 第二章

各位数码圈的老铁们,叨叨数码又来了。

上一篇咱们把 WeKnora 是什么、怎么 5 分钟跑起来,扒了个底朝天。今天这篇才是真正的"重头戏":

怎么把公司那一堆乱七八糟的文档接进来?三种对话模式到底该用哪个?

这俩问题搞不明白,WeKnora 装上也是个花瓶。我尽量用"装机器"的姿势给你讲明白,看完你就能根据自己的场景对号入座。


一、先说文档:WeKnora 都能"啃"哪些格式?

先解决最基础的问题:你手里的文档,WeKnora 吃不吃得动?

答案是:基本上市面常见格式,它都吃

格式类型
具体支持
📄 办公文档
PDF、Word(.doc/.docx)、PPT(.ppt/.pptx)、Excel(.xls/.xlsx)
📝 文本格式
TXT、Markdown、HTML、JSON
🖼️ 多模态
图片(OCR 识别内容)、音频(ASR 转写)
📊 数据格式
CSV、Excel

总数 10+ 种,基本涵盖了企业内部 95% 的文档类型。

叨叨数码先泼盆冷水:支持归支持,效果天差地别。我们后面会聊到 v0.6.2 的"流程配置"黑科技,能让你针对不同文档调不同的"解析配方"。


二、知识库三种"机型":FAQ / 文档 / Wiki 怎么选?

光有文档不够,你得先搞清楚 WeKnora 把文档"装"到哪里——这就要说到三种知识库类型了。

叨叨数码用数码圈老规矩,给你类比成"三款机型":

机型 1:FAQ 知识库(轻便型,适合高频问题)

定位:标准 Q&A 对,类似"客服话术库"。

特点:

  • 一问一答,答案固定
  • 适合客服、售前、FAQ 文档
  • 检索速度快,成本低

数码类比:相当于客服手里的"标准话术表"——客户问"保修期多久",直接对照回答,不绕弯子。

机型 2:文档知识库(主力机型,覆盖 80% 场景)

定位:把成型的文档(产品手册、规章制度、技术文档)丢进去,AI 帮你查、帮你答。

特点:

  • 支持各种格式(PDF/Word/Excel/PPT...)
  • 自动分块、向量化、检索
  • 答案会带"引用源"——告诉你是从哪份文档第几页找到的

数码类比:相当于"随身带了一整个图书馆"——不管你问什么冷门问题,它都能从书里给你翻出来。

这是最常用的一类,企业内部知识库基本都用这个。

机型 3:Wiki 知识库(旗舰款,自动整理+知识图谱)

定位:v0.5 才 GA 的"旗舰机型"。Agent 自动把一堆零散文档整理成结构化、带交叉引用、带知识图谱的 Wiki。

特点:

  • Agent 自动生成目录、概念、链接
  • 自带知识图谱可视化
  • 新文档进来,自动更新 Wiki(不用人工维护)
  • v0.5.2 扩到了 4 万文档规模

数码类比:相当于你有一台"自动整理文件的 NAS"——文件扔进去,它自动分类、命名、建索引、画关系图。

这是 WeKnora 真正的杀手锏,别的开源 RAG 框架基本没有。

三种机型怎么选?叨叨数码给你一张"选机指南":

你的场景
推荐机型
客服、售前、高频重复问题
FAQ 知识库
产品手册 / 制度文档 / 技术规范
文档知识库(首选)
零散资料整理 / 行业研究 / 产品规划
Wiki 知识库(进阶玩法)

当然,三种可以混着建。叨叨数码自己的用法是:FAQ 放常见问题、文档知识库放产品手册、Wiki 放"项目复盘资料库"。各司其职,不打架。


三、流程配置:v0.6.2 的"解析配方"黑科技

这一节是叨叨数码觉得最值得吹的功能——Per-Upload Process Config,v0.6.2 刚上的。

说人话:每次上传文档时,你可以单独配置"怎么解析它"

这玩意儿解决了一个长期痛点——不同文档得用不同解析方式,但之前的 RAG 框架一刀切:

  • 扫描版 PDF(图片)需要 OCR,但纯文字 PDF 不需要
  • 长技术文档需要细粒度分块,短 FAQ 直接整段就行
  • 研究资料需要抽取知识图谱,普通产品手册不需要

WeKnora 让你针对每一次上传,按下面 6 个维度独立配置:

配置项
干啥用
什么时候开
Parser(解析器)
选哪个解析器(PaddleOCR-VL / OpenDataLoader...)
扫描件用 PaddleOCR,文字版用 OpenDataLoader
Chunking(分块)
怎么切分文档(自适应三层 / 父子分块...)
长文档用父子分块,短 FAQ 整段保留
VLM(视觉语言)
让多模态模型"看"图、描述内容
图片多的文档(产品图、流程图)打开
ASR(语音识别)
把音频转成文字
上传会议录音、产品介绍音频时打开
Graph Extraction(图谱抽取)
抽取实体关系,构建 GraphRAG 知识图谱
研究资料、行业报告用,普通文档关闭省成本
Question Generation(问题生成)
自动生成"建议问题"
面向 C 端用户、降低提问门槛时打开

两种使用姿势:

  • UI 党:上传时会弹个"确认对话框",勾勾选选就行
  • 程序员:直接调 process_config API批量上传时用脚本控制

更狠的是:解析错了可以重解析,用新配置再跑一遍——不用删了重传。

叨叨数码数码类比:这相当于相机的"场景模式"——拍人用肖像模式、拍夜景用夜景模式、拍美食用微距模式。一个机器搞定所有场景,不用换镜头。


四、数据源同步:飞书 / Notion / 语雀一键打通

很多公司文档不在本地,在云端协作文档里。WeKnora 直接做了连接器:

数据源
支持版本
特性
飞书(Feishu)
v0.3.6
auto-sync 自动同步
Notion
v0.4.0
连接器
语雀(Yuque)
v0.5.2
连接器

两种同步模式:

  • 增量同步:只拉新文档/修改过的文档,省时省力
  • 全量同步:一次性把所有历史文档拉过来

凭证安全也不马虎:AES-256-GCM 加密存储,你授权一次,WeKnora 自己刷 token 续期,不用你管。

叨叨数码类比:这相当于你的"云盘同步客户端"——登录一次,文件自动同步,本地访问速度还贼快。

官方说"more data sources coming soon",估计 Confluence、Slack、Google Docs 都在路上。


五、重头戏:三种对话模式怎么选?

叨叨数码直接说结论:这三种不是替代关系,是互补关系。不同问题用不同模式,效果差出十条街。

模式 1:RAG 快速问答(基础款,80% 场景用这个)

工作原理:你问问题 → 系统从知识库检索相关内容 → 丢给 LLM 生成答案。

优点

  • 速度快(秒级响应)
  • 成本低(一次 LLM 调用)
  • 答案带引用,可溯源

适合场景

  • 客服答疑:"保修期多久?""怎么退货?"
  • 产品查询:"X 系列和 Y 系列的差别?"
  • 制度查询:"年假怎么请?几天?"

数码类比:相当于"快捷指令"——一句话办一件事,不绕弯子。

模式 2:ReAct Agent(进阶款,复杂任务用这个)

工作原理:Agent 自主思考"下一步该干嘛",能调用 MCP 工具、能上网搜、能多次检索,直到问题解决。

核心能力

  • 🔧 工具调用:MCP 工具、网络搜索、SQL 查询
  • 🔁 多步推理:拆解复杂任务,逐步执行
  • ⏱️ 可配置超时:每个 Agent 可设独立 LLM 超时,防卡死
  • 🛡️ 人工审批:v0.5.2 引入 MCP human-in-the-loop,敏感操作需要人确认
  • 🤔 思考模式:每个模型可配 thinking-mode

适合场景

  • 多步操作:"对比 Q3 和 Q4 销售数据,写份摘要"
  • 跨知识库任务:"综合产品和财务两个库做个分析"
  • 需要外部数据:"查一下行业最新动态 + 我们公司资料,给个建议"

数码类比:相当于"智能家居中枢"——一句话,它能联动扫地机器人、开空调、关窗帘,全自动编排。

▲ Agent 模式下的工具调用流程可视化(来源:官方 docs/images/agent-qa.png)

模式 3:Wiki 模式(旗舰款,知识管理用这个)

工作原理:Agent 把零散文档主动整理成结构化、互相链接的 Markdown Wiki + 知识图谱。

核心能力

  • 📚 自动生成目录、概念、链接
  • 🕸️ 知识图谱可视化
  • 🔄 新文档进来,自动更新 Wiki
  • 📏 v0.5.2 扩到 4 万文档规模

适合场景

  • 项目复盘:把零散会议纪要整理成项目档案
  • 行业研究:把几百篇报告整理成知识体系
  • 产品规划:把用户反馈、需求文档、PRD 整理成"产品知识库"

数码类比:相当于"AI 整理收纳师"——你往家里扔一堆杂物,它自动分类、贴标签、建索引,下次找东西秒级定位。

▲ Wiki 模式自动生成的 Markdown 知识库(来源:官方 docs/images/wiki-browser.png)

▲ 自动生成的知识图谱(来源:官方 docs/images/wiki-graph.png)

叨叨数码的"选模式"秘籍

问自己三个问题:

  1. 问题答案在文档里能找到吗?
     → 能 → RAG
  2. 问题需要拆解、需要查外部数据/工具?
     → 是 → ReAct Agent
  3. 你想要的是"整理后的知识体系"?
     → 是 → Wiki 模式

这是叨叨数码用了几个版本总结出来的"三步决策法",基本能覆盖 95% 的场景。


六、对话设置:把这台"机器"调到最舒服

模式选好了还不够——你得会调设置。WeKnora 给了三个核心"调机旋钮":

▲ 对话设置界面:检索阈值、Prompt、模型参数都能调(来源:官方 docs/images/settings.png)

旋钮 1:在线编辑 Prompt

觉得 AI 回答得不对?想让它换个语气、加点要求?直接在线改 Prompt,不用重启服务

叨叨数码类比:相当于你给手机语音助手"调教"——加几条规则,它下次就更懂你。

旋钮 2:检索阈值调优

这是个关键参数,直接决定答案质量:

  • 阈值调高:检索更严格,只返回高相关内容 → 答案精确,但可能漏掉一些
  • 阈值调低:检索更宽松,啥都返回 → 答案丰富,但可能跑偏

叨叨数码建议:先用默认值跑一遍,再根据实际问题微调。如果答案经常"答非所问"就调高,如果经常"找不到"就调低。

旋钮 3:多轮上下文感知

这个功能让 AI 记得你之前说过什么。比如:

你:X 系列和 Y 系列差别是啥?
AI:(列出 5 点)
你:Y 系列的电池呢?
AI:Y 系列电池是 5000mAh,续航比 X 系列多 2 小时。

看到了吗?第二个问题没提"Y 系列",AI 也知道你说的是哪个。这就是多轮上下文的威力。

叨叨数码类比:这相当于你和 Siri 聊天时,它不会每句话都失忆,而是记得你们聊过啥。

彩蛋:建议问题(Suggested Questions)

最后提一个贴心功能:建议问题

系统会根据你刚上传的文档,自动生成 3-5 个推荐问题,展示在对话框上方。

这对 C 端用户特别有用——很多人不知道该问什么,有了建议问题,提问门槛直接砍半

叨叨数码类比:相当于你打开外卖 App,它先推荐"附近热门",你不用从零开始选。


小结:这一期我们聊了啥

来,简单回顾一下:

  • 文档格式
    10+ 种,PDF/Word/PPT/Excel/图片/音频/CSV/Markdown 全支持
  • 知识库三机型
    FAQ(轻便型)/ 文档(主力)/ Wiki(旗舰)
  • 流程配置
    v0.6.2 黑科技,6 个维度独立配置解析方式
  • 数据源同步
    飞书 / Notion / 语雀,增量 + 全量两种模式
  • 对话三模式
    RAG(基础)/ ReAct Agent(进阶)/ Wiki(旗舰),互补关系
  • 三个旋钮
    Prompt 在线编辑 / 检索阈值 / 多轮上下文

是不是感觉脑子里有了 WeKnora 的"使用说明书"了?

下一期 WeKnora详解(三):检索与生态集成——怎么让它答得更准、接得更广,我们要聊:

  • BM25 / 稠密 / GraphRAG / 父子分块这些检索策略怎么选
  • HNSW 加速 pgvector 是啥黑科技
  • 20+ 大模型怎么挑、怎么换
  • 7+ 个 IM 渠道怎么对接

觉得有用的话,点赞、在看、转发三连,叨叨数码下期继续拆 WeKnora。

我是叨叨数码,我们下期见。 #WeKnora知识分享季


🔗 项目地址:https://github.com/Tencent/WeKnora

📌 公众号:叨叨数码 · 专注 AI 工具、开源项目与数码好物拆解

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅