我要投稿

腾讯开源知识库 WeKnora 本地实战篇：从创建知识库到精准问答，本地完整配置全攻略！

发布日期：2025-12-28 21:05:45 浏览次数： 1930

作者：畅说AI科技

微信搜一搜，关注“畅说AI科技”

上次我们聊了怎么在本地部署 WeKnora 环境。
这次咱们来点“真刀真枪”的操作——创建知识库 + 配置模型 + 上传文件 + 智能问答验证，
完整地跑通一个属于你自己的「私有知识问答系统」。

如果说上一篇是“铺地砖”，那这篇就是“装修落地”。
搞定它之后，你的知识库就能真正动起来，问问题、给答案，一气呵成！

———

准备工作：先把 Ollama 启动起来

WeKnora 虽然支持远程 API 模型，但最推荐的还是用 本地 Ollama，
这样整个流程都是离线可控的。

先确认你的 Ollama 已经安装并在运行：


docker ps | grep ollama

如果没启动，请运行：


docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

然后拉取需要的 embedding 模型：


ollama pull bge-m3

💡 说明：
bge-m3 是腾讯官方推荐的嵌入模型，性能稳、兼容性好；
后面知识库创建时会默认使用它来做文本向量化。

———

创建知识库：点击几下就能搞定

打开浏览器，访问：


http://localhost     ##如果你加了端口号，也需要带上

进入 WeKnora 的主界面后，左侧点击 「知识库」 模块。

点击右上角的 「新建知识库」 按钮，就会弹出创建窗口👇

填写信息：

名称：随便取，比如「微信公众号文章库」；
描述：可选；
直接点「创建」。

创建完成后你会看到一个“未初始化”的状态。
别急，这时候还不能上传文件——
系统提示：需要先完成模型配置。

———

配置知识库：RAG的灵魂部分

点击右侧的 「设置」 按钮，进入配置界面。

这一页其实就是整个知识库的“大脑”设置区：
包括语言模型、embedding 模型、Rerank、多模态、分段策略等。

1️⃣ 连接 Ollama

顶部显示 Ollama 服务状态：

Ollama 地址：http://host.docker.internal:11434
状态：已安装模型 bge-m3latest

如果状态正常，说明本地模型可用。

2️⃣ 配置大语言模型（LLM）

在「LLM 模型配置」部分选择：

模型来源：Ollama（本地）、Remote API（远程）
模型名称：这里我选的是远程的DeepSeek
如果用deepseek的话，需要到其官网上创建一个API Key。

📢 说明：
本地没有部署LLM，只能用远程的LLM了。这里选的是deepseek。
如果你显存够大（24G 以上），可以直接用多模态模型 Qwen2.5VL:7b，支持图文混合问答。

3️⃣ 配置 Embedding 模型（向量化）

在「Embedding 嵌入模型配置」部分：

模型来源：Ollama
模型名称：bge-m3
维度：自动检测即可

这个模型负责把你的文档分段转成向量，是检索精准度的关键。
WeKnora 支持自定义修改，比如你也可以改用 text2vec-large-chinese。

4️⃣ 配置 Rerank 模型（可选）

Rerank 负责“二次筛选”检索结果。

本地做测试的话，可以关闭Rerank，效果差不多。

关闭「启用Rerank重排模型」开关即可。
只用 Embedding（你已经配了 bge-m3 1024）+ LLM，检索问答一样能用。

如果想提高答案准确率的话，可以开启，但回答速度会变慢。
启用方法：

打开「Rerank 重排序模型配置」
模型名称：rerank-multilingual-v3.0（支持中文多语）
Base URL：https://api.cohere.com
API Key：你的 Cohere Key

⚙️ 建议：如果你只是测试环境，可以先不启用。生产环境建议开，答案准确率会明显提升。

5️⃣ 开启多模态（可选）

如果你希望解析图片内容（比如PDF里有图表），可以打开：

「多模态配置」→ 勾选“启用多模态图片信息提取”

还需要配置存储，可以用MinIO，使用方便简单。

⚠️ 注意：多模态模型对显存要求高，至少要 24G 以上，推荐配置 Qwen2.5VL:7b。
本人电脑显存太小，下载完模型，就直接死机了:(

6️⃣ 设置文档分段策略

WeKnora 的分段逻辑非常灵活，有三种模式可选：

模式	说明	适用场景
均衡模式	固定大小分块（默认 1000 字）	普通文本
上下文模式	自动包含前后语境	规章制度类文档
精简模式 ✅	512 字块 + 100 字重叠	推荐，一般最稳

你也可以手动拖动滑块调整分块大小和重叠度，
最后点击底部的 「更新知识库设置」 保存配置。

保存成功后，状态就会变成 “已初始化” 🎉
这时我们就能往里扔文档了。

———

上传文档：喂知识进去！

返回知识库列表，点你刚建好的那个知识库 → 「文档」。

直接拖拽文件上传，支持：

PDF/Word/Markdown/ 图片（会自动OCR识别）

上传后，系统会自动执行以下步骤：

文本提取（包含OCR识别）
分段切片
向量化处理（Embedding）
构建索引

状态变成 ✅「已完成」时，说明入库成功。

———

智能问答测试：让知识动起来

切换到左侧菜单的「对话」模块。
选择刚刚建的知识库，在输入框随便问一句：

“微信公众号知识库里，如何配置 embedding 模型？”
“AI 智能体知识库的文件存放在哪个路径？”

WeKnora 会自动从文档里检索相关段落，然后用 LLM 生成总结。
右侧还能看到引用来源，非常清晰。

———

实战技巧（让问答更精准）

💡 1. 分段别太大
建议每块 500~1000 字，这样召回更准确。

💡 2. 文件命名清晰
比如 “01_安装指南.pdf”“02_配置文档.docx”，
后续引用来源更容易识别。

💡 3. 合理选模型组合
推荐组合：

中文文档 → Qwen + bge-m3 + Rerank
英文文档 → Mistral + text2vec-large

💡 4. 多模态别乱开
显存不够千万别勉强，否则直接 OOM（爆显存）。

———

总结：这才是真正的“可控知识库”

到这一步，你已经拥有了一个完整可用的本地知识库系统：

✅ 本地 Ollama + Embedding + Rerank
✅ 知识库初始化配置
✅ 文档入库
✅ 精准问答

最重要的是——数据全在你自己手上。
不联网、不上传、不依赖外部API，一切尽在掌控。

WeKnora = “可折腾版 IMA”
IMA 是黑盒，而 WeKnora 是乐高。
想怎么玩，随你拼。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-11

Skill 创作手记：我把微信聊天记录通过skill转化成【可搜索的知识库】

2026-02-11

Agent Skills 管理新范式：Skills Hub 可视化管理Skills

2026-01-25

银行本体论：重构银行领域世界观

2026-01-21

做了十几个知识库项目后，我把入库前的文档摸底流程产品化了

2026-01-17

最先被AI干掉的，可能是CRM

2026-01-13

2026年企业落地AI的五大关键举措

2026-01-11

AI颠覆专利申请！6个月ARR增长10倍，它如何成为律师最佳“外脑”

2026-01-09

告别碎片化日志：一套方案采集所有主流 AI 编程工具

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

AI全面爆发后，企业正在悄悄争夺知识库入口｜甲子光年

2025-11-22

文章“找茬”神器——媒体行业AI智能校对方案

2025-11-19

Obsidian+Cursor构建知识库系统，这才是ai时代知识库该有的样子！

2025-12-04

AI知识管理 | 知识多得存不下，脑子乱得用不上？三步构建你的专属AI知识管理工作流，专治你的“数字松鼠症”。

2025-11-18

AI知识管理 | 知识管理Process之类比之桥：如何用第一性原理，10倍提升你解决问题的能力？

2025-11-18

有了 Claude Code，Obsidian 才真正成为第二大脑

2026-01-05

腾讯开源知识库 WeKnora 本地实战篇：从创建知识库到精准问答，本地完整配置全攻略！

2025-12-28

今年帮企业做AI落地，我发现了一个残酷真相

2025-12-05

IMA知识库：从0到1的架构设计与实践

2025-12-24

构建知识闭环：用CodeBuddy打造自我进化的数据分析体系

2025-12-05

大家都在问

复制“金牌销售”的大脑：江森自控如何利用 Foundry 将部落知识代码化？

2025-12-09

人类社会知识领域扩展显著，机器智能究竟在其中扮演的具体角色？

2025-11-22

AI知识管理 | 知识管理Process之类比之桥：如何用第一性原理，10倍提升你解决问题的能力？

2025-11-18

维基百科向AI公司“亮剑”：从免费抓取到付费API，知识共享的未来何去何从？

2025-11-13

企业AI 项目商业成果权责不清：技术与业务互推责任，谁该为结果买单？

2025-11-12

私域知识工程实战：如何让AI一次性写出高质量代码？

2025-09-23

万字复盘：我们如何从0到1构建企业AI中台？

2025-09-07

AI知识库是面子工程还是效率引擎？

2025-08-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean