我要投稿

大厂的本地知识库搭建经验

发布日期：2025-05-15 05:41:55 浏览次数： 2384

作者：深度学习视觉

微信搜一搜，关注“深度学习视觉”

技术选择

技术	特点	适用场景
大模型	通用+响应快	简单查询、通用知识问答、即时响应场景
微调	理解+格式	需要模型深度理解特定领域，统一输出格式风格
RAG	实时性	更新频繁的信息，无法感知全文结构和主旨，可后期添加
混合方案	RAG+LLM	RAG检索到的内容让模型阅读后重新生成
	微调降本	对于常规大量的文档建议微调

分词策略

策略	描述
领域特性适配	法律文本中的“第X条”、医疗文本中的“xx指标”等需要整体保留
语言特性差异	中文需要字词级分词，专业中文术语需整体处理
基础分词	简单按句号、逗号等标点切分
语义分词	考虑段落、小节语义完整性的智能切分
混合分词	结合文档结构（标题、章节）和语义边界的复合切分

内容类型差异化处理

类型	处理方法
文本内容	使用文本 embedding 模型
表格数据	结构化向量化或表格专用 embedding，勿对表格内容切分
代码片段	代码专用 embedding 模型

向量模型选择依据

依据	描述
通用应用	OpenAI text-embedding-3-large、Cohere embed v3 等通用模型足够
专业领域	BGE、GTE 等开源模型可针对垂直领域微调提升效果
混合索引策略	关键词索引+向量索引的双重索引往往比单一索引效果更好
维度与性能权衡	更高维度收益渐窄

多样化检索策略

策略	描述
BM25	适合精确关键词匹配，在技术文档、产品手册中表现良好
向量检索	适合语义理解，在客户问询、意图分析中表现良好
混合检索	结合两者优势，实践中对召回率的提升有明显效果

参数调优经验

参数	描述
top_k 值选择	一般推荐 3-5 个片段，太多引入噪音，太少可能缺失关键信息
相似度阈值	0.7-0.8 是常见起点，根据业务场景容错性调整

检索增强技术

技术	描述
查询改写	将用户问题转化为更适合检索的形式
结果重排序	根据多维度相关性（不仅是向量相似度）重新排序
问题对问题检索	模型提前基于文档生成可能的问题
答案对答案检索	先产生 LLM 的假设回答，然后与知识库中匹配形似度高的回答

排序策略

策略	描述
单一维度	单一向量相似度排序
多因素引导	多因素加权排序
模型引导	重排序模型
交互信息引导	使用点击、停留时间、反馈等用户行为数据优化排序

敏感数据处理

技术	描述
实体识别和替换	使用 NER 工具识别敏感实体
占位符替换实际内容	如“客户 A”、“金额 X”
本地向量化	在本地完成向量化，只把向量而非原始文本发送至云端
混合架构	敏感数据本地处理，非敏感数据云端处理

部署策略

策略	描述
速度优先	云服务+商业 API
混合部署	核心功能使用高质量商业 API，高频非核心使用本地
完全本地化	根据业务需求选择性实施

多段式上线

阶段	描述
能用就行	根据业务最低容错率判定
基于反馈重点优化	反馈机制
持续优化	持续优化策略

反馈机制

机制	描述
直接反馈	点赞/点踩、评分、问题报告
间接反馈	使用时长、重复提问率、人工求助转化率
反馈分析	识别常见失败模式和根本原因

持续优化策略

策略	描述
数据处理	补充缺失信息、调整分块策略
检索模块	调整检索参数、改进排序算法
生成优化	优化提示词模板、调整模型参数

数据处理

属性	描述
相关性	数据与业务问题的相关性；剔除低相关性数据
实时性	实时性属性的数据判断是否过时
权威性	根据不同渠道的数据添加不同的权威度
结构化程度	评估信息组织的清晰度；定制化处理和存储
去重	识别并合并重复或高度相似内容
去噪	移除格式标记、无意义内容、噪音数据
结构化程度	将非结构化内容转化为结构化形式

知识库更新策略

策略	描述
增量更新	只处理新增或变更内容
定期全量更新	针对关键数据源的周期性刷新
差异化更新	基于时效性进行差异化的更新频率

系统升级能力

组件	描述
分词组件	可独立升级而不影响其他部分
数据库	平滑迁移或替换
灵活切换模型	大模型供应商可灵活切换

开源框架选择

框架	描述
RAGFlow	适合快速部署，内置多种优化策略
LangChain	生态丰富，需要代码能力，灵活开发

向量数据库

规模	描述
小规模应用	FAISS、Chroma 等轻量级选项足够
大规模应用	Weaviate、Milvus、Pinecone 等分布式解决方案
特殊需求	Qdrant（过滤功能强）、PGVector（与现有 PostgreSQL 集成）

扩展接口预留

接口	描述
数据源接口	支持未来接入新数据源
评估接口	便于接入第三方评估工具
人工干预接口	在自动化流程中预留人工介入点

评估指标多维度

指标	描述
准确性	回答中正确信息的比例
完整性	回答覆盖问题所需信息的程度
相关性	回答与问题的直接关联程度
有用性	回答对用户实际问题的解决价值

构建标准测试集

标准	描述
核心问题	覆盖核心业务场景的典型问题
困难问题	包含边界情况和挑战性问题
按需更新	随业务变化更新

监控体系

监控	描述
技术监控	响应时间、错误率、系统负载
业务监控	使用频率、解决率、用户满意度
成本监控	API 调用量、存储使用量、计算资源消耗

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-28

2026年，知识库重新回归

2026-05-28

真正的AI知识库

2026-05-27

企业知识库里的元数据，到底应该怎么用？

2026-05-26

别买错 PLAUD

2026-05-26

咨询 | 人工智能时代咨询公司怎么做知识管理Knowledge Management；以及如何通过上下文和KM，做好自己的Agent

2026-05-24

知识库不是把文档丢进去就完事了（AI知识库避坑指南②）

2026-05-24

为什么你的知识库，建完就没人用了？（AI知识库避坑指南①）

2026-05-24

基于本体建模和LLM-Wiki的思路构建AI智能知识库-完成完整方案和长文写作

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

教程｜用腾讯乐享AI知识库+WorkBuddy构建内容生产工作流

2026-03-31

Kimi上线了OpenClaw手机版，给大家分享5种知识管理的神级技巧

2026-03-05

最近的AI信息焦虑，被阿里Agent团队治好了（附赠工具）

2026-03-23

AI大神卡帕西的知识管理方法刷屏，用Get笔记六步抄作业

2026-04-07

AI Coding思考：从工具提效到范式变革，我们还缺什么？

2026-03-02

从检索到理解：Karpathy的LLM Wiki为什么比RAG高一个维度

2026-04-12

我试了 Karpathy「让知识自己长出来」的方法，踩了 4 个坑

2026-04-07

AI工作流在淘宝交易舆情巡检上的探索与实践

2026-03-06

Obsidian + Codex：把本地文档变成可被 AI 维护的知识库

2026-04-28

Karpathy又双叒叕发新概念了，这次我替你找到了那个产品

2026-04-07

大家都在问

企业知识库里的元数据，到底应该怎么用？

2026-05-27

Claude 盯上小老板：Coding 之后，下一个吞 Token 兽？

2026-05-14

AI行业正从“卖Token”转向“卖组织认知能力”，咨询业浴火重生？

2026-05-10

Agent 从“能用”到“管好”，中间差了什么？

2026-05-08

AI Coding思考：从工具提效到范式变革，我们还缺什么？

2026-03-02

.md 编译了个人认知，什么来编译企业的认知？

2026-02-27

复制“金牌销售”的大脑：江森自控如何利用 Foundry 将部落知识代码化？

2025-12-09

人类社会知识领域扩展显著，机器智能究竟在其中扮演的具体角色？

2025-11-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部