推荐语
用大模型搭建本地知识库,让AI成为你的专属助理,安全高效处理各类文档检索与归纳工作。
核心内容:
1. 本地知识库的搭建方法与安全优势
2. Cherry Studio平台的功能介绍与使用步骤
3. 文本嵌入模型的选择与实际应用案例
杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
前段时间用大模型搭建了一个自用本地知识库,觉得很好用!像有个助理任劳任怨地,可以随时召唤处理一些搜索、归纳的工作,减少人肉工作量,如有神助。最主要是数据全部放在本地(资料文件在个人电脑上),除了调用大模型联网,相对来说是比较安全的。如果考虑绝对数据安全的,那就需要大模型本地部署了。我突发奇想,当前安全管理工作涉及的法律法规、规章条例众多,如果把这些内容进行知识库化,用时就能做到信手拈来,找到出处,减少遗漏错误。个人认为最重要的一点,能避免“AI幻觉”干扰你所获得条款、条文,因为大模型获取的信息源都来自本地文件。我使用方法是基于cherry studio平台+硅基流动,当然也有其他方法,有兴趣的可以去探索。我使用的是cherry studio,该怎么解释它的作用功能呢?简单说就是一个“AI万能工具箱”,做个不准确的比喻:它主要有三大功能。大模型集合体:如同工具箱里既有瑞士军刀(通用模型)、电钻(专业模型)。
知识库管理:像智能文件柜,不仅能自动分类资料(文档处理),还能瞬间找到夹在书页里的便签(向量检索)。
生产力工具:好比桌面上摆着翻译器、绘画本、灵感速记本,一键切换各场景。
cherry studio扮演中间人,左手牵着大模型,右手拉着知识库里的文件,你两就在我这里交付产品吧!产品定制要求来自你。首先安装cherry studio,网站 https://www.cherry-ai.com/第二步,依次点击设置→模型服务→硅基流动→打开按钮。第三部,在硅基流动官网注册账号,并新建api密钥。第四步,把官网api密匙复制到cherry studio里,点击检测,成功连接会显示✓。api密钥的作用相当于一把钥匙,如果和刚才新建的密钥一致就能直接使用硅基流动所有的模型。同理也能在列表里DeepSeek、kimi平台新建密钥。文本嵌入模型能实现常用的检索功能:密集检索、多向量检索和稀疏检索。常用免费的是BAAl/bge-m3。
用大家听得懂的话解释:就像一台“语义翻译机”—它能把文字(比如句子、段落)转换成计算机能理解的数字密码(向量)。这些数字不仅能保留原文的意思,还能让计算机快速比较不同文本的相似度。
处理数字是计算机最擅长的了。
首先搭建知识库,依次点击知识库→添加→常规设置→选择BAAl/bge-m3。
提醒下,最左侧导航栏,需要在设置里的显示设置修改才会出现。
知识库搭建完成,就能文件“喂”给知识库了。文档、网址来者不拒。我上传了消防法文本文档。3 使用知识库
完成上述两步,知识库已经搭建完成,切换到对话栏就能使用了。使用前先选择自己要用的模型,在选择知识库。说下deepseek两个版本模型区别,R1偏推理,对发散性问题处理比较好;V3适合长文本处理,各有所长。演示一下,我键入“人员密集”,等待几秒后得到输出结果。结果中的某些内容右上角数字就是引用来源。当你电脑上有很多的日常储备的文件,急需某条专业标准要求时,使用大模型搭建知识库不失为一个高效准确的方法。这个知识库也有个缺点,就是只能在当时安装的电脑上使用,对于有频繁变动的工作地点的不太友好。不过我也想到了办法:在硬盘里直接搭建知识库和储存资料,有电脑情况下便能随时召唤知识库。