手把手！最新知识图谱落地！0基础实跑纯本地大模型做任务！结合langchain！实现识别+匹配节点关系！40/45

发布日期：2024-04-13 16:08:47 浏览次数： 4241

作者：一意AI增效家

微信搜一搜，关注“一意AI增效家”

hi~

新年好呀！

真的非常享受在家工作的状态！

背着电脑，哪怕是在外面，空闲下来，随时随地，想跟兄弟们说几句话，想写点什么，做点什么！

马上开电脑！

身后，是青山绿水，蓝天白云，空气怡人！

真的，非常爽！

雄哥怀着喜悦之情，此时正在深山中写下这篇文章，希望你也能感受到！

上一篇！雄哥把私有文档的预处理+文本提取分块的任务交付给各位股东！

数据是一切的开始！

很多朋友问，处理好数据，有什么用呢？

对于公司来说：

HR每天筛选几百份简历，把数据交给AI，他自动帮你筛选合适人选，并且主动编辑发送约面邮件！

业务每月产生几千份客户合同，纸质版文档，通过结构化数据提取，让AI帮你完成信息归档、客户分析、营销策略优化等工作！

电商每月产生几万条客户评价，海量信息中，让AI来发掘客户新需求、产品优化建议、舆情监控等功能！

对于个人来说！一切学习笔记、书籍等文本，都可以呈现数据化、可视化，接入AI，真正成为你的私人助理！

数据，是一切的基础！

今天，跟着雄哥动手做知识图谱+高级RAG应用！让你的数据存到AI中！

考虑到企业有数据安全+私密性要求，本次所有实操，纯本地完成！

整个系列的内容是这样的！

day38：如何提高RAG效果？什么是高级RAG？知识图谱？【点击阅读】

day39：一切的开始！PDF文档的精致处理！再跑文本提取【点击阅读】

day40：用本地LLM！识别+匹配数据概念及语义关系！【本篇】

day41：做知识图谱数据可视图！让数据关系+图谱可视化！

day42：纯本地！知识图谱与高级GRAG的高级检索联动应用！

day43：进阶RAG！用上下文+元数据优化RAG检索效果！

day44：进阶RAG！如何用Rerankers 提高检索效率！

day45：多模态MM-RAG！矢量数据库终于有可用武之地！

整个知识图谱的项目！雄哥做好了！以医疗项目数据为例，已全部托管到GitHub！浏览器打开以下链接即可访问！

https://ouhuixiong.github.io/yiyiai-kg

价值内容，仅对知识星球会员开放，我们已经做了大模型微调、知识库+RAG、数据预处理、langchain+llama_index的内容！点击下方小程序申请加入！

人的专注力只有10分钟！那，话不多说！

① 知识图谱的全局性思考，怎样落地？真正给你“渔”！

② 实操方案详解！何工具实现数据提取、节点构建、可视化！

③ 跑起来！跑一个实例代码，一边跑，一边聊细节！

只想学习如何搭建的，直接跳到第三部分！所有的代码和结果呈现，都已上传到知识星球的会员数据盘，在这个路径查找！

有任何问题，直接找雄哥的技术助手—小胖，他会始终在你副驾，帮你解决问题，需要申请知识星球的朋友，联系他，会有个新年优惠券给你！

第一部分：全局性思考，真正给你“渔”！

庄子：纵横不出方圆，万变不离其宗！

世间事物都有其底层逻辑！

雄哥经常跟知识星球的朋友说，我们学习，一定要学基础、学思维！

是真的想教会你，从0基础开始，真正掌握一项技术！

做知识图谱，先从需求出发，究竟想解决什么问题？目标明确了，做什么事情都事半功倍！雄哥做了一个常见需求统计表：

有了目标，就要做技术工程计划和资源分配。知识图谱的构建是一个综合工程，不仅需要软件开发人员，还需要数据分析师、领域专家知识支撑。除了以上，还需要一个专业资源分配项目中控，确保项目顺利进行。

接下来，雄哥会深入探讨如何实现有效的技术工程计划和资源分配！

1.1 技术工程计划的制定

技术选型：选择合适的技术栈是成功构建知识图谱的前提。包括数据存储（如图数据库Neo4j、JanusGraph）、数据处理（如Apache Spark、Kafka）和前端展示（如D3.js、Sigma.js）等工具的选择。雄哥会在第二部分详细说明本次项目所用到的工具！

数据源确定：根据目标确定需要整合的数据源。数据源可能包括公开的数据集、内部数据库、互联网爬虫数据等。这一步骤还需考虑数据的质量、可用性和相关法律法规。

架构设计：设计合理的系统架构，包括数据采集、处理、存储、查询和展示等各个环节。这一步可以确保系统的可扩展性、稳定性和安全性。

开发计划：制定详细的开发计划，包括各个阶段的目标、时间线和责任分配。有效的开发计划应该是迭代的，能够适应项目进展中的变化。

1.2 资源分配策略

你手上有什么子弹，有多少人、多少时间、多少钱、多少技术积累，这应该是心中有数，可婉婉到来的！

团队建设：构建一个跨学科团队，刚刚雄哥也说了，除了技术、还有版块的专业支撑。而且，每个成员都应该清楚，自己的职责，如何与团队其他成员协作。

时间管理：合理分配时间资源，确保关键里程碑的达成。使用敏捷开发方法，如Scrum或Kanban，可以提高项目管理的灵活性和效率。

资金投入：明确项目的预算，合理分配资金，确保关键环节和资源的投入。投资应重点关注技术研发、数据获取和人才培训等方面。

知识共享：团队内部的知识共享和持续学习，定期进行技术分享、工作坊和培训提升团队的整体技能水平。

雄哥做这个项目的基础很简单！首先当然是满足知识星球伙伴们的学习需求啦！然后把项目的结果可视化呈现出来，让所有人都可以看到！

第二部分：实现方案详解！用何工具？怎样用？

雄哥做这个项目，核心四步！后面雄哥会详解的！

①文本分块：将文本语料库分割成多个块，并为每个块分配一个块ID！这一步雄哥之前跑过了，还没跑过的，稍后回看雄哥的历史分享！

使用工具：langchain、llama_index、Unstructured等

②关系提取：每个文本块，使用大型语言模型（LLM）提取概念及其语义关系，并为这种关系分配一个权重W1。同一对概念之间可以有多个关系，每种关系是概念对之间的一条边！

使用工具：ollama、zephyr、df2Graph、graph2Df等

③相关性计算：同一文本块中的概念也通过它们的上下文邻近性相关联，我们为这种关系分配一个权重W2，同一对概念可能出现在多个块中！

使用工具：Pandas库、NumPy库

④可视化呈现：将相似的对分组，求和它们的权重，连接起来。现在，在任何不同概念对之间只有一条边。这条边有一定的权重，并且以关系作为其名称！最后呈现一个可视化的概念图，网页形式呈现！

使用工具：Seaborn库、Pandas库、NetworkX库、Pyvis库等

第三部分：跑一个实例！边跑边聊细节！

老实交代！你不是直接跳到这里的？

快！返回上去看“心法”！

今天，雄哥只做数据处理、关系提取，明天，雄哥带着大家做连线题！做可视化呈现！

OK！跑起来吧！

主要有两个部分内容！

#A 创建实操AI环境，minic‍onda+jupyter-notebook

#B 实跑知识图谱，呈现html网页文件！

3.1 创建实操AI环境

首先，我们要在ollama先部署一个zephyr大模型，你也可以换其他的LLM，还没学怎么部署的，点击这里学部署！

无显卡+纯本地跑Qwen1.5版模型！0基础闭眼部署指南！适用绝大部分开源模型！llama2+Mistral+Zephyr通杀！

跟着雄哥打开WSL，输入指令，回车启动！

如果是第一次部署，会自动下载这个模型！占用显存6G左右！

ollama run zephyr

先把窗口挂在后台，雄哥后面有代码，接入它！

LLM的作用，是根据我们的文本块，生成概念关系！如下图！

打开miniconda，雄哥在这里部署环境，在这个环境中，处理数据，生成概念图！

还没部署AI环境的朋友，在这里学部署！

第四天！0基础微调大模型+知识库，部署在微信！手把手安装AI必备环境！4/45

创建新环境！在miniconda的命令窗输入指令，然后回车！

conda create --name kg python=3.10

名称是“kg”，指定python版本3.10！一定要重新创建，不要用之前的环境！养成习惯！

激活环境！创建后，我们要激活进入新的这个环境，进入环境后，所有的操作，都在这个完全独立的环境！不存在依赖冲突！输入指令，回车！

conda activate kg

安装依赖！进入环境后，先输入以下指令，回车！然后输入“y”确认安装！

pip install pandas numpy networkx seaborn langchain pypdf2 pyvis tqdm yachalk unstructured "unstructured[pdf]"

安装jupyter！后面要用它来工作！

pip install jupyter

进入jupyter！输入以下指令，回车，会自动跳转到浏览器打开环境！

jupyter-notebook

处理下载的文件！

把在会员盘的文件，下载后放到一个纯英文+简单的路径，然后cd进去，这里雄哥放在用户文件夹！

然后双击打开，yiyiai-kg这个notebook！

简单说说这个怎么用！因为有些朋友可能很少用jupyter！

有图！

右上角这个圆圈，代表运行这份代码的内核！如果这里是空白的，就重新进！如果在工作中，图中的圆圈会变成灰色的，代表有任务在运行！

你每点击一个块，按住键盘“ctrl”+“回车”，自动运行你点的这个代码！

也可以点击上方的小三角运行！

按顺序运行就ok！

每一个版块，雄哥都把核心操作，都写清楚了，仔细看，你应该能看懂！

到这里，我们的环境就创建完成了！

3.2 实跑知识图谱，呈现html网页文件！

老规矩！雄哥一边跑，一边讲讲核心代码！

设置默认的输入+输出目录！

跟着上篇操作的朋友都知道，雄哥的pdf数据统一存放在“F:/data/03”这个路径！

不管你放在哪，直接绝对路径更改就行了！输出目录在同一个文件夹内，会自动新建一个“output”文件夹！

## （一意AI增效家）## 定义输入数据的路径data_dir = "F:/data/03"inputdirectory = Path(f"./data_input/{data_dir}")## 定义素数据输出路径out_dir = data_diroutputdirectory = Path(f"./data_output/{out_dir}")

加载数据+拆分文本块！

这里，雄哥用了pdf加载器工作！然后用langchain的递归拆分方法，来拆分这个文件夹下的所有pdf，设置每个文本块1500，重合部分150！

#（一意AI增效家）# 如果你的源文件是PDF,需用pdf加载器# loader = PyPDFDirectoryLoader(输入目录)# 文件加载器loader = PyPDFDirectoryLoader(r"F:/data/03")# 源文件txt文件用以下加载器，同时把pdf加载器注释即可（yiyiai）# loader = DirectoryLoader(inputdirectory, show_progress=True)documents = loader.load()
splitter = RecursiveCharacterTextSplitter(chunk_size=1500,chunk_overlap=150,length_function=len,is_separator_regex=False,)
pages = splitter.split_documents(documents)print("Number of chunks = ", len(pages))print(pages[3].page_content)

运行之后，它会返回总共拆分了多少个文本块！

Number of chunks = 8

这里意思就是拆分了8个文本块！它会环视处理这个“F:/data/03”路径的所有pdf！数据越多，文本块越多，需要处理的时间就越久！

创建数据框！分配块ID！

这里写了一份代码，来分配每一个文本块的ID！

from helpers.df_helpers import documents2Dataframedf = documents2Dataframe(pages)print(df.shape)df.head()

传给大模型（LLM），提取主体关系！

这里，雄哥刚刚分的8个文本块，会保存为“chunks.csv”，然后传给LLM处理，处理之后，返回“graph.csv”！代码是这样的！

if regenerate:concepts_list = df2Graph(df, model='zephyr:latest')dfg1 = graph2Df(concepts_list)if not os.path.exists(outputdirectory):os.makedirs(outputdirectory)dfg1.to_csv(outputdirectory/"graph.csv", sep="|", index=False)df.to_csv(outputdirectory/"chunks.csv", sep="|", index=False)else:dfg1 = pd.read_csv(outputdirectory/"graph.csv", sep="|")
dfg1.replace("", np.nan, inplace=True)dfg1.dropna(subset=["node_1", "node_2", 'edge'], inplace=True)dfg1['count'] = 4 ## 这里先把权重设置为4## 稍后计算上下文邻近性时，雄哥将分配权重为1print(dfg1.shape)dfg1.head()

雄哥写了一份提示词，来告诉LLM应该怎样提取，然后返回怎样格式的文本，如果LLM的工作不达标，你可以在下图这个文件修改提示词！或者，炒鱿鱼！根据算力改模型吧！

计算相似度+合并数据框！

因为同一份数据中，可能会存在同样意义，要计算他们的相似度，然后合并！才能呈现关系！

dfg = pd.concat([dfg1, dfg2], axis=0)dfg = (dfg.groupby(["node_1", "node_2"]).agg({"chunk_id": ",".join, "edge": ','.join, 'count': 'sum'}).reset_index())dfg