微信扫码
添加专属顾问
我要投稿
从RAG技术专家到放弃的心路历程,揭秘GraphRAG为何难以普及。 核心内容: 1. 传统RAG技术的局限性分析 2. GraphRAG的优势与普及困境 3. 从"能用"到"好用"的调试难题
我已经很久很久没折腾RAG了。
其实我的账号最初就是靠RAG、个人知识库的内容收获了第一批流量、第一批社群成员。但是后来我逐渐不再关注这个技术和相关产品。两个原因。
第一,技术局限性。
一年前,当我看倒GraphRAG的时候,眼前一亮,因为它解决了传统RAG的严重不足。
传统RAG的基础是分块。这会切断知识之间的内在联系,造成上下文孤立。举个例子,有三个分块。A提到了张三,B提到了李四,C提到了张三和李四是同事。传统RAG必须检索到C才能知道张三和李四的关系。
你可以试一下,把一部小说用传统RAG进行处理,然后问一些人物方面的问题,你就会很明显地发现这种技术上的局限性。
所以,我的知识库都是单条笔记,并且在创建笔记和编辑笔记的时候,尽量做到一个段落就表达一个意思,不要有太多的上下文关联、交叉。这都是为了规避传统RAG的局限。
而GraphRAG不一样。它通过知识图谱,能够把实体和关系连接起来,理论上可以完美解决传统RAG的问题。但是我等了一年,GranphRAG也没能普及。我判断大概有这三个原因。
一是成本太高。
把非结构化的文本转化为高质量的知识图谱,本身就是一个复杂的NLP任务,它涉及到实体识别、关系抽取等。这个过程计算成本很高,而且准确率不太稳定,还需要大量的人工校验。
相比之下,传统RAG把文档切块,然后生成向量,就便宜得多。
二是技术栈太复杂,实施难度高。
GraphRAG这套东西的实施,对开发团队要求太高了。传统RAG相对比较容易。
三是需求不足。
大部分的企业和个人知识库场景,都是简单的问答、文档查询。这种需求大概占了80%,用传统RAG就搞定了。这种情况下如果还要投入去搞GraphRAG,就有点不划算了。
于是,对我来说,RAG似乎就停在了一年多以前的那个位置。今天那些技术,在我早期还在写脚本、手搓RAG的阶段都用过了,比如Hybrid Search、Re-ranking、Multi-Query,都是在给这个技术打补丁。就那样了。
第二,能用容易,好用难。
今天,无论是企业还是个人,想搭建一套能用的RAG系统,门槛其实很低了。
如果有动手能力的话,开源的框架很成熟了,比如LangChain和LlamaIndex,它们已经把RAG的各个步骤都封装成了标准化的模块。你只需要像搭积木一样调用几个函数,一个基础版的RAG原型就能跑起来。
如果不想折腾,也有很多现成的工具可以使用。
但是,这只是能用的程度。如果是要把这套系统调试到好用级别的话,还有很多工作要做,有很多难关要过。
比如,你的文档应该如何切块?用多大的尺寸?要不要保留重叠?用什么嵌入模型?这些都会严重影响检索结果。而且,它们没有标准答案,需要大量实验。
说实话,调到后边,你甚至会感觉有点玄学了。
另外,要有更好的效果,肯定要用上那些高级技术,比如刚才提到的Hybrid Search等等。这就要求你对整个系统有更深的理解,绝对不是调用几个API那么简单。
最后,系统搭建好之后,你该怎么评估呢?以及各种调试之后,到底是变好还是变差?这些都涉及到评估标准的建立,这个也是一件非常头大的事情。
当我深入了解RAG之后,我有一种很强的无力感。如果真要达到我自己满意的程度,要投入大量心血,会耽误我去做很多别的事情。
所以,今年以来,一方面,我改用现成的大型工具。比如之前介绍过的Cursor。它连那么复杂的代码关系都能搞定,处理我的笔记更是小菜一碟了。而且Cursor还自带编辑功能和联网搜索功能,我如果要写点东西的话,用它就很舒服了。
另一方面,比起信息检索,我现在更多是在做知识提炼。
比如我之前分享过,我把上百篇视频脚本、加起来有7.5万字的内容都喂给Gemini,让它帮我提炼我的个人IP内核。
Gemini 2.5 Pro的上下文长度足够大,推理能力足够强,所以非常适合做知识提炼。过去半年,我大量采用这种方法,收获是很大的。
所以我会建议大家,当你的笔记或者各种资料积累到一定程度,一定要停下来,开始做提炼。
第一,人的大脑不是硬盘。无休止地收集只会加重认知负担。
第二,只收藏不提炼,你拥有的只是停留在第一层的信息。
自我提炼的过程,就是强迫自己去思考、去连接、去创造,完成从信息到知识的跃迁。
让AI提炼的过程,就是让AI帮忙发现盲区,发现更多可能的连接。
这个就是我这半年来做得最多的事,非常有用,真心推荐给大家。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-22
ppt检索的RAG方案(多模态、OCR、混合检索)评估结论
2025-09-19
RAG系统优化大揭秘:让你的AI从学渣变学霸的进化之路
2025-09-18
Meta超级智能实验室首篇论文:重新定义RAG
2025-09-18
关于相似度计算和rerank重排序的区别和作用
2025-09-18
给RAG打分:小白也能懂的AI系统评测全攻略
2025-09-18
向量化与嵌入模型:RAG系统背后的隐形英雄
2025-09-17
当“相似度 ≠ 相关性”:PageIndex 带来的 RAG 新范式
2025-09-17
解锁RAG高阶密码:自适应、多模态、个性化技术深度剖析
2025-07-15
2025-07-16
2025-07-09
2025-07-08
2025-09-15
2025-08-05
2025-08-18
2025-09-02
2025-08-25
2025-07-01
2025-09-10
2025-09-10
2025-09-03
2025-08-28
2025-08-25
2025-08-20
2025-08-11
2025-08-05